如何在Python中编写简单代码，并且速度超越Spark？( 五 )

2019-10-08

\n \n \n

本文使用单GPU (NVIDIA T4) 它可以使服务器价格增加约30％，性能提升30多倍。只使用几行Python代码，每秒就可处理1千兆字节的复杂数据。哇！！

\n \n

如果将此代码打包在无服务器函数中，它可以在每次用户请求时或定期运行，并读取或写入动态附加的数据卷。

\n \n

Python中可实现实时流吗？

\n \n

你是否尝试使用Python执行实时流式传输？好吧，我们做到了。以下代码选取自Kafka最佳实践指南，此代码从流中读取，同时并未额外处理。

\n \n \n

\n \n \n

问题在于Python本质上是同步的，而其在实时或复杂的数据操作方面效率相当低。该程序每秒只生成几千条消息，而且还没做任何有意思的工作。当我们添加前文示例中使用的json和pandas处理时，性能会进一步降低，处理速度仅为18MB / s 。那么，是否需要回到Spark进行流处理呢？

\n \n

推荐阅读

上一篇：初中生最害怕参加的3项运动，跑步常规上榜，最后一个太痛苦了

下一篇：代码写太长了？自测六个问题，找出答案！