如何在Python中编写简单代码,并且速度超越Spark?( 五 )

\n \n \n

本文使用单GPU (NVIDIA T4) 它可以使服务器价格增加约30% , 性能提升30多倍 。 只使用几行Python代码 , 每秒就可处理1千兆字节的复杂数据 。 哇!!

\n \n

如果将此代码打包在无服务器函数中 , 它可以在每次用户请求时或定期运行 , 并读取或写入动态附加的数据卷 。

\n \n

Python中可实现实时流吗?

\n \n

你是否尝试使用Python执行实时流式传输?好吧 , 我们做到了 。 以下代码选取自Kafka最佳实践指南 , 此代码从流中读取 , 同时并未额外处理 。

\n \n \n

\n \n \n

问题在于Python本质上是同步的 , 而其在实时或复杂的数据操作方面效率相当低 。 该程序每秒只生成几千条消息 , 而且还没做任何有意思的工作 。 当我们添加前文示例中使用的json和pandas处理时 , 性能会进一步降低 , 处理速度仅为18MB / s 。 那么 , 是否需要回到Spark进行流处理呢?

\n \n

推荐阅读