如何在Python中编写简单代码,并且速度超越Spark?( 二 )

\n

全文共3482字 , 预计学习时长7分钟

\n \n


\n \n \n

如今 , 大家都在Python工具(pandas和Scikit-learn)的简洁性、Spark和Hadoop的可扩展性以及Kubernetes的操作就绪之间做选择 。 结果是 , 选择应用了以上所有工具 。 主攻Python的数据科学家、精通Java和Scala Spark的大师和一批开发者 , 他们三批人马保持独立 , 分别管理解决办法 。

\n \n

数据科学家们用pandas进行探索 。 然后 , 其他的数据工程师团队重新编写相同的逻辑代码并使其大规模工作 , 或者使用Spark令其与实时流一同工作 。 当数据科学家需要更改逻辑或将一个不同的数据集用于他/她的模型时 , 则会进行一次次地迭代 。

\n \n

除了注意业务逻辑之外 , 还要分别或同时在Hadoop和Kubernetes构建集群 , 并应用整个CI / CD过程手动进行管理 。 最重要的是 , 大家都在努力工作 , 没有足够的业务影响来展示它......

\n \n

如果你想在Python中编写简单代码 , 并且用比Spark更快的速度运行 , 同时无需重新编码、无需开发者解决部署、扩展和监控问题 , 可能吗?

推荐阅读