如何在Python中编写简单代码，并且速度超越Spark？( 二 )_全文共3482字

全文共3482字，预计学习时长7分钟

\n \n

\n \n \n

如今，大家都在Python工具（pandas和Scikit-learn)的简洁性、Spark和Hadoop的可扩展性以及Kubernetes的操作就绪之间做选择。结果是，选择应用了以上所有工具。主攻Python的数据科学家、精通Java和Scala Spark的大师和一批开发者，他们三批人马保持独立，分别管理解决办法。

\n \n

数据科学家们用pandas进行探索。然后，其他的数据工程师团队重新编写相同的逻辑代码并使其大规模工作，或者使用Spark令其与实时流一同工作。当数据科学家需要更改逻辑或将一个不同的数据集用于他/她的模型时，则会进行一次次地迭代。

\n \n

除了注意业务逻辑之外，还要分别或同时在Hadoop和Kubernetes构建集群，并应用整个CI / CD过程手动进行管理。最重要的是，大家都在努力工作，没有足够的业务影响来展示它......

\n \n

如果你想在Python中编写简单代码，并且用比Spark更快的速度运行，同时无需重新编码、无需开发者解决部署、扩展和监控问题，可能吗？