想让机器学习与商业结合，最重要的是什么？( 十 )

2019-07-22

完成数据准备后，不难发现最终的特征集——即机器学习模型的输入内容——比初始的小很多；另一种常见情况是R或scikit-learn等内存框架足以培养模型。若特征集规模仍十分庞大，可以使用ApacheSpark等大数据工具，尽管其算法选择有限。

\n \n

\n

脏数据！

\n \n

\n

脏数据很常见

\n \n

人们当然希望能学习一些尚不了解的东西，但这一点非常重要：脏数据很常见。在企业合作中，很多客户经常自豪于他们的数据湖泊建设，比如数据湖泊有多壮观、他们可从中得出多少洞见等。因此，作为数据科学家，以下就是我们脑海中的景象：

\n \n

\n \n

但是，当客户拿出实际数据时，情况更像是这样：

\n \n

\n \n

在这种情况下， Apache Spark等大规模框架就显得尤为重要，因为所有的数据监管转化过程都需要在全部原始数据上完成。以下是几个典型的监管案例：

推荐阅读

上一篇：腾讯出的全能文件管理App，干掉微信QQ一点不含糊！

下一篇：大一新生入学需要购买哪些电子产品呢？做好准备，到时才不会慌！