想让机器学习与商业结合,最重要的是什么?( 十 )

完成数据准备后 , 不难发现最终的特征集——即机器学习模型的输入内容——比初始的小很多;另一种常见情况是R或scikit-learn等内存框架足以培养模型 。 若特征集规模仍十分庞大 , 可以使用ApacheSpark等大数据工具 , 尽管其算法选择有限 。

\n \n

\n

脏数据!

\n \n

\n

脏数据很常见

\n \n

人们当然希望能学习一些尚不了解的东西 , 但这一点非常重要:脏数据很常见 。 在企业合作中 , 很多客户经常自豪于他们的数据湖泊建设 , 比如数据湖泊有多壮观、他们可从中得出多少洞见等 。 因此 , 作为数据科学家 , 以下就是我们脑海中的景象:

\n \n

\n \n

但是 , 当客户拿出实际数据时 , 情况更像是这样:

\n \n

\n \n

在这种情况下 , Apache Spark等大规模框架就显得尤为重要 , 因为所有的数据监管转化过程都需要在全部原始数据上完成 。 以下是几个典型的监管案例:

推荐阅读