想让机器学习与商业结合,最重要的是什么?( 七 )

\n \n

“我会把数据集拆分成培养/测试两部分 , 运行LogisticRegression Random Forest SVM Deep Learning XGBoost程序……然后计算精确度、查全率、F1分数……最终挑选出最佳模型 。 ”

\n \n

但是 , 还有些问题被忽略了:

\n \n

“这个过程中你有看过数据本身吗?要是你遗漏了一些数值怎么办?如果你拿到错误的数值或是不良数据呢?你怎么设置分类变量?你是怎么做特征工程的?”

\n \n

本文中将介绍成功创建端对端机器学习系统的七个必要步骤 , 包括数据收集、数据监管、数据探查、特征抽取、模型培养、估值和部署 。

\n \n

\n

给我数据!

\n \n

\n \n

作为数据科学家 , 主要资源很明显是数据 。 但有时数据采集本身也有困难 。 一个数据科学团队可能会花费几周甚至几个月的时间来获取合适的数据集 。 其中的困难包括:

\n \n

推荐阅读