数据收集六步曲, 打好机器学习模型基础( 五 )

第五步:特征工程

这一步包含了一门艺术与科学 , 即将原始数据转化为特征 , 使其能够更好地将模式导入学习算法 。 举个例子 , 数据可以被分解为多个部分来抓住更加具体的关系 , 例如 , 按星期几来分析销售表现 , 而不仅是按月或年 。 在这种情况下 , 将星期几从日期列表中单独分开(例如“周一;2017.06.19)可能为算法提供相关性更强的信息 。

第六步:将数据拆分为训练集和评估集

最后一步是将数据拆分为两个数据集 , 一个用于算法训练 , 另一个用于评估 。 拆分训练集和评估集时 , 务必选择数据中非重叠的子集以确保测试正确 。 将原始数据与你所准备的数据输入机器学习算法时 , 购买提供版本管理和编目功能的工具 , 并理清两种数据的关系 。 这样 , 就可以依据预测结果追溯输入数据 , 便于日后改善优化你的模型 。

促进商业表现-如何用DP实现ML并解决数据问题

推荐阅读