数据收集六步曲, 打好机器学习模型基础( 四 )

第三步:调整并统一数据格式

大数据准备的下一步 , 就是确保数据的格式与机器学习模型相匹配 。 如果收集到的数据来自不同数据源 , 或者数据集被不止一位投资人手动修改过 , 那么就可能需要检查数据格式中的异常(例如USD5.50与$5.50) 。 用相同的方式标准化一列中的数值(例如:全拼或缩写的州名)能够确保数据正确汇总 。 一致的数据格式能够避免这些错误 , 这样整个数据集都会使用相同的输入格式协议 。

第四步:提高数据质量

在这一步 , 首先需要一个策略来处理数据中的错误数据、缺失值、极值和异常值 。 如果自助数据准备工具中含有内置的智能工具 , 可以帮助匹配不同数据库中的数据属性并智能整合 , 那么则可以用它来帮忙 。 例如 , 如果在一个数据库中含有两列 , “名”和“姓” , 而另一个数据库中含有一列“客户” , 它似乎包含了“姓”和“名”的组合 , 智能算法就应当能够确定一种匹配二者的方法 , 并将数据库整合成单一的客户视图 。

对于连续的变量 , 务必使用直方图来检查数据分布规律 , 减少偏差 。 务必检查可接受值范围外的记录 。 这种异常值可能是一个输入错误 , 也可能是一个可能反映未来事件的真实的、有含义的结果 。 重复或相似的值可能含有相同的信息 , 应当消除 。 类似的 , 在自动删除所有包含缺失值的记录前要小心谨慎 , 因为过多的删除会使数据集产生偏差 , 导致不能反应现实情况 。

推荐阅读