数据收集六步曲, 打好机器学习模型基础( 四 )_如今

第三步：调整并统一数据格式

大数据准备的下一步，就是确保数据的格式与机器学习模型相匹配。如果收集到的数据来自不同数据源，或者数据集被不止一位投资人手动修改过，那么就可能需要检查数据格式中的异常（例如USD5.50与$5.50）。用相同的方式标准化一列中的数值（例如：全拼或缩写的州名）能够确保数据正确汇总。一致的数据格式能够避免这些错误，这样整个数据集都会使用相同的输入格式协议。

第四步：提高数据质量

在这一步，首先需要一个策略来处理数据中的错误数据、缺失值、极值和异常值。如果自助数据准备工具中含有内置的智能工具，可以帮助匹配不同数据库中的数据属性并智能整合，那么则可以用它来帮忙。例如，如果在一个数据库中含有两列， “名”和“姓” ，而另一个数据库中含有一列“客户” ，它似乎包含了“姓”和“名”的组合，智能算法就应当能够确定一种匹配二者的方法，并将数据库整合成单一的客户视图。

对于连续的变量，务必使用直方图来检查数据分布规律，减少偏差。务必检查可接受值范围外的记录。这种异常值可能是一个输入错误，也可能是一个可能反映未来事件的真实的、有含义的结果。重复或相似的值可能含有相同的信息，应当消除。类似的，在自动删除所有包含缺失值的记录前要小心谨慎，因为过多的删除会使数据集产生偏差，导致不能反应现实情况。