数据收集六步曲, 打好机器学习模型基础( 四 )
第三步:调整并统一数据格式
大数据准备的下一步 , 就是确保数据的格式与机器学习模型相匹配 。 如果收集到的数据来自不同数据源 , 或者数据集被不止一位投资人手动修改过 , 那么就可能需要检查数据格式中的异常(例如USD5.50与$5.50) 。 用相同的方式标准化一列中的数值(例如:全拼或缩写的州名)能够确保数据正确汇总 。 一致的数据格式能够避免这些错误 , 这样整个数据集都会使用相同的输入格式协议 。
第四步:提高数据质量
在这一步 , 首先需要一个策略来处理数据中的错误数据、缺失值、极值和异常值 。 如果自助数据准备工具中含有内置的智能工具 , 可以帮助匹配不同数据库中的数据属性并智能整合 , 那么则可以用它来帮忙 。 例如 , 如果在一个数据库中含有两列 , “名”和“姓” , 而另一个数据库中含有一列“客户” , 它似乎包含了“姓”和“名”的组合 , 智能算法就应当能够确定一种匹配二者的方法 , 并将数据库整合成单一的客户视图 。
对于连续的变量 , 务必使用直方图来检查数据分布规律 , 减少偏差 。 务必检查可接受值范围外的记录 。 这种异常值可能是一个输入错误 , 也可能是一个可能反映未来事件的真实的、有含义的结果 。 重复或相似的值可能含有相同的信息 , 应当消除 。 类似的 , 在自动删除所有包含缺失值的记录前要小心谨慎 , 因为过多的删除会使数据集产生偏差 , 导致不能反应现实情况 。
推荐阅读
- 捉迷藏|?LOL世界赛“含金量”数据出炉:EDG仅排第六,IG稳居榜首
- 碧蓝航线|碧蓝航线SR重巡福煦数据详解 期待越高失望越大 强度平平无奇
- kramer|国服极地大乱斗数据上线,来看看胜率榜符合你的预期吗?
- 米莱狄|峡谷数据榜:分均输出TOP5,干将莫邪只排第四,米莱狄至今被误解
- |S11淘汰赛数据盘点:场均时长为33分 55个不同英雄登场
- 中单|2021年英雄联盟世界赛终于落下帷幕!!大数据统计二!!
- 灵饰|梦幻西游:109级法系前排灵饰选择方法,用数据告诉你怎么做
- 卡牌|S11淘汰赛数据出炉,卡牌24场全被ban,压刀最多竟是辅助
- edg战队|堡垒之夜国服将清除数据,EDG创造队史晋级S11世界赛决赛
- 原神|原神:流水预测数据还在变化,日本的预估流水,倒是有了小状况