数据收集六步曲, 打好机器学习模型基础( 三 )

这是到现在为止最为基础的一步 , 能够处理一些共性的问题 , 包括:

· 自动确定储存在.csv格式文件中的数据串的相关属性 。

· 解析高度嵌套的数据结构 , 例如将XML或JSON文件中的信息转换为表格形式 , 方便扫描和模式检测 。

· 从外部储存中搜索和识别相关数据 。

但是 , 在考虑DP的解决方案时 , 要确保其能将多个文件组合成单个输入 。 比如你有一组包含每日交易信息的文件 , 但是机器学习需要输入一整年的数据 。 还要确保制定好针对数据集与机器学习模型中的取样和偏好有关的问题应急处理方案 。

第二步:数据探索与分析

完成数据收集后 , 就需要评估数据状态 , 包括查找趋势、异常值、异常的、错误的、不一致的、缺失的或偏斜的信息 。 这很重要 , 因为源数据会反映出模型的所有结果 , 所以确保数据不包含隐藏的偏差十分重要 。 例如 , 如果你正在查找全国消费者的行为数据 , 但是只从一个有限的样本中提取了数据 , 就有可能缺失了重要的地理区域 。 这时候就需要在整个数据集 , 而不仅仅是部分或样本数据集中 , 找出所有可能导致模型结果出现错误偏差的因素 。

推荐阅读