数据收集六步曲, 打好机器学习模型基础( 三 )
这是到现在为止最为基础的一步 , 能够处理一些共性的问题 , 包括:
· 自动确定储存在.csv格式文件中的数据串的相关属性 。
· 解析高度嵌套的数据结构 , 例如将XML或JSON文件中的信息转换为表格形式 , 方便扫描和模式检测 。
· 从外部储存中搜索和识别相关数据 。
但是 , 在考虑DP的解决方案时 , 要确保其能将多个文件组合成单个输入 。 比如你有一组包含每日交易信息的文件 , 但是机器学习需要输入一整年的数据 。 还要确保制定好针对数据集与机器学习模型中的取样和偏好有关的问题应急处理方案 。
第二步:数据探索与分析
完成数据收集后 , 就需要评估数据状态 , 包括查找趋势、异常值、异常的、错误的、不一致的、缺失的或偏斜的信息 。 这很重要 , 因为源数据会反映出模型的所有结果 , 所以确保数据不包含隐藏的偏差十分重要 。 例如 , 如果你正在查找全国消费者的行为数据 , 但是只从一个有限的样本中提取了数据 , 就有可能缺失了重要的地理区域 。 这时候就需要在整个数据集 , 而不仅仅是部分或样本数据集中 , 找出所有可能导致模型结果出现错误偏差的因素 。
推荐阅读
- 捉迷藏|?LOL世界赛“含金量”数据出炉:EDG仅排第六,IG稳居榜首
- 碧蓝航线|碧蓝航线SR重巡福煦数据详解 期待越高失望越大 强度平平无奇
- kramer|国服极地大乱斗数据上线,来看看胜率榜符合你的预期吗?
- 米莱狄|峡谷数据榜:分均输出TOP5,干将莫邪只排第四,米莱狄至今被误解
- |S11淘汰赛数据盘点:场均时长为33分 55个不同英雄登场
- 中单|2021年英雄联盟世界赛终于落下帷幕!!大数据统计二!!
- 灵饰|梦幻西游:109级法系前排灵饰选择方法,用数据告诉你怎么做
- 卡牌|S11淘汰赛数据出炉,卡牌24场全被ban,压刀最多竟是辅助
- edg战队|堡垒之夜国服将清除数据,EDG创造队史晋级S11世界赛决赛
- 原神|原神:流水预测数据还在变化,日本的预估流水,倒是有了小状况