数据收集六步曲, 打好机器学习模型基础( 五 )
第五步:特征工程
这一步包含了一门艺术与科学 , 即将原始数据转化为特征 , 使其能够更好地将模式导入学习算法 。 举个例子 , 数据可以被分解为多个部分来抓住更加具体的关系 , 例如 , 按星期几来分析销售表现 , 而不仅是按月或年 。 在这种情况下 , 将星期几从日期列表中单独分开(例如“周一;2017.06.19)可能为算法提供相关性更强的信息 。
第六步:将数据拆分为训练集和评估集
最后一步是将数据拆分为两个数据集 , 一个用于算法训练 , 另一个用于评估 。 拆分训练集和评估集时 , 务必选择数据中非重叠的子集以确保测试正确 。 将原始数据与你所准备的数据输入机器学习算法时 , 购买提供版本管理和编目功能的工具 , 并理清两种数据的关系 。 这样 , 就可以依据预测结果追溯输入数据 , 便于日后改善优化你的模型 。
促进商业表现-如何用DP实现ML并解决数据问题
推荐阅读
- 捉迷藏|?LOL世界赛“含金量”数据出炉:EDG仅排第六,IG稳居榜首
- 碧蓝航线|碧蓝航线SR重巡福煦数据详解 期待越高失望越大 强度平平无奇
- kramer|国服极地大乱斗数据上线,来看看胜率榜符合你的预期吗?
- 米莱狄|峡谷数据榜:分均输出TOP5,干将莫邪只排第四,米莱狄至今被误解
- |S11淘汰赛数据盘点:场均时长为33分 55个不同英雄登场
- 中单|2021年英雄联盟世界赛终于落下帷幕!!大数据统计二!!
- 灵饰|梦幻西游:109级法系前排灵饰选择方法,用数据告诉你怎么做
- 卡牌|S11淘汰赛数据出炉,卡牌24场全被ban,压刀最多竟是辅助
- edg战队|堡垒之夜国服将清除数据,EDG创造队史晋级S11世界赛决赛
- 原神|原神:流水预测数据还在变化,日本的预估流水,倒是有了小状况