如何将机器学习与灵敏性分析相结合来制定业务策略?( 八 )
上图中的左图表示某些特征(例如价格和某些预测指标)是共线的 , 其中ρ> 0.95 。 设计下一节中描述的ML模型时 , 我只保留了其中的一个 , 这给了我留下了大约30个特征 , 如上图中的右图所示 。
缺失和异常数据的问题通常通过经验规则来处理 , 例如在缺少某些记录数据值或它们超过样本标准差的三倍时删除观察值(客户) 。
由于数据缺失是一种常见的问题 , 你可以使用样本或总体的均值或中位数来估算缺失值 , 作为删除观测值的替代方案 。 那就是我在这里所做的:我删除了缺失超过40%以上的特征 , 并将剩下每个特征的缺失值替换为中位数 。 读者应注意 , 一种更高级的 , 最佳实践的缺失数据填补方法是训练一种基于其他特征的监督学习模型 , 但是这可能需要大量的工作 , 因此在此不做介绍 。 当我在数据中遇到异常值时 , 我删除了那些数值超过均值六倍标准差的客户 。 总共删除了16096个观察结果中的140个(<1%) 。
开发一组ML模型
在本节中 , 我将开发和组合多个ML模型以利用多种ML算法的功能 。 集成建模还可以使用整个数据集中的信息 , 即使流失标签的分布高度不平衡 , 如以下流程图所示 。
推荐阅读
- 小鱼人|如何在新赛季稳定上分?善于抓失误的小鱼人,值得认真练上一波
- 阴阳师|阴阳师SR川猿强度如何 是否值得抽卡 改变斗技环境 大佬的新玩具
- 手机游戏|梦幻西游手游:活力如何换金币 一切都已给出 就看你的选择
- 华佗|三国杀:两位\奶爸\,朱治与华佗比,强度如何呢?
- 亲朋上分|《亲朋上分》266391亲朋下分亲朋上下分永劫无间崔三娘技能介绍 崔三娘如何获得更多技能
- s6|金铲铲之战:S6双城传说如何才能快速上手?基础知识很关键
- |冰雪传奇:平民玩家四转后如何打金
- 战争机器5|战争机器5,有改变也需要让玩家射击的爽快
- 穿越火线|CF:传说武器再度上新,那王者、炫金该如何发展?
- 打野|打野已经被削到几乎不能再削了,到底如何平衡打野位置?