如何将机器学习与灵敏性分析相结合来制定业务策略?( 八 )

上图中的左图表示某些特征(例如价格和某些预测指标)是共线的 , 其中ρ> 0.95 。 设计下一节中描述的ML模型时 , 我只保留了其中的一个 , 这给了我留下了大约30个特征 , 如上图中的右图所示 。

缺失和异常数据的问题通常通过经验规则来处理 , 例如在缺少某些记录数据值或它们超过样本标准差的三倍时删除观察值(客户) 。

由于数据缺失是一种常见的问题 , 你可以使用样本或总体的均值或中位数来估算缺失值 , 作为删除观测值的替代方案 。 那就是我在这里所做的:我删除了缺失超过40%以上的特征 , 并将剩下每个特征的缺失值替换为中位数 。 读者应注意 , 一种更高级的 , 最佳实践的缺失数据填补方法是训练一种基于其他特征的监督学习模型 , 但是这可能需要大量的工作 , 因此在此不做介绍 。 当我在数据中遇到异常值时 , 我删除了那些数值超过均值六倍标准差的客户 。 总共删除了16096个观察结果中的140个(<1%) 。

开发一组ML模型

在本节中 , 我将开发和组合多个ML模型以利用多种ML算法的功能 。 集成建模还可以使用整个数据集中的信息 , 即使流失标签的分布高度不平衡 , 如以下流程图所示 。

推荐阅读