如何将机器学习与灵敏性分析相结合来制定业务策略?( 七 )

下表显示了特征和客户流失之间的最高相关性和二进制差异 。 48个原始特征和派生特征中仅显示最重要的特征 。 “ Filtered“列包含对异常值和缺失值进行数据过滤时获得的结果 。

上表的主要结论是 , 三个销售渠道似乎与客户流失成反比 , 并且与客户流失的大多数边际相关性很小(≤0.1) 。 对异常值和缺失值应用过滤器会改善边际相关的统计显着性 。 上表的右列描述了这种效果 。

共线特征的问题可以通过计算所有特征之间的协方差矩阵来解决 , 如下图所示 。 该矩阵为判断某些特征具有的冗余量提供了新的角度 。 删除冗余特征是一个好习惯 , 因为它们会产生偏差并需要更多的计算量 , 这会使学习过程效率降低 。

推荐阅读