如何将机器学习与灵敏性分析相结合来制定业务策略?( 九 )

作为删除低方差特征的一种很好的做法 , 我通过应用一个快速简单的方差过滤器进一步将特征空间限制为最重要的特征 。 此过滤器会删除对95%的客户不显示差异的特征 。 为了根据特征对客户流失的综合影响(而不是边际影响)筛选特征 , 我使用了带有逐步回归的网格搜索 , 进行了基于ML的特征选择 。 请参阅下一节的详细信息 。

在实现ML模型之前 , 我将数据随机分为两组 , 并确定了30%的测试集 。 就像在下一节中讨论的那样 , 我还在70%/30%拆分的基础上使用了10倍交叉验证 。 K-folding是一个迭代周期 , 可以对K个评估的平均性能进行平均 , 每个测试都针对单独的K%保留数据集 。

分别训练了三种ML算法(逻辑回归 , 支持向量机和随机森林) , 然后将它们组合在一起 , 如前面的流程图所示 。 集成方法在文献中称为”软投票” , 因为它采用了不同模型的平均概率并将其用于客户分类(在前面的流程图中也可以看到) 。

客户流失率仅占数据的10%;因此 , 数据集是不平衡的 。 我测试了两种解决类别不平衡的方法 。

推荐阅读