如何将机器学习与灵敏性分析相结合来制定业务策略?( 十 )

  • 在第一种最简单的方法中 , 训练是基于对丰富类(没有流失的客户)的随机抽样来进行的 , 以匹配稀有类(有流失的客户)的规模 。

  • 在第二种方法中(如下图所示) , 我将训练基于模型的集合 , 其中每个模型使用9个丰富类的随机样本(不进行替换)和稀有类的一个完整样本 。 我之所以选择9倍 , 是因为类别的不平衡程度大约是1比9(如下图的直方图所示) 。 因此 , 1-9是使用丰富类中的全部或几乎所有数据所需的采样量 。 这种方法比较复杂 , 但是会使用所有可用信息 , 从而提高了通用性 。 我将在以下面章节中评估其有效性 。

对于这两种方法 , 在测试集上考虑实际情况而保持类的不平衡来评估模型性能 。

评估和完善ML模型的性能

在本节中 , 我测试了上一节中开发的不同模型的性能 。 然后 , 我确定了一种决策机制 , 该机制最大程度地降低了高估可能流失的客户数量的风险(称为误报率) 。

推荐阅读