如何将机器学习与灵敏性分析相结合来制定业务策略?(11)

在ML性能评估中经常使用所谓的接收算子特性(ROC)曲线来补充列联表 。 当更改概率阈值以推断正类别和负类别(在此项目中 , 分别为流失类和非流失类)时 , ROC曲线提供了准确性的不变度量 。 它涉及绘制所有准确的阳性预测(真阳性)与假阳性的图表 。 请参阅下表 。

默认情况下 , 将对不同ML模型预测的概率进行校准 , 以使p> 0.5的值对应一个类别 , 而p <0.5的值对应另一类别 。 此阈值是一个超参数 , 可以对其进行微调以最大程度地减少一类的错误分类 。 这是以增加另一种错误分类为代价的 , 这会影响不同性能指标的准确性和精确度 。 相比之下 , ROC曲线下的面积是性能的不变度量 , 在任何阈值下都保持不变 。

下表描述了使用稀有类9倍训练总体的不同ML模型的性能 。 您可以看到随机森林具有最佳性能 , 并且9倍总体的综合性更好 , ROC AUC得分为0.68 。 这个模型是表现最好的 。

下图描述了整体最佳模型的表现(9倍总体的随机森林模型)以及对精度和误差的优化 。 当使用概率阈值0.5时 , 最好的结果可以准确预测69%的流失客户 。

推荐阅读