想让机器学习与商业结合,最重要的是什么?(15)

\n \n

真阳性 = 全部实例正确推断为正

\n \n

真阴性 = 全部实例正确推断为负

\n \n

假阳性 = 全部实例错误推断为正

\n \n

假阴性 = 全部实例错误推断为负

\n \n

在一个异常检测的典型案例中 , 我们试图将假阴性最小化——比如 , 忽略一笔虚假交易 , 忽略一块有问题芯片 , 或将一个病人视为健康的——同时不会导致大量假阳性实例 。

\n \n

精准度 = 真阳性/(真阳性+假阳性)

\n \n

查全率 = 真阳性/(真阳性+假阴性)

\n \n

要注意精准度不利于假阳性 , 而查全率不利于假阴性 。 一个从不推测出虚假信息的模型查全率为零 , 而精准度则未知 。 相反 , 一个总是推测出虚假信息的模型则有着100%的查全率和极低的精准度——这是由于大量假阳性实例的存在 。

\n \n

非常不推荐在异常检测中使用受试者工作特征曲线(FPR) 。 因为假阳性率——FPR的基础——很大程度上是基于数据集中的阴性实例数量(如假阳性+真阴性) , 使得在假阳性实例数量庞大的情况下FPR仍然很小 。

推荐阅读