想让机器学习与商业结合,最重要的是什么?(14)

\n \n

以下是几个用于异常检测的常见算法:

\n \n

1. 自动编码器

\n \n

2. 一类分类算法 , 如单类支持向量机 。

\n \n

3. 信赖区间

\n \n

4. 聚类

\n \n

5. 运用过采样和欠采样法分类

\n \n

6. 非平衡数据很常见

\n \n

\n

非平衡数据

\n \n

\n \n

比方说 , 你有一组数据集 , 标记有信用卡交易信息 。 交易中的0.1%为不实信息 , 而其余99.9%均为正常交易 。 如果要创建一个从无虚假交易的模型 , 会发生什么呢?这个模型在99.9%的情况下都会给出正确答案 , 所以其精确度为99.9% 。 这个常见的精确度谬误可以通过考虑不同的度量标准来避免 , 如精准度、查全率 。 这些通过真阳性(TPtrue positives)、真阴性(TNtrue negatives)、假阳性(FPfalse positives)、假阴性(FNfalse negatives)等术语来表示:

推荐阅读