Python数据分析入门教程(二):数据预处理(19)

1、异常值检测

要处理异常值首先要检测 , 也就是发现异常值 , 发现异常值的方式主要有以下三种 。

●根据业务经验划定不同指标的正常范围 , 超过该范围的值算作异常值 。

●通过绘制箱型图 , 把大于(小于)箱型图上边缘(下边缘)的点称为异常值

●如果数据服从正态分布 , 则可以利用3σ原则;如果一个数值与平均值之间的偏差超过三倍标准差 , 那么我们就认为这个值是异常值 。

箱型图如下图所示:

下图为正太分布图 , 我们把大于μ+3σ的值称为异常值 。

2、异常值处理

对于异常值一般有以下几种处理方式:

推荐阅读