Python数据分析入门教程(二):数据预处理(18)

也可以利用多列去重 , 只需要把多个列名以列表的形式传给参数subset即可 。 比如按姓名和唯一识别码去重 。

还可以自定义删除重复项时保留哪个 , 默认保留第一个 , 也可以设置保留最后一个 , 或者全部不保留 。 通过传入参数keep进行设置 , 参数keep默认值是first , 即保留第一个值;也可以是last , 保留最后一个值;还可以是False , 即把重复值全部删除 。

三、异常值的检测与处理

异常值就是相比正常数据而言过高或者过低的数据 , 比如一个人的年龄是0岁或者300岁都算是一个异常值 , 因为这和实际情况差距过大 。

推荐阅读