Python数据分析入门教程(二):数据预处理(16)

(1)Excel实现

在Excel中依次单击菜单栏中的数据>数据工具>删除重复值 , 就可以删除重复数据了 , 如下图所示:

删除前后的对比如下图所示:

Excel的删除重复值默认针对所有值进行重复值判断 , 有订单编号、客户姓名、唯一识别码(类似于身份证号)、成交时间这四个字段 , Excel会判断这四个字段是否都相等 , 只有都相等时才会删除 , 且保留第一个(行)值 。

你知道了公司8月份成交明细以后 , 你想看一下8月份总共有多少成交客户 , 且每个客户在8月份首次成交的日期 。

查看客户数量只需要按客户的唯一识别码进行去重就可以了 。 Excel默认是全选 , 我们可以取消全选 , 选择唯一识别码进行去重 , 这样重要唯一识别码重复就会被删除 , 如下图所示:

推荐阅读