Python数据分析入门教程(二):数据预处理(17)

因为Excel默认会保留第一条记录 , 而我们又想要获取每个客户的较早成交日期 , 所以我们需要先对时间进行升序排列 , 让较早的时间排在前面 , 这样在删除的时候就会保留较早的成交日期了 。

删除前后的对比如下图所示:

(2)Python实现

在Python中我们利用drop_duplicates()的方法该方法默认对所有值进行重复值判断 , 且默认保留第一个(行)值 。

上面的代码是针对所有字段进行的重复值判断 , 我们同样也可以只针对某一列或者某几列进行重复值删除的判断 , 只需要在drop_duplicates()方法中指明要判断的列名即可 。

推荐阅读