收藏 | 10个可以快速用Python进行数据分析的小技巧( 五 )

Pandas中df.describe和http://df.info函数可以实现EDA过程第一步 。 但是 , 它们只提供了对数据非常基本的概述 , 对于大型数据集没有太大帮助 。 而Pandas中的Profiling功能简单通过一行代码就能显示大量信息 , 且在交互式HTML报告中也是如此 。

对于给定的数据集 , Pandas中的profiling包计算了以下统计信息:

由Pandas Profiling包计算出的统计信息包括直方图、众数、相关系数、分位数、描述统计量、其他信息——类型、单一变量值、缺失值等 。

安装

用pip安装或者用conda安装

pipinstall pandas-profilingcondainstall -c anaconda pandas-profiling

用法

下面代码是用很久以前的泰坦尼克数据集来演示多功能Python分析器的结果 。

推荐阅读