pandas-profiling Python探索性数据分析
in 代码编程 with 0 comment

pandas-profiling Python探索性数据分析

in 代码编程 with 0 comment

思路

我们使用Pandas进行数据分析时,首先要先对数据集进行探索性数据分析(Exploratory data analysis),以便有一个大体的了解,明确后续数据处理、分析方向,数据EDA大致包含如下内容:

通常,我们使用pandas.describe方法,对数据集可以有个大体的了解,如下:

import pandas as pd
data = pd.read_table("./SearchResults.tsv")
data.describe()

1.png

然后,再通过分析各数据字段之间的关系,如 使用折线图,散点图,柱状图,关联分析等等,进一步探索数据集。

不难发现,数据EDA操作,通常需要连续的N多操作,步骤还是比较繁琐的。

如:
2.png

3.png

捷径

最近在GitHub上闲逛时,看到了pandas-profiling项目,其使用df.profile_report 扩展了pandas DataFrame,实现了一行代码就可以生成一份超详细的数据分析报告,强无敌!包含以下内容:

4.png

由于不会做动图,贴几个能看的图 将就看吧!

6.png

7.png

8.png

9.png

有可能 并没有自己想要的统计,但是在EDA层面还是特别有意义的东西。各位有时间可以自己测试一下,简单粗暴。

回复