智客公社
标题:
数据分析神器 Pandas:如何用 1 行 Python 代码发掘数据?
[打印本页]
作者:
Eiiejej
时间:
2019-12-5 08:05
标题:
数据分析神器 Pandas:如何用 1 行 Python 代码发掘数据?
在 30 秒内,完成你全部的标准数据分析,这就是用 Pandas 停止数据分析产生的“奇观”。
[attach]273313[/attach]
Pandas
是 Python 中处理数据的首选库,它运用起来很容易,非常灵敏,可以处理不同类型和大小的数据,而且它有大量的
函数
,这让操作数据几乎是小菜一碟。
Pandas 基础之旅
私信小编01 支付残缺项目代码!
用 Python 处理过数据的人大概对 pandas 不生疏。
假如想处理行或列排序的格式化数据,大多数状况下,你可以运用 pandas 处理。假如没安装 pandas,可以用你喜欢的命令终端安装,一定要用 pip 命令:
复制代码
pipinstallpandas
如今,让我们看看默许的 pandas 完成都可以做什么:
[attach]273314[/attach]
非常简约,但也很平铺直叙,“method”这列去哪儿?
我们解释一下下面代码和输入的含义:
Pandas 的任何“数据帧”都有一个 describe() 方法,这个方法会前往下面的输入。但请留意,这个方法的以上输入数据中,关于类别的变量漏掉了。在下面的例子中,输入信息里,“
method
”这一列被完全移除。
让我们看看能否能做得更好。
Pandas 分析
[attach]273315[/attach]
这仅仅是分析报告的扫尾部分
假如我告诉你,我仅用 3 行 Python 代码即可生成以下统计数据,你会感觉如何( 假如不算 imports 语句的话,实践上只需求 1 行代码即可 ):
核心信息
:类型、独一值、缺失值
分位数统计
:如最小值、Q1、中位数、Q3、最大值、范围、四分位数范围等
描画性统计
:如平均值、众数、标准差、求和、中位数相对偏向、扰动系数、峰度、偏度等
高频运用的数值
直方图
相关性
:会突出显示高相关度变量、Spearman、Pearson 和 Kendall 矩阵
缺失值
:矩阵、计数、热力图和缺失值树状图
(以上特征列表直接摘自
Pandas Profiling GitHub 页面
)
运用 Pandas Profiling 包,我们仅用 1 行代码就可以得到以上数据!在命令行终端只需运用 pip 即可安装 Pandas Profiling 包:
复制代码
pipinstallpandas_profiling
乍一看,阅历丰富的数据分析师能够会嘲笑这是华而不实的,但是,它可以协助你疾速获得你拥有的数据概况:
[attach]273316[/attach]
看到了吗,正如我所说,1 行代码搞定!
你看到的第一部分内容是“
概览
”(请看上图),这部分内容会呈现给你一些非常高级的数据和变量统计,以及像变量高相关性和高偏态性等这类
正告
。
但是它提供的信息远远不止这些。往下滑动,我们会发现这份输入报告包含多个部分。仅用图片显示这个 1 行代码的输入都是不大合适的,所以我制造了一张 GIF 图:
[attach]273317[/attach]
我激烈建议你本人来探求这个软件包里的特征——毕竟,这只要 1 行代码,而且你会在当前的数据分析中发现这个软件包真的很好用。
复制代码
import pandasaspd
import pandas_profiling
pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/planets.csv').profile_report()
更多相似的代码库
假如你喜欢运用这些易用的东西来改进你的 Python 工作流,可以看看我的
一些最新文章
。
最后的思索
这篇文章真的很短小。我本人才刚刚发现 Pandas Profiling 这个库,觉得可以拿来分享!
作者:
lhp0721
时间:
2019-12-5 08:15
分享了
作者:
黄龙long
时间:
2019-12-5 22:29
为保住菊花,这个一定得回复!
作者:
捣蛋小猪
时间:
2019-12-7 09:40
加油!不要理那些键盘侠!
作者:
bettermanzy
时间:
2019-12-7 22:00
除了666我无话可说
欢迎光临 智客公社 (http://bbs.cnaiplus.com/)
Powered by Discuz! X3.4