Pandas高级教程之:统计方法

2021-11-08 06:11:38

简介

变动百分百

covariance协方差

correlation相关系数

rank等级

数据分析中经常会用到很多统计类的方法，本文将会介绍pandas中使用到的统计方法。

series和df都有一个pct_change() 方法用来计算数据变动的百分比。这个方法在填充nan值的时候特别有用。

pct_change还有个periods参数，可以指定计算百分比的periods，也就是隔多少个元素来计算：

series.cov() 用来计算两个series的协方差，会忽略掉nan的数据。

同样的，dataframe.cov() 会计算对应series的协方差，也会忽略nan的数据。

dataframe.cov 带有一个min_periods参数，可以指定计算协方差的最小元素个数，以保证不会出现极值数据的情况。

corr() 方法可以用来计算相关系数。有三种相关系数的计算方法：

方法名

描述

pearson (default)

标准相关系数

kendall

kendall tau相关系数

spearman

斯皮尔曼等级相关系数

corr同样也支持 min_periods ：

corrwith 可以计算不同df间的相关系数。

rank方法可以对series中的数据进行排列等级。什么叫等级呢？我们举个例子：

上面我们创建了一个series，里面的数据从小到大排序：

所以相应的rank就是 1 ， 2 ，3 ，4 ， 5.

因为我们有两个值是相同的，默认情况下会取两者的平均值，也就是 4.5.

除了 default_rank ，还可以指定max_rank ，这样每个值都是最大的5 。

还可以指定 na_bottom ，表示对于nan的数据也用来计算rank，并且会放在最底部，也就是最大值。

还可以指定 pct_rank ， rank值是一个百分比值。

rank还可以指定按行 (axis=0) 或者按列 (axis=1)来计算。

本文已收录于 http://www.flydean.com/10-python-pandas-statistical/ 最通俗的解读，最深刻的干货，最简洁的教程，众多你不知道的小技巧等你来发现！

Pandas高级教程之:统计方法

继续阅读

Small tricks

libsvm for python 安装

学习软件测试基础测试第七天

浅谈企业活动中进行数据分析的重要性

Zeppelin 配置访问 REST APIApache Zeppelin Configuration REST API

【Torch】最简洁logging使用指南

27. Remove Element(列表)题目代码

Ambari介绍和架构原理

Cloud Studio初体验

使用 ctypes 进行 Python 和 C 的混合编程

【python】【数据处理】画多维数据分布图

NOSQL安全攻击

【python】netconf协议对接管理设备

「Python 网络自动化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 网络设备

win10本地scala和spark安装安装scala安装spark

在python中创建excel并写入