天天看点

Pandas高级教程之:统计方法

简介

变动百分百

covariance协方差

correlation相关系数

rank等级

数据分析中经常会用到很多统计类的方法,本文将会介绍pandas中使用到的统计方法。

series和df都有一个pct_change() 方法用来计算数据变动的百分比。这个方法在填充nan值的时候特别有用。

pct_change还有个periods参数,可以指定计算百分比的periods,也就是隔多少个元素来计算:

series.cov() 用来计算两个series的协方差,会忽略掉nan的数据。

同样的,dataframe.cov() 会计算对应series的协方差,也会忽略nan的数据。

dataframe.cov 带有一个min_periods参数,可以指定计算协方差的最小元素个数,以保证不会出现极值数据的情况。

corr() 方法可以用来计算相关系数。有三种相关系数的计算方法:

方法名

描述

pearson (default)

标准相关系数

kendall

kendall tau相关系数

spearman

斯皮尔曼等级相关系数

corr同样也支持 min_periods :

corrwith 可以计算不同df间的相关系数。

rank方法可以对series中的数据进行排列等级。什么叫等级呢? 我们举个例子:

上面我们创建了一个series,里面的数据从小到大排序 :

所以相应的rank就是 1 , 2 ,3 ,4 , 5.

因为我们有两个值是相同的,默认情况下会取两者的平均值,也就是 4.5.

除了 default_rank , 还可以指定max_rank ,这样每个值都是最大的5 。

还可以指定 na_bottom , 表示对于nan的数据也用来计算rank,并且会放在最底部,也就是最大值。

还可以指定 pct_rank , rank值是一个百分比值。

rank还可以指定按行 (axis=0) 或者 按列 (axis=1)来计算。

本文已收录于 http://www.flydean.com/10-python-pandas-statistical/ 最通俗的解读,最深刻的干货,最简洁的教程,众多你不知道的小技巧等你来发现!