简介
变动百分百
covariance协方差
correlation相关系数
rank等级
数据分析中经常会用到很多统计类的方法,本文将会介绍pandas中使用到的统计方法。
series和df都有一个pct_change() 方法用来计算数据变动的百分比。这个方法在填充nan值的时候特别有用。
pct_change还有个periods参数,可以指定计算百分比的periods,也就是隔多少个元素来计算:
series.cov() 用来计算两个series的协方差,会忽略掉nan的数据。
同样的,dataframe.cov() 会计算对应series的协方差,也会忽略nan的数据。
dataframe.cov 带有一个min_periods参数,可以指定计算协方差的最小元素个数,以保证不会出现极值数据的情况。
corr() 方法可以用来计算相关系数。有三种相关系数的计算方法:
方法名
描述
pearson (default)
标准相关系数
kendall
kendall tau相关系数
spearman
斯皮尔曼等级相关系数
corr同样也支持 min_periods :
corrwith 可以计算不同df间的相关系数。
rank方法可以对series中的数据进行排列等级。什么叫等级呢? 我们举个例子:
上面我们创建了一个series,里面的数据从小到大排序 :
所以相应的rank就是 1 , 2 ,3 ,4 , 5.
因为我们有两个值是相同的,默认情况下会取两者的平均值,也就是 4.5.
除了 default_rank , 还可以指定max_rank ,这样每个值都是最大的5 。
还可以指定 na_bottom , 表示对于nan的数据也用来计算rank,并且会放在最底部,也就是最大值。
还可以指定 pct_rank , rank值是一个百分比值。
rank还可以指定按行 (axis=0) 或者 按列 (axis=1)来计算。
本文已收录于 http://www.flydean.com/10-python-pandas-statistical/ 最通俗的解读,最深刻的干货,最简洁的教程,众多你不知道的小技巧等你来发现!