天天看點

Pandas進階教程之:統計方法

簡介

變動百分百

covariance協方差

correlation相關系數

rank等級

資料分析中經常會用到很多統計類的方法,本文将會介紹pandas中使用到的統計方法。

series和df都有一個pct_change() 方法用來計算資料變動的百分比。這個方法在填充nan值的時候特别有用。

pct_change還有個periods參數,可以指定計算百分比的periods,也就是隔多少個元素來計算:

series.cov() 用來計算兩個series的協方差,會忽略掉nan的資料。

同樣的,dataframe.cov() 會計算對應series的協方差,也會忽略nan的資料。

dataframe.cov 帶有一個min_periods參數,可以指定計算協方差的最小元素個數,以保證不會出現極值資料的情況。

corr() 方法可以用來計算相關系數。有三種相關系數的計算方法:

方法名

描述

pearson (default)

标準相關系數

kendall

kendall tau相關系數

spearman

斯皮爾曼等級相關系數

corr同樣也支援 min_periods :

corrwith 可以計算不同df間的相關系數。

rank方法可以對series中的資料進行排列等級。什麼叫等級呢? 我們舉個例子:

上面我們建立了一個series,裡面的資料從小到大排序 :

是以相應的rank就是 1 , 2 ,3 ,4 , 5.

因為我們有兩個值是相同的,預設情況下會取兩者的平均值,也就是 4.5.

除了 default_rank , 還可以指定max_rank ,這樣每個值都是最大的5 。

還可以指定 na_bottom , 表示對于nan的資料也用來計算rank,并且會放在最底部,也就是最大值。

還可以指定 pct_rank , rank值是一個百分比值。

rank還可以指定按行 (axis=0) 或者 按列 (axis=1)來計算。

本文已收錄于 http://www.flydean.com/10-python-pandas-statistical/ 最通俗的解讀,最深刻的幹貨,最簡潔的教程,衆多你不知道的小技巧等你來發現!