簡介
變動百分百
covariance協方差
correlation相關系數
rank等級
資料分析中經常會用到很多統計類的方法,本文将會介紹pandas中使用到的統計方法。
series和df都有一個pct_change() 方法用來計算資料變動的百分比。這個方法在填充nan值的時候特别有用。
pct_change還有個periods參數,可以指定計算百分比的periods,也就是隔多少個元素來計算:
series.cov() 用來計算兩個series的協方差,會忽略掉nan的資料。
同樣的,dataframe.cov() 會計算對應series的協方差,也會忽略nan的資料。
dataframe.cov 帶有一個min_periods參數,可以指定計算協方差的最小元素個數,以保證不會出現極值資料的情況。
corr() 方法可以用來計算相關系數。有三種相關系數的計算方法:
方法名
描述
pearson (default)
标準相關系數
kendall
kendall tau相關系數
spearman
斯皮爾曼等級相關系數
corr同樣也支援 min_periods :
corrwith 可以計算不同df間的相關系數。
rank方法可以對series中的資料進行排列等級。什麼叫等級呢? 我們舉個例子:
上面我們建立了一個series,裡面的資料從小到大排序 :
是以相應的rank就是 1 , 2 ,3 ,4 , 5.
因為我們有兩個值是相同的,預設情況下會取兩者的平均值,也就是 4.5.
除了 default_rank , 還可以指定max_rank ,這樣每個值都是最大的5 。
還可以指定 na_bottom , 表示對于nan的資料也用來計算rank,并且會放在最底部,也就是最大值。
還可以指定 pct_rank , rank值是一個百分比值。
rank還可以指定按行 (axis=0) 或者 按列 (axis=1)來計算。
本文已收錄于 http://www.flydean.com/10-python-pandas-statistical/ 最通俗的解讀,最深刻的幹貨,最簡潔的教程,衆多你不知道的小技巧等你來發現!