Pandas進階教程之:統計方法

2021-11-08 06:11:38

簡介

變動百分百

covariance協方差

correlation相關系數

rank等級

資料分析中經常會用到很多統計類的方法，本文将會介紹pandas中使用到的統計方法。

series和df都有一個pct_change() 方法用來計算資料變動的百分比。這個方法在填充nan值的時候特别有用。

pct_change還有個periods參數，可以指定計算百分比的periods，也就是隔多少個元素來計算：

series.cov() 用來計算兩個series的協方差，會忽略掉nan的資料。

同樣的，dataframe.cov() 會計算對應series的協方差，也會忽略nan的資料。

dataframe.cov 帶有一個min_periods參數，可以指定計算協方差的最小元素個數，以保證不會出現極值資料的情況。

corr() 方法可以用來計算相關系數。有三種相關系數的計算方法：

方法名

描述

pearson (default)

标準相關系數

kendall

kendall tau相關系數

spearman

斯皮爾曼等級相關系數

corr同樣也支援 min_periods ：

corrwith 可以計算不同df間的相關系數。

rank方法可以對series中的資料進行排列等級。什麼叫等級呢？我們舉個例子：

上面我們建立了一個series，裡面的資料從小到大排序：

是以相應的rank就是 1 ， 2 ，3 ，4 ， 5.

因為我們有兩個值是相同的，預設情況下會取兩者的平均值，也就是 4.5.

除了 default_rank ，還可以指定max_rank ，這樣每個值都是最大的5 。

還可以指定 na_bottom ，表示對于nan的資料也用來計算rank，并且會放在最底部，也就是最大值。

還可以指定 pct_rank ， rank值是一個百分比值。

rank還可以指定按行 (axis=0) 或者按列 (axis=1)來計算。

本文已收錄于 http://www.flydean.com/10-python-pandas-statistical/ 最通俗的解讀，最深刻的幹貨，最簡潔的教程，衆多你不知道的小技巧等你來發現！

Pandas進階教程之:統計方法

繼續閱讀

Small tricks

libsvm for python 安裝

學習軟體測試基礎測試第七天

淺談企業活動中進行資料分析的重要性

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

Ambari介紹和架構原理

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

NOSQL安全攻擊

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

win10本地scala和spark安裝安裝scala安裝spark

在python中建立excel并寫入