天天看點

Pandas之七分組統計

在資料分析時,分組也是一個常用的功能,比如分别統計每個月的股票波動率、每個部門的人數、每個季度的利潤等等。在Pandas中提供了

groupy

方法對資料進行分組。Pandas中的

groupby

一般包括以下三個步驟:

  1. 拆分,依據指定的規則将資料拆分為不同的組合。
  2. 執行函數,将一個方法相對獨立地在每個組合上執行。
  3. 組合,将每個組合上執行的結果組合到一個結果集中。

下面我們以圖中的資料來示範上述各項功能。

Pandas之七分組統計

1、分組

使用

groupby

方法,将

df3

進行分組,并使用

list

檢視分組的内容。

g1 = df3.groupby("E")
g1
list(g1)           

可以看到,分組實際上是将指定分組的列不同值作為

key

(預設忽略

np.nan

,可以使用

dropna=False

配置修改),再将dataframe中相應的資料拆分出來作為其

value

Pandas之七分組統計

2、求和示例

分組後的對象,可以使用多種内置聚合函數,比如求和

sum

、平均值

mean

、标準差

std

等。本例對分組後的對象

g1

進行求和,計算根據

E

列分組後,其他各列求和的結果。

Pandas之七分組統計

也可以計算指定列的求和結果,比如隻計算

A

列的和。

Pandas之七分組統計