pandas聚合函數groupby

2023-04-10 22:10:45

1.groupby聚合函數彙總

min() 最小值

max() 最大值

sum() 求和

mean() 平均數

std() 标準差

size() 按照groupby的值計算該值的個數與count函數的差別在于，size函數會計算NAN值，而count函數不會計算NAN值

count() 計算個數

nunique() 去掉重複值後進行計數

df=pd.DataFrame({'user':['Alice','Tom','Bob','Alice','Bob','Alice'],'money':range(6)})

df.groupby(['user']).sum()

結果如下：

pandas聚合函數groupby

2.reset_index()

将groupby後的分組結果轉換為DataFrame對象，進而儲存。

這裡主要是針對多列進行分組後

pandas聚合函數groupby

最後可以看到通過reset_index後列名也平攤開了

3. agg(function)

對groupby後的某一列或者多列運用function函數，可同時作用于一個列或者多個列

def handle_transactions_data(name,data):
    pick_agg_cols={
        'purchase_amount':['sum'],
        'merchant_id':['count'],
        'installments':['sum'],
        'city_id':['count'],
        'merchant_category_id':['nunique'],
        'purchase_date':['min','max'],
        'card_id':['size']
        
    }
    data_grouped= data.groupby(data['card_id']).agg(pick_agg_cols)
    data_grouped.columns=[name+'_'+'_'.join(col).strip() for col in data_grouped.columns.values]
    return data_grouped

4. apply()

apply應用于DataFrame的各個列，後者僅作用于指定的列。

df.groupby('purchase_amount').apply(np.sum)

pandas聚合函數groupby

繼續閱讀

pandas進階處理-交叉表與透視表pandas進階處理-交叉表與透視表

pandas資料透視表 pd.pivot_table()

pandas透視表中對某列計數

pandas聚合函數、透視表、交叉表、表格合并常見操作

pandas透視表常用方法

# yyds幹貨盤點 # 盤點一個Python處理Excel兩列單元格中有類似字元串就傳回1，沒有就傳回0的操作

pandas讀入中文亂碼問題解決

基于pandas、matplotlib和seaborn進行資料分析實戰【建議收藏】1 資料探索與資料清洗2 資料呈現與關系3 最終結論

pandas copy函數（主要解決比如）操作一個表的時候會影響到另一個表的問題

Pandas函數應用和映射

python之pandas的基本使用（1）

Pandas一鍵爬取解析代理IP與代理IP池的維護

python ：pandas 畫唐奇安通道

資料分析Pandas練習題二：資料過濾與排序

處理dataframe的缺失值

pandas模仿excel對資料處理并可視化