文章目錄

1. pandas 建立 Series 格式資料
2. pandas 建立 dataframe 格式資料
3. 使用pandas内置函數來分析資料
- 3.1 describe()
- 3.2 var / sum
- 3.3 求相關性 corr
- 3.4 計算協方差 cov
- 3.5 skew 偏度（三階矩）/kurt 峰度（四階矩）

Pandas 是 Python資料分析的強有效的庫，主要通過 Series 結構和 DataFrame 結構來進行資料表格的建立，并通過其内置的一些函數進行資料的統計和分析。

1. pandas 建立 Series 格式資料

import pandas

pd = pandas.Series([4,5,6,7],['1','2','3','4'])
print(pd)

Python資料分析之：Pandas的基本資料分析功能1. pandas 建立 Series 格式資料2. pandas 建立 dataframe 格式資料3. 使用pandas内置函數來分析資料

2. pandas 建立 dataframe 格式資料

import pandas as pd
data = pd.DataFrame([1,2],['0','1'],['data'])

print(data)

Python資料分析之：Pandas的基本資料分析功能1. pandas 建立 Series 格式資料2. pandas 建立 dataframe 格式資料3. 使用pandas内置函數來分析資料

或者：

import pandas as pd
lst = [list(range(1,5)),list(range(6,10))]
data = pd.DataFrame(lst,['0','1'],['data1','data2','data3','data4'])

print(data)

Python資料分析之：Pandas的基本資料分析功能1. pandas 建立 Series 格式資料2. pandas 建立 dataframe 格式資料3. 使用pandas内置函數來分析資料

PS: pandas 的 dataframe結構任意取出一行或者一列，其結構都是 Series。

3. 使用pandas内置函數來分析資料

3.1 describe()

import pandas as pd
lst = [list(range(1,5)),list(range(6,10))]
data = pd.DataFrame(lst,index=['0','1'],columns=['data1','data2','data3','data4'])
describe = data.describe()
print(describe)

Python資料分析之：Pandas的基本資料分析功能1. pandas 建立 Series 格式資料2. pandas 建立 dataframe 格式資料3. 使用pandas内置函數來分析資料

describe()函數最終會呈現每一列資料的count（非空值的個數）、mean（這一列的均值）、std（這一列的标準差）、min（最小值）、25%（下四分位數）、50%（中位數）、75%（上四分位數）、max（最大值）

3.2 var / sum

import pandas as pd
lst = [list(range(1,5)),list(range(6,10))]
data = pd.DataFrame(lst,index=['0','1'],columns=['data1','data2','data3','data4'])
describe = data.describe()
var = data.var()            #求方差
sum = data.sum()            #求和
print(var,'\n',sum,'\n')

Python資料分析之：Pandas的基本資料分析功能1. pandas 建立 Series 格式資料2. pandas 建立 dataframe 格式資料3. 使用pandas内置函數來分析資料

3.3 求相關性 corr

相關性的标準有 Pearson 和 spearman等

import pandas as pd
data = pd.DataFrame([range(1,8),range(2,9)])
print(data)
s1 = data.loc[0]
s2 = data.loc[1]
data.corr(method='pearson')
corr = s1.corr(s2)
print(corr)

Python資料分析之：Pandas的基本資料分析功能1. pandas 建立 Series 格式資料2. pandas 建立 dataframe 格式資料3. 使用pandas内置函數來分析資料

3.4 計算協方差 cov

import pandas as pd
import numpy as np
data = pd.DataFrame(np.random.randn(6,5))
print(data,'\n')
cov = data[0].cov(data[1])
print(cov)

Python資料分析之：Pandas的基本資料分析功能1. pandas 建立 Series 格式資料2. pandas 建立 dataframe 格式資料3. 使用pandas内置函數來分析資料

3.5 skew 偏度（三階矩）/kurt 峰度（四階矩）

import pandas as pd
import numpy as np
data = pd.DataFrame(np.random.randn(6,5))
print(data)
print(data.skew())
print(data.kurt())

Python資料分析之：Pandas的基本資料分析功能1. pandas 建立 Series 格式資料2. pandas 建立 dataframe 格式資料3. 使用pandas内置函數來分析資料

Python資料分析之：Pandas的基本資料分析功能1. pandas 建立 Series 格式資料2. pandas 建立 dataframe 格式資料3. 使用pandas内置函數來分析資料

文章目錄

1. pandas 建立 Series 格式資料

2. pandas 建立 dataframe 格式資料

3. 使用pandas内置函數來分析資料

3.1 describe()

3.2 var / sum

3.3 求相關性 corr

3.4 計算協方差 cov

3.5 skew 偏度（三階矩）/kurt 峰度（四階矩）

繼續閱讀

來自python的【條件控制/語句循環/break/continue/else/pass】一、條件控制二、語句循環

無法解析的外部符号 wmain，該符号在函數 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink導出用例轉換工具(XML2Excel)

YAML簡介和PyYAML安全操作YAML支援的類型YAML的優點：yaml的基本文法python操作

Small tricks

libsvm for python 安裝

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入