天天看點

Python資料分析之:Pandas的基本資料分析功能1. pandas 建立 Series 格式資料2. pandas 建立 dataframe 格式資料3. 使用pandas内置函數來分析資料

文章目錄

  • 1. pandas 建立 Series 格式資料
  • 2. pandas 建立 dataframe 格式資料
  • 3. 使用pandas内置函數來分析資料
    • 3.1 describe()
    • 3.2 var / sum
    • 3.3 求相關性 corr
    • 3.4 計算協方差 cov
    • 3.5 skew 偏度(三階矩)/kurt 峰度(四階矩)

Pandas 是 Python資料分析的強有效的庫,主要通過 Series 結構和 DataFrame 結構來進行資料表格的建立,并通過其内置的一些函數進行資料的統計和分析。

1. pandas 建立 Series 格式資料

import pandas

pd = pandas.Series([4,5,6,7],['1','2','3','4'])
print(pd)


           
Python資料分析之:Pandas的基本資料分析功能1. pandas 建立 Series 格式資料2. pandas 建立 dataframe 格式資料3. 使用pandas内置函數來分析資料

2. pandas 建立 dataframe 格式資料

import pandas as pd
data = pd.DataFrame([1,2],['0','1'],['data'])

print(data)

           
Python資料分析之:Pandas的基本資料分析功能1. pandas 建立 Series 格式資料2. pandas 建立 dataframe 格式資料3. 使用pandas内置函數來分析資料

或者:

import pandas as pd
lst = [list(range(1,5)),list(range(6,10))]
data = pd.DataFrame(lst,['0','1'],['data1','data2','data3','data4'])

print(data)
           
Python資料分析之:Pandas的基本資料分析功能1. pandas 建立 Series 格式資料2. pandas 建立 dataframe 格式資料3. 使用pandas内置函數來分析資料

PS: pandas 的 dataframe結構任意取出一行或者一列,其結構都是 Series。

3. 使用pandas内置函數來分析資料

3.1 describe()

import pandas as pd
lst = [list(range(1,5)),list(range(6,10))]
data = pd.DataFrame(lst,index=['0','1'],columns=['data1','data2','data3','data4'])
describe = data.describe()
print(describe)
           
Python資料分析之:Pandas的基本資料分析功能1. pandas 建立 Series 格式資料2. pandas 建立 dataframe 格式資料3. 使用pandas内置函數來分析資料

describe()函數最終會呈現每一列資料的count(非空值的個數)、mean(這一列的均值)、std(這一列的标準差)、min(最小值)、25%(下四分位數)、50%(中位數)、75%(上四分位數)、max(最大值)

3.2 var / sum

import pandas as pd
lst = [list(range(1,5)),list(range(6,10))]
data = pd.DataFrame(lst,index=['0','1'],columns=['data1','data2','data3','data4'])
describe = data.describe()
var = data.var()            #求方差
sum = data.sum()            #求和
print(var,'\n',sum,'\n')

           
Python資料分析之:Pandas的基本資料分析功能1. pandas 建立 Series 格式資料2. pandas 建立 dataframe 格式資料3. 使用pandas内置函數來分析資料

3.3 求相關性 corr

相關性的标準有 Pearson 和 spearman等

import pandas as pd
data = pd.DataFrame([range(1,8),range(2,9)])
print(data)
s1 = data.loc[0]
s2 = data.loc[1]
data.corr(method='pearson')
corr = s1.corr(s2)
print(corr)
           
Python資料分析之:Pandas的基本資料分析功能1. pandas 建立 Series 格式資料2. pandas 建立 dataframe 格式資料3. 使用pandas内置函數來分析資料

3.4 計算協方差 cov

import pandas as pd
import numpy as np
data = pd.DataFrame(np.random.randn(6,5))
print(data,'\n')
cov = data[0].cov(data[1])
print(cov)
           
Python資料分析之:Pandas的基本資料分析功能1. pandas 建立 Series 格式資料2. pandas 建立 dataframe 格式資料3. 使用pandas内置函數來分析資料

3.5 skew 偏度(三階矩)/kurt 峰度(四階矩)

import pandas as pd
import numpy as np
data = pd.DataFrame(np.random.randn(6,5))
print(data)
print(data.skew())
print(data.kurt())
           
Python資料分析之:Pandas的基本資料分析功能1. pandas 建立 Series 格式資料2. pandas 建立 dataframe 格式資料3. 使用pandas内置函數來分析資料