文章目錄
- 1. pandas 建立 Series 格式資料
- 2. pandas 建立 dataframe 格式資料
- 3. 使用pandas内置函數來分析資料
-
- 3.1 describe()
- 3.2 var / sum
- 3.3 求相關性 corr
- 3.4 計算協方差 cov
- 3.5 skew 偏度(三階矩)/kurt 峰度(四階矩)
Pandas 是 Python資料分析的強有效的庫,主要通過 Series 結構和 DataFrame 結構來進行資料表格的建立,并通過其内置的一些函數進行資料的統計和分析。
1. pandas 建立 Series 格式資料
import pandas
pd = pandas.Series([4,5,6,7],['1','2','3','4'])
print(pd)
2. pandas 建立 dataframe 格式資料
import pandas as pd
data = pd.DataFrame([1,2],['0','1'],['data'])
print(data)
或者:
import pandas as pd
lst = [list(range(1,5)),list(range(6,10))]
data = pd.DataFrame(lst,['0','1'],['data1','data2','data3','data4'])
print(data)
PS: pandas 的 dataframe結構任意取出一行或者一列,其結構都是 Series。
3. 使用pandas内置函數來分析資料
3.1 describe()
import pandas as pd
lst = [list(range(1,5)),list(range(6,10))]
data = pd.DataFrame(lst,index=['0','1'],columns=['data1','data2','data3','data4'])
describe = data.describe()
print(describe)
describe()函數最終會呈現每一列資料的count(非空值的個數)、mean(這一列的均值)、std(這一列的标準差)、min(最小值)、25%(下四分位數)、50%(中位數)、75%(上四分位數)、max(最大值)
3.2 var / sum
import pandas as pd
lst = [list(range(1,5)),list(range(6,10))]
data = pd.DataFrame(lst,index=['0','1'],columns=['data1','data2','data3','data4'])
describe = data.describe()
var = data.var() #求方差
sum = data.sum() #求和
print(var,'\n',sum,'\n')
3.3 求相關性 corr
相關性的标準有 Pearson 和 spearman等
import pandas as pd
data = pd.DataFrame([range(1,8),range(2,9)])
print(data)
s1 = data.loc[0]
s2 = data.loc[1]
data.corr(method='pearson')
corr = s1.corr(s2)
print(corr)
3.4 計算協方差 cov
import pandas as pd
import numpy as np
data = pd.DataFrame(np.random.randn(6,5))
print(data,'\n')
cov = data[0].cov(data[1])
print(cov)
3.5 skew 偏度(三階矩)/kurt 峰度(四階矩)
import pandas as pd
import numpy as np
data = pd.DataFrame(np.random.randn(6,5))
print(data)
print(data.skew())
print(data.kurt())