資料分析工具Pandas（7）：資料清洗、合并、轉化和重構

資料分析工具Pandas（1）：Pandas的資料結構

資料分析工具Pandas（2）：Pandas的索引操作

資料分析工具Pandas（3）：Pandas的對齊運算

資料分析工具Pandas（4）：Pandas的函數應用

資料分析工具Pandas（5）：Pandas的層級索引

資料分析工具Pandas（6）：Pandas統計計算和描述

資料清洗

資料清洗是資料分析關鍵的一步，直接影響之後的處理工作

資料需要修改嗎？有什麼需要修改的嗎？資料應該怎麼調整才能适用于接下來的分析和挖掘？

是一個疊代的過程，實際項目中可能需要不止一次地執行這些清洗操作

處理缺失資料：pd.fillna()，pd.dropna()

資料連接配接(pd.merge)

pd.merge

根據單個或多個鍵将不同DataFrame的行連接配接起來

類似資料庫的連接配接操作

import pandas as pd
import numpy as np
 
df_obj1 = pd.DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'a', 'b'],
                        'data1' : np.random.randint(0,10,7)})
df_obj2 = pd.DataFrame({'key': ['a', 'b', 'd'],
                        'data2' : np.random.randint(0,10,3)})
 
print(df_obj1)
print(df_obj2)

運作結果：

data1 key
   data1 key
0      8   b
1      8   b
2      3   a
3      5   c
4      4   a
5      9   a
6      6   b
 
   data2 key
0      9   a
1      0   b
2      3   d

1. 預設将重疊列的列名作為“外鍵”進行連接配接

# 預設将重疊列的列名作為“外鍵”進行連接配接
print(pd.merge(df_obj1, df_obj2))

data1 key  data2
0      8   b      0
1      8   b      0
2      6   b      0
3      3   a      9
4      4   a      9
5      9   a      9

2. on顯示指定“外鍵”

# on顯示指定“外鍵”
print(pd.merge(df_obj1, df_obj2, on='key'))

data1 key  data2
0      8   b      0
1      8   b      0
2      6   b      0
3      3   a      9
4      4   a      9
5      9   a      9

3. left_on，左側資料的“外鍵”，right_on，右側資料的“外鍵”

# left_on，right_on分别指定左側資料和右側資料的“外鍵”
 
# 更改列名
df_obj1 = df_obj1.rename(columns={'key':'key1'})
df_obj2 = df_obj2.rename(columns={'key':'key2'})
 
print(pd.merge(df_obj1, df_obj2, left_on='key1', right_on='key2'))

data1 key1  data2 key2
0      8    b      0    b
1      8    b      0    b
2      6    b      0    b
3      3    a      9    a
4      4    a      9    a
5      9    a      9    a

預設是“内連接配接”(inner)，即結果中的鍵是交集

how指定連接配接方式

4. “外連接配接”(outer)，結果中的鍵是并集

預設是“内連接配接”(inner)，即結果中的鍵是交集

how 指定連接配接方式

4. “外連接配接”(outer)，結果中的鍵是并集

# “外連接配接”
print(pd.merge(df_obj1, df_obj2, left_on='key1', right_on='key2', how='outer'))

data1 key1  data2 key2
0    8.0    b    0.0    b
1    8.0    b    0.0    b
2    6.0    b    0.0    b
3    3.0    a    9.0    a
4    4.0    a    9.0    a
5    9.0    a    9.0    a
6    5.0    c    NaN  NaN
7    NaN  NaN    3.0    d

5. “左連接配接”(left)

# 左連接配接
print(pd.merge(df_obj1, df_obj2, left_on='key1', right_on='key2', how='left'))

data1 key1  data2 key2
0      8    b    0.0    b
1      8    b    0.0    b
2      3    a    9.0    a
3      5    c    NaN  NaN
4      4    a    9.0    a
5      9    a    9.0    a
6      6    b    0.0    b

6. “右連接配接”(right)

# 右連接配接
print(pd.merge(df_obj1, df_obj2, left_on='key1', right_on='key2', how='right'))

data1 key1  data2 key2
0    8.0    b      0    b
1    8.0    b      0    b
2    6.0    b      0    b
3    3.0    a      9    a
4    4.0    a      9    a
5    9.0    a      9    a
6    NaN  NaN      3    d

7. 處理重複列名

suffixes，預設為_x, _y

# 處理重複列名
df_obj1 = pd.DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'a', 'b'],
                        'data' : np.random.randint(0,10,7)})
df_obj2 = pd.DataFrame({'key': ['a', 'b', 'd'],
                        'data' : np.random.randint(0,10,3)})
 
print(pd.merge(df_obj1, df_obj2, on='key', suffixes=('_left', '_right')))

data_left key  data_right
0          9   b           1
1          5   b           1
2          1   b           1
3          2   a           8
4          2   a           8
5          5   a           8

8. 按索引連接配接

left_index=True或right_index=True

# 按索引連接配接
df_obj1 = pd.DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'a', 'b'],
                        'data1' : np.random.randint(0,10,7)})
df_obj2 = pd.DataFrame({'data2' : np.random.randint(0,10,3)}, index=['a', 'b', 'd'])
 
print(pd.merge(df_obj1, df_obj2, left_on='key', right_index=True))

data1 key  data2
0      3   b      6
1      4   b      6
6      8   b      6
2      6   a      0
4      3   a      0
5      0   a      0

資料合并(pd.concat)

沿軸方向将多個對象合并到一起

1. NumPy的concat

np.concatenate

import numpy as np
import pandas as pd
 
arr1 = np.random.randint(0, 10, (3, 4))
arr2 = np.random.randint(0, 10, (3, 4))
 
print(arr1)
print(arr2)
 
print(np.concatenate([arr1, arr2]))
print(np.concatenate([arr1, arr2], axis=1))

# print(arr1)
[[3 3 0 8]
 [2 0 3 1]
 [4 8 8 2]]
 
# print(arr2)
[[6 8 7 3]
 [1 6 8 7]
 [1 4 7 1]]
 
# print(np.concatenate([arr1, arr2]))
 [[3 3 0 8]
 [2 0 3 1]
 [4 8 8 2]
 [6 8 7 3]
 [1 6 8 7]
 [1 4 7 1]]
 
# print(np.concatenate([arr1, arr2], axis=1)) 
[[3 3 0 8 6 8 7 3]
 [2 0 3 1 1 6 8 7]
 [4 8 8 2 1 4 7 1]]

2. pd.concat

注意指定軸方向，預設axis=0
join指定合并方式，預設為outer
Series合并時檢視行索引有無重複

1) index 沒有重複的情況

# index 沒有重複的情況
ser_obj1 = pd.Series(np.random.randint(0, 10, 5), index=range(0,5))
ser_obj2 = pd.Series(np.random.randint(0, 10, 4), index=range(5,9))
ser_obj3 = pd.Series(np.random.randint(0, 10, 3), index=range(9,12))
 
print(ser_obj1)
print(ser_obj2)
print(ser_obj3)
 
print(pd.concat([ser_obj1, ser_obj2, ser_obj3]))
print(pd.concat([ser_obj1, ser_obj2, ser_obj3], axis=1))

# print(ser_obj1)
0    1
1    8
2    4
3    9
4    4
dtype: int64
 
# print(ser_obj2)
5    2
6    6
7    4
8    2
dtype: int64
 
# print(ser_obj3)
9     6
10    2
11    7
dtype: int64
 
# print(pd.concat([ser_obj1, ser_obj2, ser_obj3]))
0     1
1     8
2     4
3     9
4     4
5     2
6     6
7     4
8     2
9     6
10    2
11    7
dtype: int64
 
# print(pd.concat([ser_obj1, ser_obj2, ser_obj3], axis=1))
      0    1    2
0   1.0  NaN  NaN
1   5.0  NaN  NaN
2   3.0  NaN  NaN
3   2.0  NaN  NaN
4   4.0  NaN  NaN
5   NaN  9.0  NaN
6   NaN  8.0  NaN
7   NaN  3.0  NaN
8   NaN  6.0  NaN
9   NaN  NaN  2.0
10  NaN  NaN  3.0
11  NaN  NaN  3.0

2) index 有重複的情況

# index 有重複的情況
ser_obj1 = pd.Series(np.random.randint(0, 10, 5), index=range(5))
ser_obj2 = pd.Series(np.random.randint(0, 10, 4), index=range(4))
ser_obj3 = pd.Series(np.random.randint(0, 10, 3), index=range(3))
 
print(ser_obj1)
print(ser_obj2)
print(ser_obj3)
 
print(pd.concat([ser_obj1, ser_obj2, ser_obj3]))

# print(ser_obj1)
0    0
1    3
2    7
3    2
4    5
dtype: int64
 
# print(ser_obj2)
0    5
1    1
2    9
3    9
dtype: int64
 
# print(ser_obj3)
0    8
1    7
2    9
dtype: int64
 
# print(pd.concat([ser_obj1, ser_obj2, ser_obj3]))
0    0
1    3
2    7
3    2
4    5
0    5
1    1
2    9
3    9
0    8
1    7
2    9
dtype: int64
 
# print(pd.concat([ser_obj1, ser_obj2, ser_obj3], axis=1, join='inner')) 
# join='inner' 将去除NaN所在的行或列
   0  1  2
0  0  5  8
1  3  1  7
2  7  9  9

3) DataFrame合并時同時檢視行索引和列索引有無重複

df_obj1 = pd.DataFrame(np.random.randint(0, 10, (3, 2)), index=['a', 'b', 'c'],
                       columns=['A', 'B'])
df_obj2 = pd.DataFrame(np.random.randint(0, 10, (2, 2)), index=['a', 'b'],
                       columns=['C', 'D'])
print(df_obj1)
print(df_obj2)
 
print(pd.concat([df_obj1, df_obj2]))
print(pd.concat([df_obj1, df_obj2], axis=1, join='inner'))

# print(df_obj1)
   A  B
a  3  3
b  5  4
c  8  6
 
# print(df_obj2)
   C  D
a  1  9
b  6  8
 
# print(pd.concat([df_obj1, df_obj2]))
     A    B    C    D
a  3.0  3.0  NaN  NaN
b  5.0  4.0  NaN  NaN
c  8.0  6.0  NaN  NaN
a  NaN  NaN  1.0  9.0
b  NaN  NaN  6.0  8.0
 
# print(pd.concat([df_obj1, df_obj2], axis=1, join='inner'))
   A  B  C  D
a  3  3  1  9
b  5  4  6  8

資料重構

1. stack

将列索引旋轉為行索引，完成層級索引
DataFrame->Series

import numpy as np
import pandas as pd
 
df_obj = pd.DataFrame(np.random.randint(0,10, (5,2)), columns=['data1', 'data2'])
print(df_obj)
 
stacked = df_obj.stack()
print(stacked)

# print(df_obj)
   data1  data2
0      7      9
1      7      8
2      8      9
3      4      1
4      1      2
 
# print(stacked)
0  data1    7
   data2    9
1  data1    7
   data2    8
2  data1    8
   data2    9
3  data1    4
   data2    1
4  data1    1
   data2    2
dtype: int64

2. unstack

将層級索引展開
Series->DataFrame
認操作内層索引，即level=-1

# 預設操作内層索引
print(stacked.unstack())
 
# 通過level指定操作索引的級别
print(stacked.unstack(level=0))

# print(stacked.unstack())
   data1  data2
0      7      9
1      7      8
2      8      9
3      4      1
4      1      2
 
# print(stacked.unstack(level=0))
       0  1  2  3  4
data1  7  7  8  4  1
data2  9  8  9  1  2

資料轉換

一、處理重複資料

duplicated()

傳回布爾型Series表示每行是否為重複行

import numpy as np
import pandas as pd
 
df_obj = pd.DataFrame({'data1' : ['a'] * 4 + ['b'] * 4,
                       'data2' : np.random.randint(0, 4, 8)})
print(df_obj)
 
print(df_obj.duplicated())

# print(df_obj)
  data1  data2
0     a      3
1     a      2
2     a      3
3     a      3
4     b      1
5     b      0
6     b      3
7     b      0
 
# print(df_obj.duplicated())
0    False
1    False
2     True
3     True
4    False
5    False
6    False
7     True
dtype: bool

drop_duplicates()

過濾重複行

預設判斷全部列

可指定按某些列判斷

print(df_obj.drop_duplicates())
print(df_obj.drop_duplicates('data2'))

# print(df_obj.drop_duplicates())
  data1  data2
0     a      3
1     a      2
4     b      1
5     b      0
6     b      3
 
# print(df_obj.drop_duplicates('data2'))
  data1  data2
0     a      3
1     a      2
4     b      1
5     b      0# print(df_obj.drop_duplicates())
  data1  data2
0     a      3
1     a      2
4     b      1
5     b      0
6     b      3
 
# print(df_obj.drop_duplicates('data2'))
  data1  data2
0     a      3
1     a      2
4     b      1
5     b      0

3. 根據

map

傳入的函數對每行或每列進行轉換

Series根據 map

示例代碼：

ser_obj = pd.Series(np.random.randint(0,10,10))
print(ser_obj)
 
print(ser_obj.map(lambda x : x ** 2))

# print(ser_obj)
0    1
1    4
2    8
3    6
4    8
5    6
6    6
7    4
8    7
9    3
dtype: int64
 
# print(ser_obj.map(lambda x : x ** 2))
0     1
1    16
2    64
3    36
4    64
5    36
6    36
7    16
8    49
9     9
dtype: int64

資料分析工具Pandas（7）：資料清洗、合并、轉化和重構

資料合并(pd.concat)

資料重構

資料轉換

一、處理重複資料

繼續閱讀

《Linux指令行與Shell腳本程式設計大全第2版.布盧姆》pdf

MySQL的4種隔離級别？出現問題

XX系統實施過程問題總結

無元件上傳圖檔到資料庫中，最完整解決方案

【MySQL資料庫】資料庫索引事務1.索引2.事務

neo4j之cypher使用文檔

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

NOSQL安全攻擊

mybatis_入門程式Mybatis入門

登入plsql 報錯 the account is locked --使用者被鎖

SequoiaDB巨杉資料庫C++驅動概述

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入

資料分析工具Pandas（7）：資料清洗、合并、轉化和重構

資料合并(pd.concat)

資料重構

資料轉換

一、 處理重複資料

繼續閱讀

一、處理重複資料