帶帶菜菜吧
EDA 目标
- EDA的價值主要在于熟悉資料集,了解資料集,對資料集進行驗證來确定所獲得資料集可以用于接下來的機器學習或者深度學習使用。
- 當了解了資料集之後我們下一步就是要去了解變量間的互相關系以及變量與預測值之間的存在關系。
- 引導資料科學從業者進行資料處理以及特征工程的步驟,使資料集的結構和特征集讓接下來的預測問題更加可靠。
- 完成對于資料的探索性分析,并對于資料進行一些圖表或者文字總結并打卡。
内容介紹
- 載入各種資料科學以及可視化庫:
- 資料科學庫 pandas、numpy、scipy;
- 可視化庫 matplotlib、seabon;
- 載入資料:
- 載入訓練集和測試集;
- 簡略觀察資料(head()+shape);
- 資料總覽:
- 通過describe()來熟悉資料的相關統計量
- 通過info()來熟悉資料類型
- 判斷資料缺失和異常
- 檢視每列的存在nan情況
- 異常值檢測
- 了解預測值的分布
- 總體分布概況
- 檢視skewness and kurtosis
- 檢視預測值的具體頻數
個人總結:在資料集讀入後,複制給變量,如train。
我們可以通過:
train.shape | 檢視資料的行列資訊 |
train.head() | 觀看首資料 |
train.head().append(train.tail()) | 觀看首尾資料 |
train.describe() | 擷取資料的相關統計量 |
train.info() | 擷取資料類型 |
train.isnull().sum() | 檢視每列的缺失數量 |
以上是簡單的指令了解資料,還可以通過工具包pandas_profiling生成資料報告 ,更直覺觀看資料特點。
import pandas_profiling
pfr = pandas_profiling.ProfileReport(data_train)
pfr.to_file("./example.html")