天天看點

資料清洗的一些梳理

資料清洗, 是整個資料分析過程中不可缺少的一個環節,其結果品質直接關系到模型效果和最終結論。在實際操作中,資料清洗通常會占據分析過程的50%—80%的時間。國外有些學術機構會專門研究如何做資料清洗,相關的書籍也不少。

資料清洗的一些梳理

(美亞搜data cleaning的結果,可以看到這書還挺貴)

我将在這篇文章中,嘗試非常淺層次的梳理一下資料清洗過程,供各位參考。

照例,先上圖:

資料清洗的一些梳理

預處理階段

預處理階段主要做兩件事情:

一是将資料導入處理工具。通常來說,建議使用資料庫,單機跑數搭建MySQL環境即可。如果資料量大(千萬級以上),可以使用文本檔案存儲+Python操作的方式。

二是看資料。這裡包含兩個部分:一是看中繼資料,包括字段解釋、資料來源、代碼表等等一切描述資料的資訊;二是抽取一部分資料,使用人工檢視方式,對資料本身有一個直覺的了解,并且初步發現一些問題,為之後的處理做準備。

第一步:缺失值清洗

缺失值是最常見的資料問題,處理缺失值也有很多方法,我建議按照以下四

繼續閱讀