資料清洗
資料清洗的目的是消除資料中的錯誤、備援和資料噪音,是資料預進行中的一部分。
分析資料
在一個實際項目中,根據需求而去找尋能擷取到的資料。擷取資料之後,首先可以做一個簡單的統計性分析,如平均值、頻次、方差等。從這一步中可以大緻發現資料中的異常點、噪音等,進而判斷資料的品質。
缺失值處理
在實際情況中,屬性值确實是常有的情況,那麼對待缺失值的處理需要根據不同的情況做不同的處理:
(1)直接删除。對于含有缺失值的資料數目比較少,而且出現的比較随機,那麼可以直接删除。
(2)使用一個全局量進行填充。不建議,不同的屬性有不同的特點,用單一的全局量替代缺失值欠妥。
(3)使用該屬性的均值或者中位數填充。
(4)插補法。從所使用的方法來看,插補法和常用的資料增強方法有很多共同之處。
a. 從總體中随機抽取一個替代目前樣本(随機插補法);
b.通過變量之間的關系對缺失資料進行預測,如蒙特卡洛方法(多重插補法);
c. 通過Lagrange、Newton等插值方法進行填充(插值法);
d. 在未缺失資料的樣本中尋找相似的樣本處對應的值進行填充(熱平台插補)。
(5)模組化法(推薦)
利用回歸、貝葉斯、決策樹等方法進行預測。
異常值處理
檢測與判别
異常點通俗的說就是不合群的點。
(1)簡單的分析法。如判定資料值的範圍。
(2)簡單的統計方法。如在假設檢驗中的置信區間,如果資料服從正态分布,那麼資料落在 3σ 區間内的機率為0.9974,也就是 P(|x−u|<3σ)≈0.9974 。其他的分布可以參考這種方式。
(3)箱型圖分析
(4)基于模型的檢驗。建立相應的資料模型(回歸模型等),然後檢查資料是否符合模型。
(5)基于相似性度量。觀察資料點是否與其他點相似。
(6)基于密度的度量。适合非均勻分布的資料。
(7)基于聚類。
處理
(1)不處理。參考使用的算法是否對異常點敏感。
(2)視為缺失值,利用對缺失值的方法進行處理。
去重處理
先查找重複資料,然後删除。
噪音處理
注意差別噪音和異常點。觀測值是真實值和噪聲的疊加。異常點指的是觀測值,它與其他觀測值有着明顯的差別,也有可能是噪音造成的;噪聲雖然會使得對真實資料有影響,但一般不會造成過分的影響。
(1)濾波。均值濾波、中值濾波等,盒型濾波方法中可以自定義盒型的建構。
(2)回歸。建立回歸模型,對屬性值進行預測。
References:
[1]機器學習基礎與實踐(一)—-資料清洗
[2]機器學習之常見的資料預處理