天天看點

資料挖掘的一般過程資料挖掘的一般過程

資料挖掘的一般過程

本文主要參考了一篇文章(最後附),那篇文章不太全面,是以加入了自己一點了解。由于實踐經驗太少,水準有限,希望大神指正。

資料挖掘的一般過程資料挖掘的一般過程

1. 資料集選取或構造

根據任務的目的,選擇資料集。或者從實際中構造自己需要的資料。

2. 資料預處理

确定資料集後,就開始對資料進行預處理使得資料能夠為我們所用了。資料預處理提高資料品質:準确性、完整性和一緻性,包括資料清理、資料內建、資料規約和資料變換方法。

資料挖掘的一般過程資料挖掘的一般過程

(1)資料清理

忽略元祖、人工填寫缺失值、使用屬性的中心度量填充、給定同一類所有樣本的屬性均值或中位數填充、最可能的值填充

(2)資料內建

實體識别、備援和相關分析(卡方檢驗,相關系數,協方差等,用spss比較友善)

(3)資料歸約

維規約(小波變換和主成分分析,最常用)、數量規約(較小的資料替代原始資料)、資料壓縮(有損無損兩種,尤其對于圖像視訊等多媒體常用)

(4)資料變換和資料離散化

資料變換:光滑,屬性構造,聚集,規範化,離散化和概念分層。

資料挖掘的一般過程資料挖掘的一般過程
資料挖掘的一般過程資料挖掘的一般過程

3. 資料轉換

将上面處理後的資料轉換為特征,這些特征要盡可能的準确的描述資料,并且使得機器學習算法達到最優。

詳見特征工程

4. 資料模組化

根據機器學習模型優缺點,選擇适宜本任務的最佳模型。其中一種方式是對每個模型都進行訓練,再統計測試資料的誤差,選擇誤差最小的模型即可。

另外,還需要調整模型的參數,使得模型表現盡可能最優。主要方法有手動調優、網格搜尋、随機搜尋以及基于貝葉斯的參數調優方法。詳見機器學習調參-模型選擇

5. 結果分析和改進

分析的對象主要是模型的優缺點(或者叫模型的評估),客觀公正的評判自己的作品(能有高手幫忙最好啦)能清醒自己的認知。改進就是從分析當中來。

參考:資料挖掘一般過程

繼續閱讀