天天看點

傳統資料挖掘技術小結

         資料分析或者挖掘到底在做什麼?認為分析是為了定性地、概括地從龐大的資料中找到規律,找到資料挖掘的方向。就像解數學題之前要對題目進行定性,簡單的推演以找到解決數學問題的思路。

         資料挖掘是從龐大的資訊源中獲得知識【1】的過程。資料挖掘是為了得到目标結果而使用的方法,手段。有一些比較成熟的資料挖掘算法。如,決策樹算法【2】,神經網絡算法【2】,支援向量機【3】,線性回歸等。其中決策樹算法時間複雜度最低,應該是最常用的挖掘算法。

         知識的挖掘離不開資訊源。未經處理的資訊往往帶有很大的噪聲。是以必須要對原始資訊進行處理。這也就是所謂的資料清洗,屬于資料預處理子產品。

         經過處理後的資料更加幹淨,準确,簡化。可以更好地為挖掘使用。進而減少了資料挖掘算法子產品的資料處理量,提高了挖掘的效率和知識發現的起點,準确度。

         經過資料預處理子產品之後便可以進入到挖掘算法子產品了。再經過某種方法将資料處理之後便可以得到一定的模式或規則。但是這時得到的模式并不是最終的知識,因為模式有可能是備援的、無效的,甚至是錯誤的。這就需要做進一步處理。

得到無誤的模式之後,還需要對模式解釋表達,使使用者能夠了解,進而能夠做出評估判斷。這就是資訊展示要做的工作。此時要借助一些可視化技術和傳統的知識表達技術,這樣可以更加形象,直覺地表出挖掘的結果。

總而言之,資料挖掘得到知識的過程是:

繼續閱讀