天天看點

資料挖掘研究内容和本質(轉)

随着DMKD研究逐漸走向深入,資料挖掘和知識發現的研究已經形成了三根強大的技術支柱:資料庫、人工智能和 數理統計。是以,KDD大會程式委員會曾經由這三個學科的權威人物同時來任主席。目前DMKD的主要研究内容包括基礎理論、發現算法、資料倉庫、可視化技 術、定性定量互換模型、知識表示方法、發現知識的維護和再利用、半結構化和非結構化資料中的知識發現以及網上資料挖掘等。

資料挖掘所發現的知識最常見的有以下四類:

- 廣義知識(Generalization)

廣義知識指類别特征的概括性描述知識。根據資料的微觀特性發現其表征的、帶有普遍性的、較高層次概念的、中觀和宏觀的知識,反映同類事物共同性質,是對資料的概括、精煉和抽象。

廣 義知識的發現方法和實作技術有很多,如資料立方體、面向屬性的歸約等。資料立方體還有其他一些别名,如“多元資料庫”、“實作視圖”、“OLAP"等。該 方法的基本思想是實作某些常用的代價較高的聚集函數的計算,諸如計數、求和、平均、最大值等,并将這些實作視圖儲存在多元資料庫中。既然很多聚集函數需經 常重複計算,那麼在多元資料立方體中存放預先計算好的結果将能保證快速響應,并可靈活地提供不同角度和不同抽象層次上的資料視圖。另一種廣義知識發現方法 是加拿大SimonFraser大學提出的面向屬性的歸約方法。這種方法以類SQL語言表示資料挖掘查詢,收集資料庫中的相關資料集,然後在相關資料集上 應用一系列資料推廣技術進行資料推廣,包括屬性删除、概念樹提升、屬性門檻值控制、計數及其他聚集函數傳播等。

- 關聯知識(Association)
它反映一個事件和其他事件之間依賴或關聯的知識。如果兩項或多項屬性之間存在關聯,那麼其中一項的屬性值就可 以依據其他屬性值進行預測。最為著名的關聯規則發現方法是R.Agrawal提出的Apriori算法。關聯規則的發現可分為兩步。第一步是疊代識别所有 的頻繁項目集,要求頻繁項目集的支援率不低于使用者設定的最低值;第二步是從頻繁項目集中構造可信度不低于使用者設定的最低值的規則。識别或發現所有頻繁項目 集是關聯規則發現算法的核心,也是計算量最大的部分。
- 分類知識(Classification&Clustering)

它反映同類事物共同性質的特征型知識和不同僚物之間的差異型特征知識。最為典型的分類方法是基于決策樹的分類 方法。它是從執行個體集中構造決策樹,是一種有指導的學習方法。該方法先根據訓練子集(又稱為視窗)形成決策樹。如果該樹不能對所有對象給出正确的分類,那麼 選擇一些例外加入到視窗中,重複該過程一直到形成正确的決策集。最終結果是一棵樹,其葉結點是類名,中間結點是帶有分枝的屬性,該分枝對應該屬性的某一可 能值。最為典型的決策樹學習系統是ID3,它采用自頂向下不回溯政策,能保證找到一個簡單的樹。算法C4.5和C5.0都是ID3的擴充,它們将分類領域 從類别屬性擴充到數值型屬性。

資料分類還有統計、粗糙集(RoughSet)等方法。線性回歸和線性辨識分析是典型的統計模型。為降低決策樹生成代價,人們還提出了一種區間分類器。最近也有人研究使用神經網絡方法在資料庫中進行分類和規則提取。

- 預測型知識(Prediction)

它根據時間序列型資料,由曆史的和目前的資料去推測未來的資料,也可以認為是以時間為關鍵屬性的關聯知識。

目 前,時間序列預測方法有經典的統計方法、神經網絡和機器學習等。1968年Box和Jenkins提出了一套比較完善的時間序列模組化理論和分析方法,這些 經典的數學方法通過建立随機模型,如自回歸模型、自回歸滑動平均模型、求和自回歸滑動平均模型和季節調整模型等,進行時間序列的預測。由于大量的時間序列 是非平穩的,其特征參數和資料分布随着時間的推移而發生變化。是以,僅僅通過對某段曆史資料的訓練,建立單一的神經網絡預測模型,還無法完成準确的預測任 務。為此,人們提出了基于統計學和基于精确性的再訓練方法,當發現現存預測模型不再适用于目前資料時,對模型重新訓練,獲得新的權重參數,建立新的模型。 也有許多系統借助并行算法的計算優勢進行時間序列預測。

- 偏差型知識(Deviation)
此外,還可以發現其他類型的知識,如偏差型知識(Deviation),它是對差異和極端特例的描述,揭示事 物偏離正常的異常現象,如标準類外的特例,資料聚類外的離群值等。所有這些知識都可以在不同的概念層次上被發現,并随着概念層次的提升,從微觀到中觀、到 宏觀,以滿足不同使用者不同層次決策的需要。
資料挖掘的功能
資料挖掘通過預測未來趨勢及行為,做出前攝的、基于知識的決策。資料挖掘的目标是從資料庫中發現隐含的、有意義的知識,主要有以下五類功能。
- 自動預測趨勢和行為
資料挖掘自動在大型資料庫中尋找預測性資訊,以往需要進行大量手工分析的問題如今可以迅速直接由資料本身得出 結論。一個典型的例子是市場預測問題,資料挖掘使用過去有關促銷的資料來尋找未來投資中回報最大的使用者,其它可預測的問題包括預報破産以及認定對指定事件 最可能作出反應的群體。
- 關聯分析
資料關聯是資料庫中存在的一類重要的可被發現的知識。若兩個或多個變量的取值之間存在某種規律性,就稱為關 聯。關聯可分為簡單關聯、時序關聯、因果關聯。關聯分析的目的是找出資料庫中隐藏的關聯網。有時并不知道資料庫中資料的關聯函數,即使知道也是不确定的, 是以關聯分析生成的規則帶有可信度。
- 聚類
資料庫中的記錄可被化分為一系列有意義的子集,即聚類。聚類增強了人們對客觀現實的認識,是概念描述和偏差分 析的先決條件。聚類技術主要包括傳統的模式識别方法和數學分類學。80年代初,Mchalski提出了概念聚類技術牞其要點是,在劃分對象時不僅考慮對象 之間的距離,還要求劃分出的類具有某種内涵描述,進而避免了傳統技術的某些片面性。
- 概念描述
概念描述就是對某類對象的内涵進行描述,并概括這類對象的有關特征。概念描述分為特征性描述和差別性描述,前 者描述某類對象的共同特征,後者描述不同類對象之間的差別。生成一個類的特征性描述隻涉及該類對象中所有對象的共性。生成差別性描述的方法很多,如決策樹 方法、遺傳算法等。
- 偏差檢測
資料庫中的資料常有一些異常記錄,從資料庫中檢測這些偏差很有意義。偏差包括很多潛在的知識,如分類中的反常執行個體、不滿足規則的特例、觀測結果與模型預測值的偏差、量值随時間的變化等。偏差檢測的基本方法是,尋找觀測結果與參照值之間有意義的差别。
資料挖掘常用技術
- 人工神經網絡
仿照生理神經網絡結構的非線形預測模型,通過學習進行模式識别。
- 決策樹
代表着決策集的樹形結構。
- 遺傳算法
基于進化理論,并采用遺傳結合、遺傳變異、以及自然選擇等設計方法的優化技術。
- 近鄰算法
将資料集合中每一個記錄進行分類的方法。
- 規則推導

從統計意義上對資料中的“如果-那麼”規則進行尋找和推導。

采用上述技術的某些專門的分析工具已經發展了大約十年的曆史,不過這些工具所面對的資料量通常較小。而現在這些技術已經被直接內建到許多大型的工業标準的資料倉庫和聯機分析系統中去了。

摘自《資料挖掘讨論組》

繼續閱讀