天天看點

《BI那點兒事》淺析十三種常用的資料挖掘的技術

一、前沿

資料挖掘就是從大量的、不完全的、有噪聲的、模糊的、随機的資料中,提取隐含在其中的、人們事先不知道的但又是潛在有用的資訊和知識的過程。資料挖掘的任務是從資料集中發現模式,可以發現的模式有很多種,按功能可以分為兩大類:預測性(Predictive)模式和描述性(Descriptive)模式。在應用中往往根據模式的實際作用細分為以下幾種:分類,估值,預測,相關性分析,序列,時間序列,描述和可視化等。

資料挖掘涉及的學科領域和技術很多,有多種分類法。

根據挖掘任務分,可分為分類或預測模型發現、資料總結、聚類、關聯規則發現、序列模式發現、依賴關系或依賴模型發現、異常和趨勢發現等等;

根據挖掘對象分,有關系資料庫、面向對象資料庫、空間資料庫、時态資料庫、文本資料源、多媒體資料庫、異質資料庫、遺産資料庫以及環球網Web;

根據挖掘方法分,可粗分為:機器學習方法、統計方法、神經網絡方法和資料庫方法。

機器學習中,可細分為:歸納學習方法(決策樹、規則歸納等)、基于範例學習、遺傳算法等。

統計方法中,可細分為:回歸分析(多元回歸、自回歸等)、判别分析(貝葉斯判别、費歇爾判别、非參數判别等)、聚類分析(系統聚類、動态聚類等)、探索性分析(主元分析法、相關分析法等)等。

神經網絡方法中,可細分為:前向神經網絡(BP算法等)、自組織神經網絡(自組織特征映射、競争學習等)等。

資料庫方法主要是多元資料分析或OLAP方法,另外還有面向屬性的歸納方法等等。

二、資料挖掘技術簡述

資料挖掘的技術有很多種,按照不同的分類有不同的分類法。下面着重讨論一下資料挖掘中常用的一些技術:統計技術,關聯規則,基于曆史的分析,遺傳算法,聚集檢測,連接配接分析,決策樹,神經網絡,粗糙集,模糊集,回歸分析,差别分析,概念描述等十三種常用的資料挖掘的技術。

1、統計技術

資料挖掘涉及的科學領域和技術很多,如統計技術。統計技術對資料集進行挖掘的主要思想是:統計的方法對給定的資料集合假設了一個分布或者機率模型(例如一個正态分布)然後根據模型采用相應的方法來進行挖掘。

2、關聯規則

資料關聯是資料庫中存在的一類重要的可被發現的知識。若兩個或多個變量的取值之I司存在某種規律性,就稱為關聯。關聯可分為簡單關聯、時序關聯、因果關聯。關聯分析的目的是找出資料庫中隐藏的關聯網。有時并不知道資料庫中資料的關聯函數,即使知道也是不确定的,是以關聯分析生成的規則帶有可信度。

3、基于曆史的MBR(Memory-based Reasoning)分析

先根據經驗知識尋找相似的情況,然後将這些情況的資訊應用于目前的例子中。這個就是MBR(Memory Based Reasoning)的本質。MBR首先尋找和新記錄相似的鄰居,然後利用這些鄰居對新資料進行分類和估值。使用MBR有三個主要問題,尋找确定的曆史資料;決定表示曆史資料的最有效的方法;決定距離函數、聯合函數和鄰居的數量。

4、遺傳算法GA(Genetic Algorithms)

基于進化理論,并采用遺傳結合、遺傳變異、以及自然選擇等設計方法的優化技術。主要思想是:根據适者生存的原則,形成由目前群體中最适合的規則組成新的群體,以及這些規則的後代。典型情況下,規則的适合度(Fitness)用它對訓練樣本集的分類準确率評估。

5、聚集檢測

将實體或抽象對象的集合分組成為由類似的對象組成的多個類的過程被稱為聚類。由聚類所生成的簇是一組資料對象的集合,這些對象與同一個簇中的對象彼此相似,與其它簇中的對象相異。相異度是根據描述對象的屬眭值來計算的,距離是經常采用的度量方式。

6、連接配接分析

連接配接分析,Link analysis,它的基本理論是圖論。圖論的思想是尋找一個可以得出好結果但不是完美結果的算法,而不是去尋找完美的解的算法。連接配接分析就是運用了這樣的思想:不完美的結果如果是可行的,那麼這樣的分析就是一個好的分析。利用連接配接分析,可以從一些使用者的行為中分析出一些模式;同時将産生的概念應用于更廣的使用者群體中。

7、決策樹

決策樹提供了一種展示類似在什麼條件下會得到什麼值這類規則的方法。

8、神經網絡

在結構上,可以把一個神經網絡劃分為輸入層、輸出層和隐含層。輸入層的每個節點對應—個個的預測變量。輸出層的節點對應目标變量,可有多個。在輸入層和輸出層之間是隐含層(對神經網絡使用者來說不可見),隐含層的層數和每層節點的個數決定了神經網絡的複雜度。

除了輸入層的節點,神經網絡的每個節點都與很多它前面的節點(稱為此節點的輸入節點)連接配接在一起,每個連接配接對應一個權重Wxy,此節點的值就是通過它所有輸入節點的值與對應連接配接權重乘積的和作為—個函數的輸入而得到,我們把這個函數稱為活動函數或擠壓函數。

9、粗糙集

粗糙集理論基于給定訓練資料内部的等價類的建立。形成等價類的所有資料樣本是不加區分的,即對于描述資料的屬性,這些樣本是等價的。給定現實世界資料,通常有些類不能被可用的屬性區分。粗糙集就是用來近似或粗略地定義這種類。

10、模糊集

模糊集理論将模糊邏輯引入資料挖掘分類系統,允許定義“模糊”域值或邊界。模糊邏輯使用0.0和1.0之間的真值表示一個特定的值是一個給定成員的程度,而不是用類或集合的精确截斷。模糊邏輯提供了在高抽象層處理的便利。

11、回歸分析

回歸分析分為線性回歸、多元回歸和非線性同歸。線上性回歸中,資料用直線模組化,多元回歸是線性回歸的擴充,涉及多個預測變量。非線性回歸是在基本線性模型上添加多項式項形成非線性同門模型。

12、差别分析

差别分析的目的是試圖發現資料中的異常情況,如噪音資料,欺詐資料等異常資料,進而獲得有用資訊。

13、概念描述

概念描述就是對某類對象的内涵進行描述,并概括這類對象的有關特征。概念描述分為特征性描述和差別性描述,前者描述某類對象的共同特征,後者描述不同類對象之間的差別,生成一個類的特征性描述隻涉及該類對象中所有對象的共性。

三、結束語

由于人們急切需要将存在于資料庫和其他資訊庫中的資料轉化為有用的知識,因而資料挖掘被認為是一門新興的、非常重要的、具有廣闊應用前景和富有挑戰性的研究領域,并應起了衆多學科(如資料庫、人工智能、統計學、資料倉庫、線上分析處理、專家系統、資料可視化、機器學習、資訊檢索、神經網絡、模式識别、高性能計算機等)研究者的廣泛注意。作為一門新興的學科,資料挖掘是由上述學科互相交叉、互相融合而形成的。随着資料挖掘的進一步發展,它必然會帶給使用者更大的利益。