天天看點

資料挖掘筆記(四)—定義及廣義知識

1資料挖掘分類:從資料分析角度出發,資料挖掘可以分為兩種類型:描述型資料挖掘——以簡潔概述的方式表達資料中的存在一些有意義的性質。預測型資料挖掘——通過對所提供資料集應用特定方法分析所獲得的一個或一組資料模型,并将該模型用于預測未來新資料的有關性質。

2 廣義知識的概念

(1)定義:廣義知識是指類别特征的概括性描述知識,也稱為概念描述。它反映同類事物共同性質,是對資料的概括、精煉和抽象。

廣義知識是對大量資料的歸納、概括,提煉出帶有普遍性的、概括性的描述統計知識。

(2)最簡單的描述型資料(廣義知識)挖掘就是定性歸納。定性歸納常常也稱為概念描述。這裡概念描述涉及一組(同一類别)的對象,諸如:商店常客等。

概念描述生成對資料的定性描述和對比定性描述。

定性概念描述提供了一個有關資料整體的簡潔清晰描述(概念内涵)

對比定性概念描述提供了基于多組(不同類别)資料的對比概念描述(概念外延)

3.廣義知識的發現方法

資料挖掘功能:資料泛化,是一個從相對低層概念到更高層概念且對資料庫中與任務相關的大量資料進行抽象概述的一個分析過程。

對大量資料進行有效靈活的概述方法主要有兩種:1.資料立方體2.面向屬性的規約

⑴ 資料立方方法(又稱為OLAP方法)進行資料泛化,就是在資料立方中存放着預先對部分或所有維(屬性)的聚合計算結果。

對多元資料立方的資料泛化和資料細化工作,可以通過roll up或drill down操作實作

上卷(roll-up):彙總資料  消減資料立方中的維數(維規約),或将屬性值泛化為更高層次的概念(概念分層向上攀升)

下鑽(drill-down):上卷的逆操作  由不太詳細的資料到更詳細的資料,可以通過沿維的概念分層向下或引入新的維來實作

資料立方體方法局限性:

①資料類型限制:多數商用資料立方的實作都是将維的類型限制在數值類型方面,而且将處理限制在簡單數值聚合方面。由于許多應用涉及到更加複雜資料類型的分析,此時資料立方體的方法應用有限。

②缺乏一定的标準:資料立方方法并不能解決概念描述所能解決的一些重要問題,諸如:在描述中應該使用哪些維?在泛化過程應該進行到哪個抽象層次上。這些問題均要由使用者負責提供答案的。

(2)面向屬性的規約(AOI)

基本思想:首先利用關系資料庫查詢來收集與任務相關的資料,并通過對任務相關資料集中各屬性不同值個數的檢查完成資料泛化操作。資料泛化操作是通過屬性消減或屬性泛化(又稱為概念層次提升)操作來完成的。通過合并(泛化後)相同行并累計它們相應的個數。這就自然減少了泛化後的資料集大小。所獲(泛化後)結果以圖表和規則等多種不同形式提供給使用者。

AOI方法的第一步就是首先利用資料庫查詢語言從大學資料庫中将(與本挖掘任務相關的)學生資料抽取出來;然後指定一組與挖掘任務相關的屬性集。而在另一方面,使用者或許會提供過多的屬性,這時就需要利用前面資料預處理所介紹的資料清理和維歸約方法從描述型資料挖掘中過濾掉無關或弱相關的屬性。

AOI所涉及的操作主要有兩種:

①屬性消除:它基于以下規則進行:若一個屬性(在初始資料集中)有許多不同數值,且(a)該屬性無法進行泛化操作(如:沒有定義相應的概念層次樹),或(b)它更高層次概念是用其它屬性描述的,這時該屬性就可以從資料集中消去.

②屬性泛化:它是基于以下規則進行:若一個屬性(在初始資料集中)有許多不同數值,且該屬性存在一組泛化操作,則可以選擇一個泛化操作對該屬性進行處理。

控制泛化過程的方法:

①屬性泛化門檻值控制:該技術就是對所有屬性統一設定一個泛化門檻值,或每個屬性分别設定一個門檻值;若一個屬性不同取值個數大于屬性泛化門檻值,就需要對相應屬性作進一步的屬性消減或屬性泛化操作。資料挖掘系統通常都有一個預設屬性門檻值(一般從2到8)

②泛化關系門檻值控制:若一個泛化關系中内容不相同的行數(元組數)大于泛化關系門檻值,這就需要進一步進行相關屬性的泛化工作。否則就不需要作更進一步的泛化。通常資料挖掘系統都預置這一門檻值(一般為10到30)

這兩個技術可以串行使用,即首先應用屬性門檻值控制來泛化每個屬性;然後再應用泛化關系門檻值控制來進一步減少泛化關系的(規模)大小。

4.關聯規則

定義1 關聯規則挖掘的資料集記為 D (D一般為事務資料庫),D={t1,t2,…,tk,…,tn} },其中k=1,2,…,n 。

        tk={i1,i2,…,ij,…,ip}為一個事務;tk中的元素 ij (j=1,2,…,p)稱為項目(Item)。

定義2 設I={ i1, i2,…, ij,…,im }是D中全體項目組成的集合,稱為項集。I的任何子集X( X   I )稱為D中的項目集(Itemset)。若|X|=K,則稱集合X為K項集。設 ti 和 X分别為D中的事務和項目集,如果X   ti,則稱事務 ti 包含項目集X。顯然, ti      I。

5.關聯知識反映一個事件和其他事件之間依賴或互相關聯的知識,如果兩項或多項屬性之間存在關聯,那麼其中一項的屬性值就可以依據其他屬性值進行預測。 

6.關聯規則挖掘就是從大量的資料中挖掘出有價值描述資料項之間互相聯系的有關知識。随着收集和存儲在資料庫中的資料規模越來越大,人們對從這些資料中挖掘相應的關聯知識越來越有興趣。例如:從大量的商業交易記錄中發現有價值的關聯知識就可幫助進行商品目錄的設計、交叉營銷或幫助進行其它有關的商業決策。

7.挖掘關聯知識的一個典型應用執行個體就是市場購物分析

“什麼商品組或集合顧客多半會在一次購物時同時購買”

給定: 事務資料庫, 每個事務是一系列商品(一個消費者一次購買的物品)

找到: 所有 的規則,這些規則能夠表明這些列商品和另一系列商品相關。

E.g., 購買汽車配件的人中有98%會購買汽車服務

應用:

*→ Maintenance Agreement (那些商品能夠加強日常消費?)

家用電器 →*  (那些商品應該保持高庫存?)

規則中的置信度和支援度

置信度(正确率)低 置信度(正确率)高
支援度(覆寫率)高 規則很少是正确的,但可以使用 規則多數情況下是正确的,而且可以經常使用
支援度(覆寫率)低 規則很少是正确的,一般不被使用 規則多數情況下是正确的,但很少被使用

繼續閱讀