天天看點

關聯分析

關聯分析     作用: 提取出對資料中的變量之間的關系的最佳解釋    基本概念:

    1、事務:每一條交易稱為一個事務,例如示例1中的資料集就包含四個事務。

  2、項:交易的每一個物品稱為一個項,例如Cola、Egg等。

  3、項集:包含零個或多個項的集合叫做項集,例如{Cola, Egg, Ham}。

  4、k−項集:包含k個項的項集叫做k-項集,例如{Cola}叫做1-項集,{Cola, Egg}叫做2-項集。

  5、支援度計數:一個項集出現在幾個事務當中,它的支援度計數就是幾。例如{Diaper, Beer}出現在事務 002、003和004中,是以它的支援度計數是3。

  6、支援度:支援度計數除于總的事務數。例如上例中總的事務數為4,{Diaper, Beer}的支援度計數為3,是以它的支援度是3÷4=75%,說明有75%的人同時買了Diaper和Beer。

  7、頻繁項集:支援度大于或等于某個門檻值的項集就叫做頻繁項集。例如門檻值設為50%時,因為{Diaper, Beer}的支援度是75%,是以它是頻繁項集。

  8、前件和後件:對于規則{Diaper}→{Beer},{Diaper}叫做前件,{Beer}叫做後件。

  9、置信度:對于規則{Diaper}→{Beer},{Diaper, Beer}的支援度計數除于{Diaper}的支援度計數,為這個規則的置信度。例如規則{Diaper}→{Beer}的置信度為3÷3=100%。說明買了Diaper的人100%也買了Beer。

  10、強關聯規則:大于或等于最小支援度門檻值和最小置信度門檻值的規則叫做強關聯規則。關聯分析的最終目标就是要找出強關聯規則。

    11、頻繁K項集:滿足最小支援度門檻值的K項集合。

 12、候選K項集:通過連接配接形成的K項集合。

例子:

交易号碼  商品

0 豆奶,莴苣

1 莴苣,尿布,葡萄酒,甜菜

2 豆奶,尿布,葡萄酒,橙汁

3 莴苣,豆奶,尿布,葡萄酒

4 莴苣,豆奶,尿布,橙汁

一個項集的 支援度 被定義資料集中包含該項集的記錄所占的比例。

如上圖中,{豆奶}的支援度為4/5,{豆奶,尿布}的支援度為3/5。

支援度是針對項集來說的,是以可以定義一個最小支援度,而隻保留滿足最小值尺度的項集。 可信度或置信度(confidence)是針對關聯規則來定義的。

規則{尿布}➞{啤酒}的可信度被定義為"支援度({尿布,啤酒})/支援度({尿布})",

由于{尿布,啤酒}的支援度為3/5,尿布的支援度為4/5,是以"尿布➞啤酒"的可信度為3/4。

這意味着對于包含"尿布"的所有記錄,我們的規則對其中75%的記錄都适用。

1)Apriori算法

Apriori原理是說如果某個項集是頻繁的,那麼它的所有子集也是頻繁的。更常用的是它的逆否命題,即如果一個項集是非頻繁的,那麼它的所有超集也是非頻繁的。 步驟:

    1.先計算1項集的支援度,篩選出頻繁1項集。

 2.然後排列組合出2項集,計算出2項集的支援度,篩選出頻繁2項集。

 3.然後通過連接配接和剪枝計算出3項集,計算出3項集的支援度,篩選出頻繁3項集。

 4.然後依次類推處理K項集,直到沒有頻繁集出現(具體例子參考首圖)。 優點:

     使用先驗性質,大大提高了頻繁項集逐層産生的效率;簡單易了解;資料集要求低

缺點:

     1、候選頻繁K項集數量巨大。

  2、在驗證候選頻繁K項集的時候,需要對整個資料庫進行掃描,非常耗時。 

2)FP-growth算法

參考:http://blog.csdn.net/huagong_adu/article/details/17739247 思想和算法步驟:周遊資料集中每個元素,獲得每個元素出現的次數,然後根據元素出現的頻率,去掉不滿足最小支援度的元素項。獲得過濾後的頻繁項集,然後開始建構FP樹。

      建構BP樹的過程就是向樹中添加頻繁項集的過程,這就需要第二次周遊資料集,周遊資料集中元素時,這是隻考慮頻繁項集,對每個頻繁項根據支援度遞減的次序進行排序,然後使用排序後的頻繁項集進行對樹的填充,

   填充過程為:首先建一個空樹,當周遊第一組頻繁項集時,将所有項集填入樹中,作為樹的子節點(添的時候從上到下依次添入,比如下圖中第一步add{z,r}),

   然後,再填入下一組頻繁項集時,對每個頻繁項有:周遊樹中的每個元素,從上到下,從左到右,如果該頻繁項已存在樹的子節點中,隻需将該子節點的頻繁項數加1即可,

   如果該頻繁項不存在樹的子節點中,就将該頻繁項添加到樹中,作為新的子節點,接下來添加頻繁項組的過程跟上述一樣,直到将所有頻繁項都添加到FP樹中。

應用場景:

     優化貨架商品擺放,或優化郵寄商品目錄的内容

  交叉銷售和捆綁銷售

  異常識别等

優點:隻進行2次資料集掃描而且不使用候選集,直接壓縮資料內建一個頻繁模式樹(FP樹),最後通過這個FP樹生成頻繁項集

缺點:不适用于資料量很大情況

關聯分析

牛奶,雞蛋,面包,薯片 雞蛋,爆米花,薯片,啤酒 雞蛋,面包,薯片 牛奶,雞蛋,面包,爆米花,薯片,啤酒 牛奶,面包,啤酒 雞蛋,面包,啤酒 牛奶,面包,薯片 牛奶,雞蛋,面包,黃油,薯片 牛奶,雞蛋,黃油,薯片

關聯分析

繼續閱讀