關聯分析（Association analysis）

簡介

大量資料中隐藏的關系可以以‘關聯規則’和‘頻繁項集’的形式表示。rules：｛Diapers｝–>{Beer}說明兩者之間有很強的關系，購買Diapers的消費者通常會購買Beer。

除了應用在市場籃子資料（market basket data）中，關聯分析（association analysis）也可以應用在其他領域像bioinfomatic（分析複雜生物知識的學科）、medical diagnosis、Web mining和scientific data analysis。

在關聯分析中有兩個問題需要解決：1，從大量交易資料中發現隐藏的模式需要大量運算；2，有些模式可能隻是剛好發生，是以這些模式是虛假的。是以以下内容包括兩點：1，利用某種算法高效的挖掘這種模式；2，通過評估這些模式避免産生虛假結果。1

下面以market basket data分析為例：

關聯分析之Apriori學習筆記關聯分析（Association analysis）尋找關聯規則的兩個步驟

幾個概念：

Itemset

令 I=i1,i2,⋯,id 是所有項的集合。在association analysis中，0或更多項的集合稱為itemset,具有 k 項的itemset稱為k-itemset。
support count

包含某個特定的Itemset的交易數目。在表6.1中2-itemset｛Bread,Milk｝的support count:σ({Bread,Milk})=3(1)
rule

規則，不難了解， X→Y(X∩Y=∅) ，箭頭左邊稱為先決條件（antecedent），箭頭右邊稱為結果（consequent）
support

某一項集或規則發生次數占總交易次數的百分比。 s(X→Y)=s({X,Y})=σ(X∪Y)N(2)

例如：項集{Bread,Milk}的support為 35
confidence

X發生時Y發生的機率，也即條件機率。

Confidence,c(X→Y)=σ(X∪Y)σ(X)(3)

尋找關聯規則的兩個步驟

給定一個交易集合 T ，尋找所有的滿足support≥minsup，并且confidence ≥ minconf的規則，minsup和minconf是相應的support和confidence的門檻值。

一種尋找關聯規則的方法是計算每一條可能規則的support和confidence，也就是我們說的蠻力法。這種方法需要大量的運算，因為規則的個數是呈指數增長的。一個包含 d 個項的資料集可以提取出的規則的數目是

R=3d−2d+1+1(自己證明？)

既然我們不想使用蠻力法，那麼應該使用什麼方法來尋找關聯規則呢？從上式(1)可以看出規則 X→Y 的support僅僅依賴于相應的項集 X∪Y 的support。例如，下面的規則的support完全相同，因為他們有相同的項集{Beer,Diapers,Milk}:

{Beer,Diapers} → {Milk}，{Beer,Milk} → {Diapers}，{Diapers,Milk} → {Beer}，{Beer} → {Diapers,Milk}，{Milk} → {Beer,Diapers}，{Diapers} → {Beer,Milk}

如果項集{Beer,Diapers,Milk}不是頻繁的，那麼可以直接裁剪掉以上所有6個候選規則。

是以，許多關聯規則挖掘算法将這個問題分解成兩個主要子任務：

- 産生頻繁項集：尋找所有達到support門檻值的項集。

- 産生規則：從頻繁項集中提取具有高置信度的規則，這些規則稱為強規則。2

産生頻繁項集

Apriori原理

我們可以使用枚舉法列舉出所有可能的k-itemset，然後計算每個項集的support。一個具有 m 項的資料集可以産生2m−1個項集，而其中滿足support門檻值的項集可能很少。顯然，當資料集很大時，枚舉法并不是個高效的方法。從下圖可以看出，有4個項的資料集，共有15個項集。

關聯分析之Apriori學習筆記關聯分析（Association analysis）尋找關聯規則的兩個步驟

為了提高尋找頻繁項集的效率，我們應該把那些不可能滿足support門檻值的項集裁剪掉。

Apriori原理：如果一個項集是頻繁的，那麼它的子項集也一定是頻繁的

反過來說，如果一個項集不是頻繁的，那麼它的父項集也一定不是頻繁的。下圖加了陰影的項集被裁剪掉。

關聯分析之Apriori學習筆記關聯分析（Association analysis）尋找關聯規則的兩個步驟

來自機器學習實戰

根據以上原理，我們可以從上往下尋找頻繁項集。也就是，首先尋找頻繁項集：1-itemset，然後再由1-itemset組合成2-itemset…..（其實上圖的例子并沒有減少需要計算support的項集個數（這個是不是程式需要改進？？怎麼隻有1-itemset是infrequent的時候才能減少需要計算的項集數），如果 3 是infrequent的，那麼以下包含3的項集可以全部忽略）

僞代碼

1. 計算得到頻繁項集1-itemset的集合: Ii，i=1

2. k=2

當 k le 項的個數 N 時：

Ik=generateIk(D,Ii) …從I_i中産生頻繁項集的集合 Ii+1

i=k,k++

其中，generateIk函數是從k-itemset産生(k+1)-itemset

這個函數包含兩個過程：連接配接和篩選。

- 連接配接

當确定了一個頻繁項集k-itemset的全部集合後，它需要和自身連接配接，生成k+1-itemset。所謂連接配接，就是兩個不同的頻繁項集k-itemset，當它們的前（k-1）項都相同時，就進行合并。

- 篩選

從上面的定理我們得知，當子項不是頻繁項集時，父項也一定不是頻繁項集。但當子項都是頻繁項集時，其父項卻不一定是頻繁項集。是以，在連接配接得到(k+1)-itemset後，還需要計算它的support，如果不滿足support的門檻值，那麼就删去。

python程式

下面的程式和機器學習實戰中的程式思想基本相同，但我個人感覺書中的程式有些難以了解，是以自己寫了一個。感謝機器學習實戰作者

'''産生頻繁項集'''
def genFreqItemset(dataSet,minSupp=):
    '''
    input:
            dataSet:training data,type:list
    output:
            freqSet:a list of all the k-itemset.each element is frozenset
            support:a dict,the support of frequent itemset
    '''
    unique_value={}
    I1=[]
    support={}
    freqSet=[]
    m=len(dataSet)
    for tran in dataSet:
        for item in tran:
            if item not in unique_value.keys():
                unique_value[item]=
            unique_value[item]+=

    for item in unique_value.keys():
        supp=float(unique_value[item])/m
        if supp>=minSupp:
            I1.append(frozenset([item]))  #frozeset can serve as a key to dictionary
            support[frozenset([item])]=supp #only record the support of frequent itemset
    I1.sort();
    freqSet.append(I1)
    k=
    Lk=[]
    while k<=m:
        Lk=generateLk(freqSet[k-],k)
        Lk,LkSupp=filterLk(dataSet,Lk,minSupp)
        freqSet.append(Lk)
        support.update(LkSupp)
        k+=
    return freqSet,support

def generateLk(freq,k):
    '''
    input:

            freq:  the itemset in freq is k-1 itemset
               k:  create k-itemset from k-1_itemset
    output:
            Lk:a list of k-itemset,frequent and infrequent
    '''
    Lk=[]
    for i in range(,len(freq)-):
        for j in range(i+,len(freq)):
            if list(freq[i])[:k-]==list(freq[j])[:k-]:#fore k-1 item is identity
                Lk.append(frozenset(freq[i]|freq[j]))
    return Lk

def filterLk(dataSet,Lk,minSupp=):
    '''
    input:  
            Lk: all the k-itemset that need to be pruned
    output:
            filteredLk: frequent k-itemset which satisfy the minimum support
                LkSupp: the support of frequent k-itemset
    '''
    LkSupp={}
    filteredLk=[]
    for itemset in Lk:
        supp=calcSupport(dataSet,itemset)
        if supp>=minSupp:
            LkSupp[frozenset(itemset)]=supp
            filteredLk.append(frozenset(itemset))
    return filteredLk,LkSupp

def calcSupport(dataSet,Lk):
    '''
        calculate the support of Lk,
        Lk is a frozenset
    '''
   # Lk=list(Lk)[0]
    dataSet=map(set,dataSet)
    m=len(dataSet)
    num=
    for tran in dataSet:
        if Lk.issubset(tran):
            num+=
    return float(num)/m

測試

>>> dataSet
[[1, 3, 4], [2, 3, 5], [1, 2, 3, 5], [2, 5]]
>>> Lk,support=apriori_f.genFreqItemset(dataSet,)
>>> Lk[]
[frozenset([]), frozenset([]), frozenset([]), frozenset([])]
>>> Lk[]
[frozenset([, ]), frozenset([, ]), frozenset([, ]), frozenset([, ])]
>>> Lk[]
[frozenset([, , ])]
>>> Lk[]
[]
>>> support
{frozenset([]): , frozenset([]): , frozenset([, , ]): , frozenset([, ]): , frozenset([, ]): , frozenset([, ]): , frozenset([]): , frozenset([, ]): , frozenset([]): }

從頻繁項集中提取強規則

修剪

從頻繁項集中提取規則保證了這些規則的support一定滿足minsupport，接下來就是置信度的計算。同樣，我們可以使用蠻力列舉所有可能的規則，并計算其置信度，但這樣我們會做許多無用功。一個包含 n 項的頻繁項集，可能産生的規則數是2n−1（自己證明）。

為了提高效率，我們采用同前面Apriori算法類似的裁剪方法：

如果 X→Y−X 不滿足最小置信度，那麼 X′→Y−X′(X′⊆X) 也一定不滿足最小置信度。

證明： c(X→Y−X)=support(Y)support(X)<minConfidence

c(X′→Y−X′)=support(Y)support(X′) ，其中， support(X′)≥support(X) ，是以有 c(X′→Y−X′)<minConfidence

如下圖：

關聯分析之Apriori學習筆記關聯分析（Association analysis）尋找關聯規則的兩個步驟

圖中添加陰影的規則全部被裁剪掉。

python程式

def getBigRule(freq,support,minConf=):
    '''
    input:  
            freq   : the frequent k-itemset,k=1,2,...n
            support:  corresponding support  
    outpur:
            bigRuleList: a list of all the rule that satisfy min confidence
    '''
    bigRuleList=[]
    m=len(freq)
    for i in range(,m):
        genRules(freq[i],support,bigRuleList,minConf)
    return bigRuleList

def genRules(freq,support,brl,minConf=):
    '''
    extract rules that satisfy min confidence from a list of k-itemset(k>1)
    put the eligible rules in the brl
    '''
    if len(freq)==:return
    if len(freq[])==: #handle 2-itemset
        for itemset in freq:
            for conseq in itemset:
                conseq=frozenset([conseq])
                conf=support[itemset]/support[itemset-conseq]
                if conf>=minConf:
                    print itemset-conseq, '-->',conseq,'conf:',conf
                    brl.append((itemset-conseq,conseq,conf))
    elif len(freq[])>:
        H=[]
        for itemset in freq:
            # first generate 1-consequence list
            for conseq in itemset:
                conseq=frozenset([conseq])
                conf=support[itemset]/support[itemset-conseq]
                if conf>=minConf:
                    print itemset-conseq, '-->',conseq,'conf:',conf
                    brl.append((itemset-conseq,conseq,conf))
                    H.append(conseq)
            m=
            #  generate 2,...,k-1 consequence
            while m<len(freq[]):
                H=generateLk(H,m)
                for conseq in H:
                    conf=support[itemset]/support[itemset-conseq]
                    if conf>=minConf:
                        print itemset-conseq, '-->',conseq,'conf:',conf
                        brl.append((itemset-conseq,conseq,conf))
                m+=

利用以上得到的頻繁項集測試：

>>> brl=apriori_f.getBigRule(freqSet,support,0.7)
frozenset([1]) --> frozenset([3]) conf: 1.0
frozenset([5]) --> frozenset([2]) conf: 1.0
frozenset([2]) --> frozenset([5]) conf: 1.0
frozenset([3, 5]) --> frozenset([2]) conf: 1.0
frozenset([2, 3]) --> frozenset([5]) conf: 1.0
>>> brl
[(frozenset([1]), frozenset([3]), 1.0), (frozenset([5]), frozenset([2]), 1.0), (frozenset([2]), frozenset([5]), 1.0), (frozenset([3, 5]), frozenset([2]), 1.0), (frozenset([2, 3]), frozenset([5]), 1.0)]

參考資料：

[1] 機器學習實戰

[2] 使用Apriori算法和FP-growth算法進行關聯分析

Introduction to data mining Ch6 ↩
Introduction to data mining Ch6 ↩

關聯分析之Apriori學習筆記關聯分析（Association analysis）尋找關聯規則的兩個步驟

關聯分析（Association analysis）

簡介

幾個概念：

尋找關聯規則的兩個步驟

産生頻繁項集

Apriori原理

python程式

從頻繁項集中提取強規則

修剪

python程式

繼續閱讀

公司名稱的重要性不言而喻。在數字化快速發展的時代，越來越多的創業者和企業家們在各種平台上展示他們的商業理念和産品。在這個

【機器學習】Apriori（關聯分析算法）經典代碼了解與學習筆記(Python)

深度學習在自動駕駛技術中取得了重大突破。機器學習是一種通過算法和模型讓計算機從資料中提取模式和規律的方法。它的目标是讓機

高斯混合模型EM算法

#精益智能——學習智能工廠建設方案#高度自動化的柔性生産工廠中的房間05智能倉儲物流配送系統——MES系統MES系統可提供制造數

指數權重移動平均1 指數權重移動平均2 TensorFlow中滑動平均模型 3 偏差修正

決策樹算法ID3、C4.5、CART初探1 ID3算法中的特征選擇2 C4.5算法中的特征選擇3 CART算法中的特征選擇

Python 實作決策樹 ID3 C4.5 悲觀剪枝

從EM算法到高斯混合模型（GMM）與K-means算法（理論分析+仿真分析）

Word Embedding資料整理

最小生成樹算法(Kruskal) C++實作

熵資訊熵條件熵相對熵 (Relative entropy)，也稱KL散度 (Kullback–Leibler divergence)交叉熵總結

機器學習/深度學習筆試面試——Logistics 回歸篇

機器學習---線性回歸算法梳理任務1 - 線性回歸算法梳理

機器學習算法優缺點

Pycharm 搭建pyspark開發環境