天天看點

關聯規則算法php,科學網—權重關聯規則權值的計算 - 葉文菁的博文

權重關聯規則挖掘(以apriori和fp-tree算法為例)的權值計算。

以下面的資料為例來進行說明,表2中的交易權重和歸一化權重隻是截圖結果,這裡的具體數值可不要考慮。

權重支援度的計算為Sup(B)=count(B)*W(B)/總數;Sup(BD)=count(BD)*W(BD)/總數。

這裡就是讨論W(BD)有幾種計算方法及其優劣。

關聯規則算法php,科學網—權重關聯規則權值的計算 - 葉文菁的博文
關聯規則算法php,科學網—權重關聯規則權值的計算 - 葉文菁的博文

根據表1和表2可以很容易計算出單個項目的支援度,如Sup(B)=5*1/6=0.83

若要計算多個項目的支援度,如Sup(BD),Sup(BDA)那麼項集BD或BDA的權值應該如何選取,即計算交易權重的方法,有以下幾種:

1、取每條交易記錄的最大值,如BDAC中權值最大的那個作為權值

2、取平均值,表2的交易權重即為該方法計算得出,這樣計算不能突出重點項目

3、歸一化值:Wi''=Wi/(W1+W2+……+Wk) ;W=(W1''+W2''+……+Wk'')/n,權值可能很小

4、

關聯規則算法php,科學網—權重關聯規則權值的計算 - 葉文菁的博文

5、該方法的權值可能大于1

關聯規則算法php,科學網—權重關聯規則權值的計算 - 葉文菁的博文

6、W(AB)=W(A)*W(B)/(W(A)+W(B))

7、若資料有兩個次元,即X,Y分别屬于不同次元,如X表示所購買的商品,Y表示購買的位置,則權值可以這樣計算:W(X)*W(Y)

若權值大于1,可以進行歸一化處理。

總之,權值的計算還有很多方法,計算時要根據自己資料的特點來標明。但是要注意關聯規則挖掘的頻繁及向下封閉的特性,即如果{AB}或{C}不頻繁,則{ABC}也不頻繁。如上述方法1、2就不可保證該特性,會造成資料的流失。這時候需要對關聯規則算法進行改進,來适應權值的需要。

轉載本文請聯系原作者擷取授權,同時請注明本文來自葉文菁科學網部落格。

連結位址:http://blog.sciencenet.cn/blog-882768-742786.html

上一篇:weka進行關聯規則挖掘Apriori篇

下一篇:帶背景word如何轉成pdf格式(2010)及提取背景圖檔