天天看點

市場購物籃分析(規則歸納/C5.0)+apriori

之前介紹了C5.0的内容,今天将描述超市購物籃内容(所購買的全部商品的集合)的虛構資料,以及購買的相關個人資料(通過忠誠卡方案獲得)。目的是尋找購買相似産品并且可按人口統計學方式(年齡,收入)刻畫其特征的客戶群。

要做這項工作,要進行兩個階段的工作:

關聯規則模組化和一個解釋所購買商品之間聯系的WEB顯示;

C5.0規則歸納(描繪已辨別産品組的購買者的特征)

Note:此應用不直接使用預測模型,是以,不對最終模型進行準确性度量,在資料挖掘過程中也不存在與之相關的訓練/檢驗兩個步驟的區分。

本例使用baskrule的流,該流引用名為BASKETS1n的資料檔案。這些檔案可在Clementine安裝檔案的Demo目錄中找到。檔案baskrule位于streams目錄下。

通路資料

使用“變量檔案”節點連接配接到資料集BASKETS1n,選擇要從該檔案讀取的字段名稱。

市場購物籃分析(規則歸納/C5.0)+apriori

将“類型”節點連接配接到資料源,然後将該節點連接配接到“表”節點。

市場購物籃分析(規則歸納/C5.0)+apriori

将字段卡ID的測量級别設定為無類型(因為每個忠誠卡ID在資料集中隻出現一次,是以對于模組化沒有用處)。選擇名義作為字段性别的測量級别(確定Apriori模組化算法不會将性别視為标志)。

連接配接一個表,顯示資料如下:

市場購物籃分析(規則歸納/C5.0)+apriori

購物籃摘要:

cardid購買此籃商品的客戶的忠誠卡辨別符。

value購物籃的總購買價格

pmethod購物籃的支付方法

卡持有者的個人詳細資訊:

sex

homeown卡持有者是否擁有住房

income

age

購物籃内容---産品類别的出現标志:

fruitveg

freshmeat

dairy

cannedveg

cannedmeat

frozenmeal

beer

wine

softdrink

fish

confectionery

發現購物籃内容的關系

首先,需要使用Apriori大緻了解購物籃内容的關系(關聯)以生成關聯規則,選擇要再此模組化過程中使用的字段,方法是:編輯“類型”節點,将所有産品類别的角色設定為兩者,并将所有其他角色設定為無。(雙向表示該字段可以是結果模型的輸入或者輸出。)

市場購物籃分析(規則歸納/C5.0)+apriori

指定了用于模組化的字段後,将Apriori節點附加到“類型”節點,編輯它,選擇選項“隻顯示值為真的标志變量”。

市場購物籃分析(規則歸納/C5.0)+apriori

然後在Apriori節點上單擊“運作”。結果(管理器視窗右上角“模型”頁籤上的模型)包含可以檢視(使用上下文菜單,然後選擇“浏覽”)的關聯規則。

市場購物籃分析(規則歸納/C5.0)+apriori

這些規則顯示凍肉,罐裝蔬菜和啤酒之間尊在多種關聯。出現雙向關聯規則。

frozenmeal->beer

beer->frozenmeal

提示:WEB顯示(隻顯示雙向關聯)可能會突出顯示此資料中的一些模式。将WEB節點附加到“類型”節點,編輯WEB節點,選擇所有購物籃内容字段,選擇“僅顯示true标志”。

市場購物籃分析(規則歸納/C5.0)+apriori

然後在WEB節點上單擊“運作”。

市場購物籃分析(規則歸納/C5.0)+apriori

因為大多數産品類别組合都會出現在多個購物籃中,是以WEB上的強連接配接太多,無法顯示模型表示的客戶群。故我們要進行限制性WEB顯示。

市場購物籃分析(規則歸納/C5.0)+apriori

要制定弱連接配接和強連接配接,請單擊工具欄上的黃色雙箭頭按鈕。這回展開顯示WEB輸出摘要和控件的對話框。

選擇“大小表示強/正常/弱”。

将弱連接配接設定為低于90。

将強連接配接設定為高于100。

在最終顯示中,會有三個客戶群突出顯示:

購買魚和果蔬的客戶,可将這類客戶成為“健康食客”

購買酒和糧果的客戶

購買啤酒、凍肉和罐裝蔬菜(“啤酒、豆類和比薩”)的客戶

描繪客戶群的特征

根據客戶購買的産品類型辨別了三個客戶群,但是還要知道這些客戶是誰,即,他們的人口統計學特征。通過為每個群中,每個客戶添加标志,并使用規則歸納(C5.0)來基于規則描繪這些标志的特征,可以實作這一點。

首先,必須擷取每個群的标志。使用剛剛建立的web顯示,可以自動生成每個群的标志,使用滑鼠右鍵,單擊fruitveg和fish之間的連結以突出顯示該連結,然後右鍵單擊并選擇“為連結生成‘派生’節點”。

市場購物籃分析(規則歸納/C5.0)+apriori

編輯最終的“派生”節點以将“派生”字段名稱更改為健康。使用從wine到confectionery的連結重複該練習,并将最終的“派生”字段命名為wine_chocs.

對于第三個群(涉及三個連結),首先要確定未選擇任何連結。然後,按住shift同時單擊滑鼠左鍵,進而選擇cannedveg、beer和frozenmeal中的全部三個連結。(一定要處于“互動”模式而不是“編輯”模式。)然後,從web顯示菜單中選擇:

生成>導出節點(“和”)

市場購物籃分析(規則歸納/C5.0)+apriori

将最終“派生”字段的名稱更改為beer_beans_pizza。

市場購物籃分析(規則歸納/C5.0)+apriori

要描繪這些客戶群的特征,要連續将現有的類型節點連接配接到這三個導出節點,然後附加另一個類型節點。在新的“類型”節點中,将除以下字段外的所有字段的角色都設定為無:value、pmethod、sex、homeown、income和age(這些字段的角色應該設定為輸入),以及相關的客戶群(例如,beer_beans_pizza,他們的角色應該設定為目标)。

市場購物籃分析(規則歸納/C5.0)+apriori

附加C5.0節點,将輸出類型設定為規則集,然後在節點上單擊“運作”。最終模型(用于beer_beans_pizza)包含此客戶群的明确人口統計學特征:

Rule 1 for T:

if sex=M

and income <=16,900

then T

市場購物籃分析(規則歸納/C5.0)+apriori

此案例結合了Apriori和C5.0完成了使用者購買行為的分析(一方面是使用者的自身行為的把握,另一方面是使用者買什麼産品,怎麼搭配讓使用者去買的把握)事實上,多數的時候我們隻完成了一方面的工作,或者把二者隔離開來分析,真正的分析不應該是隻問使用者買什麼,我們怎麼搭配銷售最好,還要精準投放,精準的分析使用者的自身素質。

從上圖發現:

工資收入高于16950的人購買三者的比例99.2%

工資低于16950的人的女士購買三者比例98.8%

等等......

通過在第二個類型節點中選擇其他客戶群标志作為輸出,可将同意方法應用到這些标志,通過在此上下文使用Apriori代替C5.0,可生成更多替代特征描繪;Apriori也用于同時描繪所有客戶群的特征,原因是,Apriori并非被限制到一個輸出字段。下圖為整個過程的資料流。

市場購物籃分析(規則歸納/C5.0)+apriori

繼續閱讀