寫在開頭的話,這是筆者在上資料挖掘課的時候分析的書中的案例,格式是按照小論文的寫法寫的,是以章節分的很詳細。
通過實驗了解淘寶(電商)的業務營運模式、營運資料特征。通過此次試驗,了解資料分析的思路、過程;掌握RFM模型、營銷中“最佳聯系人”和“重購買家的特征”的分析方法;掌握SPSS Statisitcs和SPSS Modeler的應用。本實驗通過對淘寶護膚品及彩妝類賣家張三的顧客表和交易表進行分析,基于SPSS Modeler軟體,對重購買家的特征進行深入的分析,挖掘單次購買與重複購買兩類客戶的特征,以此為新增客戶的重複購買預測提供依據并及時制定對自己有利的營銷方案。通過本次實驗所做的分析,結合客戶營銷的五大原則,給案例中的淘寶店主張三提供一些有用的建議。
第1章 引言
1.1 資料分析的背景
張三,護膚品及彩妝類賣家,幾經打拼,信用積累到皇冠,但也累得半死,每日深陷護膚品行業的紅海鏖戰之中。感覺現在淘寶上的競争越來越激烈,爆款可以帶來銷量,卻帶不來多少利潤。促銷、聚劃算之類的活動做來做去,最後卻發現錢都被開平台的馬老闆給掙走了。
焦慮中的張三迫切想得到自家店鋪和在本店鋪無重購行為的買家相比,在店鋪中有重購行為的買家具有怎樣的特征?
在店鋪中存在重購行為的買家具有怎樣的特征?這一個分析需求如果從統計模組化的角度來講,則基本類似于對重購行為進行預測模組化,并從中尋找重購行為的影響因素。
購買店鋪中産品的買家大緻可以分為哪些類型?從營銷的角度看,實際就是一個市場細分問題,而解決市場細分的方法中比較常用的是聚類分析。
客戶營銷有五大法則:
(一)二八法則:20%的客戶創造了80%的銷售額或利潤;20%的商品産生了80%的銷售額。
(二)RFM模型:細分客戶很重要。
(三)“四四二”法則:40%的成功取決于營銷對象;40%取決于報價或産品;20%取決于營銷創意。
(四)AIDA模式:AIDA代表引起注意(Attention)、激發興趣(Interest)、刺激購買欲(Desire)和促成購買(Action)。
(五)降價促銷與打折促銷:傳統的直銷盈利方式,直接的降價促銷方式比打折的促銷方式能引起更大的網絡營銷市場反應,并帶來更多的經濟收益。
在第一部分的實驗中,通過RFM分析,幫張三找到了如果下次做促銷活動,優先考慮的會員名單。
經過RFM的中間步分析和張三的觀察,張三發現重購的使用者其購買金額遠遠大于一次購買客戶的購買金額,于是張三想弄清楚重購的客戶都有哪些特征,進而在接下來的客服工作中可以對具有這些重購特征的客戶進行重點服務。這既是本次實驗接續上一段實驗的資料分析背景。
1.2分析的目的與意義
通過實驗,要獲得這樣的資訊:買家要優先考慮對哪些會員進行促銷?――這是一個标準的從曆史客戶群中定位可能“最有價值”的客戶的分析需求,在營銷方面有很多模型或者方法可以實作,但是在擁有明确的曆史交易資料表的情況下,最簡單易懂而且實用的方法非RFM模型莫屬。在本店存在重購行為的買家具有怎樣的特征?這一個分析需求如果從統計模組化的角度來講,則基本類似于對重購行為進行預測模組化,并從中尋找重購行為的影響因素。購買本店鋪産品的買家大緻可以分為哪些類型?從營銷的角度看,實際就是一個市場細分問題,而解決市場細分的方法中比較常用的是聚類分析。
本次實驗的目的就是用資料挖掘的分析方法,幫助張三解決這個問題。
第2章資料稽核與資料預處理
2.1 原始資料表說明
本次實驗中一共用到兩個資料檔案,分别是交易表和買家表。在SPSSmodeler裡面的源選項裡面,添加兩個statistics檔案,分别賦予兩個檔案兩個表的路徑,并用表的形式輸出資料源以供檢視。如下面幾張圖檔所示,并且,用本人學号後5位20414作為字首。

圖2-1兩個資料源
圖2-2交易表的内容
圖2-3買家表的内容
在上面的兩張圖中可以看到,在交易表中,共有7個字段,17517條記錄。7個字段分别是basket_id, buyer_id, goods_id, pur_time,price, shipcost, cases,點選顯示字段和值标簽按鈕後可以看到,這7個字段分别代表着買單号、買家ID、商品ID、購買時間、總價、運費、商品數這七個含義。而在買家表中,共有6個字段,14635條記錄。6個字段分别是buyer_id, buy_gender, buy_age, buy_prov, buy_city, buy_cred, 點選顯示字段和值标簽按鈕後可以看到,這6個字段分别代表着買家ID、買家性别、買家年齡、買家省份、買家城市、買家信用這七個不同的含義。
這兩個表中,有一個共同的字段——buyer_ID,即買家ID。
2.2 資料分布與資料稽核
對兩個表輸出資料稽核,可以很直覺的看到資料稽核的結果。如圖2-4和2-5所示。
圖2-4交易表的資料稽核
圖2-5買家表的資料稽核
從上面的兩張圖中可以看到,交易表的資料稽核顯示出最早的一次購買時間為2011-03-01,最後一次購買時間為2011-05-31。商品價格最低為3,最高為3933,平均值142.930,标準差129.815,偏度5.047。運費最低為0,最高為10.602,平均0.153,标準差0.966,偏度7.804。一次購買數量最少1件,最多30件。而且7個字段的17517條記錄都是有效記錄。
從買家表的資料稽核結果中可以看到,買家性别有16%的1号代表的性别和44%的2号代表的性别,但是有40%的買家并沒有提供自己的性别。買家的年齡最小的為11歲,最大的為79歲,平均年齡28歲。買家的省份共有50個。買家信用有14個級别。但是,在買家表中,并不是每個字段都有14635個有效記錄,可以說,除了買家ID以外,剩下的6個字段都各自有不同程度的資料缺失。
接下來,對資料分布進行觀察。在實驗報告中,僅對部分字段的資料分布進行展示。如圖2-6、2-7、2-8、2-9所示。
圖2-6一次購買商品數cases的資料分布
在這個資料分布中可以看到,一次購買一件商品的比例達到95.93%,一次購買兩件商品的比例為3.31%。
圖2-7買家表中性别的資料分布
在這個資料分布中可以看到,1代表的性别占比16.2%,2代表的性别占比44.33%,沒有性别資訊的占比39.47%。
圖2-8買家表買家省份的資料分布
圖2-9買家表中買家信用資料分布
2.3 資料預處理
在對買家表的資料稽核進行觀察時發現存在三個問題,(1)存在缺失資料和噪聲資料。(2)“買家信用”目前的編碼為字元串,無法表達出有序類型變量,是以需要進行變量值的重新編碼。(3)“省份”變量值差距懸殊,低頻省份可合并為其它。是以需要對買家表進行資料預處理,以便于進行下一步的工作。在圖2-10中能看出買家年齡的離群值和極值,并可對它們進行處理,減少它們對資料分析的負面影響。
圖2-10買家表中年齡字段的資料噪聲
對于離群值,可以采取一些措施,減少它對資料分析的影響。比如可以直接丢棄。如圖2-11所示。
圖2-11丢棄離群值
對交易表做排序和彙總操作。如圖2-12、2-13所示。
圖2-12對交易表按照buyer_id進行排序操作及輸出表
圖2-13對交易表中每個buyer_id彙總購買金額
接下來,對“買家信用”作類型變換操作,作此處理的原因是買家信用在原始資料中是字元型資料,并不是可以直接用來做資料分析的數字。是以要把它們轉換成具體的數字代表。
在買家表字段選項裡面選擇類型,讀取值,未能讀取的值在流屬性裡面取消“名義字段的最大成員數”的勾選就可以讀取了。如圖2-14所示。
圖2-14買家表類型讀取值
然後,根據賣家信用的資訊,建立新的字段buy_cred2,并輸入新值。在輸入新值時,1-5星使用者信用分别用1.1-1.5代替,1-5鑽使用者信用分别用2.1-2.5代替,1-5皇冠使用者信用分别用3.1-3.5代替,無信用的,0信用的,信用等級<=3的全部用0來代替。在做此操作之後,就可以得到變換後的使用者信用字段。分别如圖2-15和2-16所示。
圖2-15建立新的字段并輸入新值
圖2-16變化後的使用者信用等級。
接下來,要解決“省份”變量值差距懸殊這個問題。通過操作,将省份統計<=30的合并為“其他地區”并将0、缺失及未知的,統一為“未知”。要進行這個操作,首先,要對省份這個字段進行排序-彙總-排序的操作,等到需要進行處理的省份的名字。如圖2-17所示。
圖2-17找出低頻省份
在找出低頻省份之後,就要把低頻省份合并到一起,合并為其他地區。并将0,缺失,未知的合并為未知。在字段選項裡面選擇重新分類并命名為低頻省份分類,在裡面讀取buy_prov字段重新分類為buy_prov2字段。如圖2-18所示。輸出結果如圖2-19所示。圖2-20是合并低頻省份後的資料稽核。
圖2-18重新分類時給buy_prov2賦新值
圖2-19合并低頻省份後的結果
圖2-20合并低頻省份後的資料稽核
在上述的資料預處理步驟都完成之後,因為本次試驗是要根據交易表和買家表兩張表共同進行分析,是以就有必要把兩張表合并到一起成為一張表,後續的資料分析将在這一張合并後的表格上進行。将交易表和買家表進行合并操作,合并時選擇關鍵詞合并,使用兩張表共同的字段buyer_id進行合并,并在合并時過濾掉3個已經沒有意義的字段,分别是buy_prov、buy_city、buy_cred這三個字段。合并完成後,輸出一個表格進行結果顯示。這四步操作,分别如圖2-21、2-22所示。
圖2-21合并兩張表
圖2-22合并後的新表格
至此,本次試驗的資料預處理已經完成。
第3章 資料分析
3.1 總體思路
首先,考慮到是要對重購使用者的特征進行挖掘,就要先把重購使用者分類出來。然後分别使用兩個模型進行分析。之是以考慮用兩個模型分别進行分析,是為了對比兩個模型的預測結果,另一方面也可以側面觀察預測結果是不是可靠。
(一)使用C5.0模型對各個屬性對重購次數的重要性進行分析。
(二)使用自動分類器對各個屬性對重購次數的重要性進行分析。
3.2 基于Spss Modeler的資料分析過程
3.2.1 重構使用者分類
為了找到重購使用者的特征,就要把重構使用者與隻購買過一次的使用者分開,是以就要分類。首先是把購買次數字段的類型調整成名義型。因為作為目标變量,不能是連續型,隻能調整為名義型的資料,如圖3-1所示,分别是調整過程和調整過後的結果。
圖3-1調整購買次數為名義型
購買次數調整為名義以後,在字段選項裡面選擇重新分類結點,在設定時,重新分類為現有字段,除了購買次數為1的新值仍然為1以外,其餘所有的值新值改為2。調整的過程和結果如圖3-2所示。
圖3-2重新分類購買次數
3.2.2 使用C5.0模型預測變量重要性
在模組化裡面選擇C5.0結點,對前面輸出過來的資料進行分析,得出各個屬性對購買次數的影響的重要性,如圖3-3所示。運作過後出來的結果如圖3-4所示。再之後選擇輸出分析節點,如圖3-5所示。
圖3-3C5.0模型目标和輸入字段
圖3-4C5.0模型的結果
圖3-5C5.0模型的結果分析
3.2.3 使用自動分類器
在模組化裡面選擇自動分類器,用來預測其他屬性對重購次數的重要性,如圖3-6所示。輸出的模型結果如圖3-7和圖3-8所示,分别代表模型的兩種不同顯示方式。
圖3-6自動分類器
圖3-7自動分類器的模型結果
圖3-8自動分類器的模型結果之圖形形式
圖3-9自動分類器的結果分析
在自動分類器的結果之後,還可以試探性的分析各個屬性之間的關系,這次選用年齡和消費水準之間的關系,用多重散點圖來表示,如圖3-10所示。
圖3-10年齡與消費水準的多重散點圖
3.3 Spss Modeler中的完整資料流
至此,本次試驗的所有流已經完成了,下面本次試驗的完整資料流,如圖3-11所示。
圖3-11完整資料流
第4章 結論及建議
4.1 資料分析的結果
通過C5.0模型的決策樹對重構使用者進行分析,從分析結果中可以看到分類正确的有12599個,占比86.09%,正确率比較高。
而通過自動分類器進行分析,正确的有12548個,正确率85.74%,與前一個模型的正确率相差無幾。
圖4-1C5.0模型和自動分類器的結果分析
4.2 通過分析得到的結論
買家年齡和平均消費金額對是否重購有很大的影響,可以根據平均消費來預測哪些使用者會成為重構使用者。對于可能重購的使用者,平均消費金額是最重要的預測依據,根據平均消費金額來預測某個客戶是否是重購客戶是非常有效的。消費金額在(143-1005)、(1088-3320)範圍内的客戶,是重購客戶的可能性非常大。
4.3 對商家的建議
商家張三應該對預測出的可能會重購的使用者推送一些廣告和優惠活動,以便增加他們重構的可能性。另外,從年齡和消費水準的散點圖中可以看出20-40歲這個年齡段的客戶消費金額在我們預測出的可能重購客戶的範圍内,是以建議店家可以針對這個年齡段内的客戶再給于更多的優惠,也可以給他們投放更多的廣告。
資料源https://download.csdn.net/download/youxinyuchu/16072692