天天看點

如何使用RFM模型和K-means聚類,實作更有效的客戶分層?

作者:人人都是産品經理
僅僅隻是從客戶消費金額來分析客戶是否流失,有時可能會成為曲解客戶的行為。那如何實作對使用者的精細化營運,達到最有效的客戶召回方式呢?本文詳細解析了使用RFM模型和K-means聚類實作更有效的客戶分層,感興趣的童鞋快來看看吧。
如何使用RFM模型和K-means聚類,實作更有效的客戶分層?

01 業務背景

不同的客戶具有不同的客戶價值,采取有效的方法對客戶進行分類,發現客戶的内在價值變化規律以及分布規律,針對不同的客戶制定差别化服務政策,能夠幫助企業投入最小的成本擷取最大的價值。

在沒有對使用者進行分類的情況下,很難實作對使用者的精細化營運。考慮到不同的套餐價格不同,而且在促銷過程中也會有不同的折扣,如果單純從客戶消費金額來分析客戶是否流失有時會曲解客戶行為。

是以在對客戶的分析過程中,需要根據客戶最近一次的購買行為以及客戶的購買頻率的變化來推測客戶的流失可能性,再通過客戶的消費金額來判斷客戶的價值情況,最終指導營運決策,把重點放在貢獻度高且流失機會也高的客戶上,重點拜訪或聯系,以達到最有效的客戶召回方式。

而RFM模型較為動态的顯示了一個客戶的全部輪廓,這對個性化的溝通和服務提供了依據。同時,如果與該客戶打交道的時間足夠長,也能夠較為精确地判斷該客戶的長期價值(甚至是終身價值),通過對RFM三項名額的監控,可以為更多的營銷決策提供支援,幫助改善經營狀況。

02 RFM模型

RFM模型是衡量客戶價值和客戶創利能力的重要工具和手段。根據美國資料庫營銷研究所Arthur Hughes的研究,最近一次消費時間間隔(Recency),消費頻率(Frequency),消費金額(Monetary),這三個要素構成了資料分析最好的名額,通過這3個名額對使用者進行分類,根據不同類别的使用者進行精準營銷。

最近一次消費時間間隔(Recency):近度,最近一次有效訂購訂單距離目前時間點的時間。

  • 理論上最近一次購買的顧客越近越是優質客戶,最近才購買商品或服務的顧客,是最有可能再次購買商品或服務的客戶,對即時提供的商品或者是服務也最有可能有反應;
  • 最近一次消費的過程是持續變動的,客戶的最近一次消費時間間隔會随着時間的變化以及客戶的購買行為變化而變化;
  • 最近一次消費時間間隔可以幫助監控業務的健康程度。比如,月報告中顯示上一次購買很近的客戶(最近一次消費為1個月)人數環比增加,則表示該業務是個穩健成長的業務。相反,如上一次購買很近的客戶(最近一次消費為1個月)人數環比降低,則表示該業務走向衰落的先兆;

消費頻率(Frequency):頻度,客戶在限定時間内訂購訂單的次數。

  • 消費頻次高的客戶,往往也是滿意度最高的客戶;
  • 根據消費頻次,可以把客戶分成不同層級,觀察使用者在不同層級的分布情況,通過營運手段提高消費頻次,增加高層級客戶占比;

消費金額(Monetary):值度,客戶在限定時間内訂購訂單的總支付金額。

  • 消費金額是衡量客戶價值的支柱名額,”帕雷托法則”——公司80%的收入來自20%的顧客,對有價值的客戶進行營銷能得到更可觀的經驗效果;

以客戶訂購訂單的Recency、Frequency、Monetary來替代客戶使用的Recency、Frequency、Monetary,主要有以下幾點原因:

  • 電信行業的客戶每天都在使用電信業務的情況下,其最近時間間隔為零,不同的客戶區分度很小,客戶訂購的時間間隔較大,以訂購近度替代使用近度,避免了客戶使用的近度難于區分的問題。
  • 如果客戶在一定時期内使用電信業務的次數數量非常大,則客戶的頻度也将是一個很大的數量,客戶訂購的次數相對較少,可以減少統計客戶使用次數的工作量。
  • 客戶訂購支付金額跟客戶實際使用消費金額最終是相等的,是以,從訂購交費角度建構的RFM模型是可取的。

是以需要從客戶交費角度來考慮對客戶進行RFM模型模組化,以RFM模型為基礎,通過客戶的RFM行為特征衡量分析客戶忠誠度與客戶内在價值。

從公司所有的客戶記錄中選擇近2年内還有消費訂購記錄的客戶進行分析。把這3個名額(R、F、M)按價值從低到高排序,并把這3個名額作為XYZ坐标軸,大于(等于)總RFM平均值的為價值高坐标、小于總RFM平均值的為價值低坐标。可以劃分為8個類别,RFM客戶價值空間分類規則如下圖:

如何使用RFM模型和K-means聚類,實作更有效的客戶分層?

圖1 RFM模型客戶價值空間分類規則圖

03 AHP計算RFM權重

雖然可以按照RFM模型把客戶進行分類,但是這種分類隻是确定了客戶的聚類,卻沒有把各類客戶之間進行一個量化的價值比較,無法對各種類别的客戶群體進行權重的排名,因而對各類客戶的RFM各個名額權重進行定義非常必要,需要結合各類名額的權重給各類客戶進行綜合價值的評分。

The analytic hierarchy process 簡稱AHP,也稱為層次分析法,是在20世紀70年代中期由美國運籌學家托馬斯·塞蒂(T.L.saaty)正式提出。它是一種定性和定量相結合的、系統化、階層化的分析方法,它的基本思路與人對一個複雜的決策問題的思維、判斷過程大體上是一樣的。

3.1、構造對比矩陣

設共有 n 個元素(RFM模型中n等于3)參與比較,則 稱為成對比較矩陣,其中在比較第 i 個元素與第 j 個元素相對上一層使用者價值的重要性時,使用數量化的相對權重 來描述。

  • 成對比較矩陣中 的取值可按下述标度進行指派。 在 1-9 及其倒數中間取值。其中取值含義如下:
  • = 1,元素 i 與元素 j 對上一層次因素的重要性相同;
  • = 3,元素 i 比元素 j 略重要;
  • = 5,元素 i 比元素 j 重要;
  • = 7, 元素 i 比元素 j 重要得多;
  • = 9,元素 i 比元素 j 的極其重要;
  • = 2n,n=1,2,3,4,元素 i 與 j 的重要性介于 與 之間;
  • ,n=1,2,…,9, 當且僅當 = n ,其中 ,當 i = j 時, = 1。

針對RFM模型,建立 的成對比較矩陣,其中矩陣中的 參數根據實際業務場景進行指派。比如建立R、F、M的成對比較法,得到的比較矩陣如: ,其中 表示F(消費頻率)比R(最近一次訂購時間間隔)的重要性之比為3,即目前業務下決策認為F(消費頻率)比R(最近一次訂購時間間隔)略重要。

3.2、一緻性檢驗

從理論上來說,完全一緻的成對比矩陣的權向量是精确度是最高的。其中矩陣A如果是完全一緻的成對比較矩陣,那麼 ,其中1<=i,j,k<=n。但實際上根據業務情況構造成對比較矩陣時要求滿足完全一緻的成對比矩陣是不可能的,是以退而要求成對比較矩陣有一定的一緻性,即可以允許成對比較矩陣存在一定程度的不一緻性。

由分析可知,對完全一緻的成對比較矩陣,其絕對值最大的特征值等于該矩陣的維數。對成對比較矩陣的一緻性要求,應該滿足矩陣A絕對值最大的特征值和該矩陣的維數相差不大,矩陣的随機一緻性比率不得大于0.1。其中校驗成對比較矩陣A一緻性的步驟如下:

計算衡量一個成對比較矩陣 A (n>1 階方陣)不一緻程度的名額

,其中 為矩陣A的絕對值最大特征值。

從有關資料查出檢驗成對比較矩陣 A 一緻性的标準RI,其中RI稱為平均随機一緻性名額,它隻與矩陣階數 n 有關。

RI的計算方式為:對于固定的n,随機構造成對比較陣A,其中 是從1,2,…,9,1/2,1/3,…,1/9中随機抽取的, 這樣的A是不一緻的, 取充分大的子樣得到A的最大特征值的平均值。

計算成對比矩陣A的随機一緻性比率

時,判定成對比較陣 A 具有滿意的一緻性,其不一緻程度是可以接受的。否則就調整成對比較矩陣 A,直到達到滿意的一緻性為止。

3.3、RFM矩陣權重

成對比矩陣A的一緻性檢驗滿足要求後( CR <1 ),可以通過矩陣A的最大特征值對應的特征向量來算出R(近度)、F(頻度)、M(值度)各個名額變量對應的權重。

矩陣A對應最大特征值的特征向量數學計算公式:

。 矩陣A對應最大特征值數學計算公式:

  • 可以用Matlab語句求矩陣A的最大特征值對應的特征向量:
  • A的特征值以及特征向量,可以通過[ X , Y ]=eig(A),其中Y為成對比較陣的特征值,X的列為相應的特征向量;
  • 最大的特征值,可以通過eigenvalue=diag(Y) 以及 lamda=eigenvalue(1)進行計算,其中lamda表示最大的特征值;
  • 可以通過y_lamda = x(:, 1) 進行計算最大特征值對應的特征向量。

實際在使用過程中,需要把矩陣最大特征值對應的特征向量轉換成權向量,使得它的各分量都大于零,各分量之和等于 1,這樣才能滿足對RFM模型中各個名額變量的權重設定,各名額變量的相對重要性由權向量的各分量所确定,權向量的各分量對應的值就是出R(近度)、F(頻度)、M(值度)的計算權重。

權向量等于自身向量各分量除以自身向量的和,

,其中

。 比如特征向量U= [ 2, 3, 5 ],

04 K-均值聚類法對客戶分類

與RFM名額對客戶分類不同,分類是示例式學習,要求分類前明确各個類别,并斷言每個元素映射到一個類别,這種對客戶的分類方式并不能滿足“每個分類内部的元素之間相異度盡可能低,而不同分類的元素相異度盡可能高”的客戶分類要求,反而會出現相同分類中的内部元素之間的相異度高,不同分類中的内部元素之間相異度反而低的情況發生。

聚類是觀察式學習,在聚類前可以不知道類别甚至不給定類别數量,是無監督學習的一種。k均值(k-means)算法是一種疊代求解的聚類分析算法,所謂聚類問題,就是給定一個元素集合D,其中每個元素具有n個可觀察屬性,使用某種算法将D劃分成k個子集,要求每個子集内部的元素之間相異度盡可能低,而不同子集的元素相異度盡可能高,其中每個子集叫做一個簇。

4.1、相異度計算

用通俗的話說,相異度就是兩個東西差别有多大。

在數學上對相異度的定義指的是:設

,其中X,Y是兩個元素項,各自具有n個可度量特征屬性,那麼X和Y的相異度定義為:

,其中R為實數域,也就是說相異度是兩個元素對實數域的一個映射,所映射的實數定量表示兩個元素的相異度。

在計算不同元素的相異度上我們采用歐幾裡得距離來作為相異度,其意義就是兩個元素在歐氏空間中的集合距離,因為其直覺易懂且可解釋性強,被廣泛用于辨別兩個标量元素的相異度。

歐幾裡得距離的定義如下:

在真實應用中,經常會出現元素項的取值問題,取值範圍大的屬性對距離的影響高于取值範圍小的屬性,比如在RFM模型的屬性中,M的取值往往要遠大于F的取值,這樣不利于真實反映真實的相異度,為了解決這個問題,一般要對屬性值進行規格化。

規格化的意思就是将各個屬性值按比例映射到相同的取值區間(通常将各個屬性均映射到[0,1]區間),這樣是為了平衡各個屬性對距離的影響。

映射公式為:

表示所有元素項中i個屬性的最大值和最小值,x是集合中的一個屬性名額。

4.2、k-means聚類算法

把近兩年内還有訂購記錄的客戶設定為一個元素集合D,其中每個元素有3個具有可觀察的屬性:R(近度)、F(頻度)、M(值度)。

元素集合D按照K-means聚類算法把他分為8個聚類子集:

把集合D中每一個元素(客戶)的RFM屬性進行規格化,

是基于 按照映射公式把各個屬性均映射到[0,1]區間的結果; 對集合 的各個屬性進行權重處理,權重屬性權重AHP法确定的權向量 中對應的權重,權重後的集合

; 從集合 中随機選取K個元素(k = 125),作為作為k個簇的各自的中心; 分别計算剩下的元素到k個簇中心的相異度(按照歐幾裡得距離度量),将這些元素分别劃歸到相異度最低的簇; 根據聚類結果,重新計算k個簇各自的中心,計算方法是取簇中所有元素各自次元的算術平均數; 将集合 中全部元素按照新的中心重新聚類; 重複第4步,直到聚類結果跟最近一次的聚類結果一緻,不再變化; 輸出最終的聚類結果;

4.3、劃分客戶類别

不同的層級聚合揭示不同層級的客戶在行為上的特性以及變化傾向,劃分客戶類别方法如:

計算K均值聚類中每類客戶的RFM平均值:

  • ,其中1<= i <=n,n指的是每類中的客戶(裝置)數, 指的是對應類别中每台裝置的R之和,R的計量機關為天;
  • ,其中1<= i <=n,n指的是每類中的客戶(裝置)數, 指的是對應類别中每台裝置的F之和,F的計量機關為次;
  • ,其中1<= i <=n,n指的是每類中的客戶(裝置)數, 指的是對應類别中每台裝置的M之和,M的計量機關為USD;

将每類客戶的RFM平均值和總RFM平均值作比較:

  • 将K均值聚類的125類客戶的RFM平均值同總RFM均值進行比較。
  • K均值聚類類别客戶的均值大于(等于)總均值,則給該名額對應坐标為“價值高”坐标;
  • K均值聚類類别客戶的均值小于總均值,則給該名額對應坐标為“價值低”坐标;

劃分RFM客戶價值分類:

  • 根據RFM空間坐标模型,比對對應R、F、M三個名額的坐标,把K均值聚類的125個類别客戶劃分為8個類别:重要價值客戶、重要發展客戶、重要保持客戶、重要挽留客戶、一般價值客戶、一般發展客戶、一般保持客戶、一般挽留客戶。

05 客戶價值排序

5.1、RFM名額分類客戶價值

輸出每一類客戶的評分集合 ,其中1<= i <=125,R,F,M分别代表R(近度)、F(頻度)、M(值度)的等級評分。對評分集合 的RFM屬性進行規格化,規格化 ,其中

按照映射公式把各個屬性均映射到[0,1]區間的結果。

RFM名額評分分類劃分的5*5*5 = 125類客戶進行價值排序:

假如計算出RFM矩陣權重的權向量

,那每一類客戶的綜合總得分等于:規格化 的各名額值的 權重平均值,每類客戶的總得分為

。通過總得分的大小可以對5*5*5 = 125類客戶進行優先級排序,指導營運支撐決策。

RFM名額分類劃分成的8類客戶(重要價值客戶、重要發展客戶、重要保持客戶、重要挽留客戶、一般價值客戶、一般發展客戶、一般保持客戶、一般挽留客戶)進行價值排序:

計算分類(RFM空間坐标劃分的8類客戶)客戶中歸屬類客戶(名額評分分類的5*5*5 = 125類客戶)規格化名額屬性的平均值;

8類客戶規格化後各個名額的平均值,其中1<= i <=8, 分别代表每類客戶R(近度)、F(頻度)、M(值度)的規格化名額平均值。

比如: ,其中1<= i <=n,n指的是對應空間類别中歸屬類别(名額評分分類的5*5*5 = 125類客戶)數, 指的是對應空間類别中歸屬類别(名額評分分類的5*5*5 = 125類客戶)的規格化屬性R之和;

假如計算出RFM矩陣權重的權向量,那每一類客戶的綜合總得分等于: 的各名額值的 權重平均值,每類客戶的總得分為。

通過總得分的大小可以對RFM坐标空間劃分的8類客戶進行優先級排序,指導營運支撐決策。

5.2、k-均值聚類客戶價值

把集合D中每一個元素(客戶)的RFM屬性進行規格化,

是基于 按照映射公式把各個屬性均映射到[0,1]區間的結果;

K-均值聚類法劃分的5*5*5 = 125類客戶進行價值排序:

計算聚類中每類客戶被規格化後各個名額的平均值

,其中1<= i <=125, 分别代表每一個客戶R(近度)、F(頻度)、M(值度)的規格化名額平均值。比如: ,其中1<= i <=n,n指的是每類中的客戶(裝置)數, 指的是每類中客戶的屬性R規格化之和; 假如計算出RFM矩陣權重的權向量

,那每一類客戶的綜合總得分等于: 的各名額值的 權重平均值,每類客戶的總得分為

。通過總得分的大小可以對k均值聚類的125類客戶進行優先級排序,指導營運支撐決策。

K-均值聚類法對按照RFM坐标空間劃分的8類客戶(重要價值客戶、重要發展客戶、重要保持客戶、重要挽留客戶、一般價值客戶、一般發展客戶、一般保持客戶、一般挽留客戶)進行價值排序:

計算每類客戶被規格化後各個名額的平均值

,其中1<= i <=8, 分别代表每一個客戶R(近度)、F(頻度)、M(值度)的規格化名額平均值。 假如計算出RFM矩陣權重的權向量

。通過總得分的大小可以對RFM坐标空間劃分的8類客戶進行優先級排序,指導營運支撐決策。

06 可視化分析

進行客戶價值分類的過程中,需要能支援從不同次元來通過RFM模型對客戶進行分類,針對同類别的客戶采取不同的營運政策,資料驅動決策,幫助企業解決客戶營運問題。其中最近消費以及消費頻次是最有力的預測名額,可以預測客戶下一次購買時間點以及行為。

取近兩年還有訂購記錄的客戶設定為一個集合統計客戶樣本資料,RFM模型對客戶分層的可視化看闆如圖2所示:

如何使用RFM模型和K-means聚類,實作更有效的客戶分層?

圖2 RFM模型對客戶分析看闆

  • 按次元篩選;
  • RFM客戶價值分類:是整個RFM模型的核心,直覺顯示了8個客戶群的人數以及占比。
  • k均值聚類+RFM模型+AHP分層,對統計的樣本客戶進行分類;
  • 8個客戶群:重要價值客戶、重要發展客戶、重要保持客戶、重要挽留客戶、一般價值客戶、一般發展客戶、一般保持客戶、一般挽留客戶;
  • RFM分類-交易金額:在RFM名額中,往往我們更關心8個客戶群中各個客戶群的價值貢獻,交易金額可以更直覺的看出哪個客戶群的價值較大。
  • 顯示不同客戶群的總M-消費金額以及消費金額占比;
  • FM消費能力 – R消費流失:通過MF分布來直覺看到客戶的消費能力分布,進而通過R的大小來判斷客戶的忠誠度,定位價值高忠誠度高的客戶群體。
  • 橫坐标為M-值度(消費金額),縱坐标為F-頻度(消費頻率),點大小為R-近度(最近一次消費時間間隔);
  • RF消費異動 – M消費額度:通過RF分布來直覺看到客戶的消費異動情況,進而通過M的大小來判斷哪些客戶更有必要挽回。
  • 橫坐标為F-頻度(消費頻率),縱坐标為R-近度(最近一次消費時間間隔),點大小為M-值度(消費金額);
  • RM消費潛能 – F消費頻率:通過MR分布來直覺看到客戶的消費潛能情況,進而通過F的大小來挖掘更有價值的客戶。
  • 橫坐标為M-值度(消費金額),縱坐标為R-近度(最近一次消費時間間隔),點大小為F-頻度(消費頻率);
  • K均值客戶聚類:通過清單展示K-均值聚類法劃分的125類客戶的RFM聚類資訊,更直覺的通過價值得分對所有聚類的客戶群進行價值大小排序;
  • 清單展示資訊:客戶類别序列号、客戶級别、近度(天)、頻度(次)、值度(USD)、客戶數量、客戶數量占比、交易金額、交易金額占比、價值得分;
  • 客戶交易明細:顯示各客戶類型下的客戶交易明細。

本文由 @慎獨 原創釋出于人人都是産品經理,未經許可,禁止轉載。

題圖來自 Unsplash,基于 CC0 協定。

該文觀點僅代表作者本人,人人都是産品經理平台僅提供資訊存儲空間服務。

繼續閱讀