天天看點

大資料挖掘技術之DM經典模型(上)

大資料挖掘技術之DM經典模型(上)

實際上,所有的資料挖掘技術都是以機率論和統計學為基礎的。

下面我們将探讨如何用模型來表示簡單的、描述性的統計資料。如果我們可以描述所要找的事物,那麼想要找到它就會變得很容易。這就是相似度模型的來曆——某事物與所要尋找的事物越相似,其得分就越高。

下面就是查詢模型,該模型正在直銷行業很受歡迎,并廣泛用于其它領域。樸素貝葉斯模型是表查找模型中一種非常有用的泛化模型,通常表查詢模型适用于較低的次元,而樸素貝葉斯模型準許更多的次元加入。還有線性回歸和邏輯回歸模型,都是最常見的預測模組化技術。回歸模型,用于表示散點圖中兩個變量之間的關系。多元回歸模型,這個準許多個單值輸入。随後介紹邏輯回歸分析,該技術擴充了多元回歸以限制其目标範圍,例如:限定機率估計。還有固定效應和分層回歸模型,該模型可将回歸應用于個人客戶,在許多以客戶為中心的資料挖掘技術之間搭建了一座橋梁。

相似度模型中需要将觀察值和原型進行比較,以得到相應的相似度得分。觀察值與原型相似度越高,其得分也就越高。一種度量相似度的方法是測量距離。觀察值與原型值之間的距離越近,觀察值的得分就越高。當每個客戶細分都有一個原型時,該模型可以根據得分把客戶配置設定到與其最相似的原型所在的客戶細分中。

相似度模型有原型和一個相似度函數構成。新資料通過計算其相似度函數,就可以計算出相似度得分。

1.1、相似度距離

通過出版社的讀者比一般大衆要富有,而且接受教育的程度要高為例。通常前者要比後者在富有程度、教育程度的比例大三倍。這樣我們就可以給讀者一個訊息——“工資很高,并且受過良好的教育”。

如果要把對讀者的描述表示成一個可以識别該雜志潛在的讀者的模型,就需要對理想的讀者做出精确的定義,并以此來量化潛在讀者與理想讀者之間的相似程度。

相似度和距離是同一概念的兩種不同描述方式,但是它們度量的方向不同。使用距離作為度量名額時,如果兩個事物彼此非常靠近,那麼兩者就很相似。是以當兩者距離很小時,相似度就會很高。

例如:出版社的理想讀者的受教育程度是16年,年收入100000美元。那麼受教育14年,年收入75000美元的潛在客戶與理想客戶之間的相似度是多少呢?另外它們與受教育12年,并且年收入為150000美元的潛在客戶又有多少相似呢?這時候,我們要選擇一個度量的标準,歐式距離。當我們計算一潛在客戶與理想客戶(x=16,y=100000)之間的距離時,就會發現收入在計算中占了主導地位,因為它的取值比教育年限大的多得多。這就引入另一個問題:度量尺度。解決方法:将兩值分别減去相應的平均值然後除以相應的标準差。這樣就把兩者轉化成分數,然後用分數代替原來的值來計算歐式距離。

歐式距離僅計算距離方法之一。這裡才采用歐式距離隻是為了将原型目标的一種統計描述與某種距離函數結合起來,搭建一種相似度模型。有了潛在使用者與理想客戶之間的距離,就可以對潛在客戶排序,或者将距離作為另一種計算的輸入,得到預期收入或相應機率。

1.2 、建構相似度模型的步驟

建構相似度模型,首先是要對原型進行描述,或得到一個用于與其他對象進行比較的理想對象。這些描述必須表示為度量,對于那些與理想值較近或較遠的對象,這些變量的取值要明顯不同。

首先,要解決三個問題

(1)“差”記錄與“好”記錄有什麼差別?

(2)理想的“好”記錄看起來是什麼樣子的?

(3)如何度量與理想對象之間的距離?

實作資料挖掘模型的一個簡單方法就是查詢表。表查詢模型思想就是:相似的人所作出的反應也相似。對一個新觀測值的評分涉及兩個步驟。一、為觀測值指定一個特定的标簽或主鍵。主鍵對應于查詢表中的一個單元格。二、被配置設定到某一個單元格的所有記錄都會有一個得分,該分值在模型訓練時就被賦予該單元格。

配置設定主鍵的方式有多種。決策樹模型适用了規則集将觀測值配置設定到特定的葉節點,葉節點的id就可以作為一個可用于查詢得分的主鍵。聚類技術為記錄指定标簽,這裡的聚類标簽就可以作為查詢主鍵。

建構查詢表,一、為查詢表選擇輸入變量。将訓練集中的每條記錄精确地配置設定到該表中的一個單元格中。使用訓練集中的統計資料來刻畫單元格的特征,這些統計資料包括平均值、标準差以及落入該單元格的訓練執行個體個數。在為模型評分的時候會用到這些統計資料。分數可以是數值型目标的平均值,也可以是屬于某一特定類别的比例,或者是單元格中占主導地位的類别。

2.1、選擇次元

每個次元都應該是一個對目标有影響的變量。理想情況,輸入變量不應該彼此相關,實際上,很難避免之間不相關。相關變量的實際影響是,訓練完成後有些單元格僅含有幾個訓練執行個體,這會使得估計值的置信度偏低。實際情況可能好點,因為要評分的新資料在那些單元格中也是稀疏的。

例如:在rfm模型中,有一個次元是采購總數,還有一個次元是整個生存期的花費。在兩個變量高度相關,因為通常情況下,額外的購買會創造額外的收入。很少有記錄會落入到購買數量最大而收入卻很少,或收入很高而采購量卻很少的單元格情況。

應該避免使用高度相關的變量作為查詢表的次元,因為這些相關變量會導緻大量的稀疏的單元格。包含訓練樣本過少的單元格會産生置信度偏低的目标估計值。

對次元數的主要限制是單元格中訓練記錄的數量。在次元數與每個次元上分到的訓練樣本數之間有一個權衡。使用較少的次元,可以在每一個次元上進行更加精細的劃分。在實際處理過程中,可能會出現該單元格中什麼都沒有,有的時候這種情況是确實存在的。這種異常情況,表中應該包含具有預設得分的單元格,這樣就可為那些與任意主鍵不比對的記錄配置設定得分。典型的預設異常單元格得分,就是平均值。

2.2、次元的劃分

在實際的過程中,并不需要,每一個類别劃分一個次元。次元的分割應該依實而用。對于一個次元的合理劃分是按高、中、低劃分,而對另一個次元的合理劃分可能是按照百分比來劃分。有的時候,根據業務規則來定分割點,遵循這些特定的分割點劃分記錄可能那個比等分劃分更有意義。有監督的分割,可以用于確定分割的有效性。這個後面在讨論。

2.3、從訓練資料到得分

次元劃分好以後,在訓練集上計算每個單元格的得分就簡單了。對于數值型目标而言,得分=平均值。對于類别目标,每個類别會有一個得分=每個單元格類标簽的比例。這樣對于每個類都有一個機率估計,即待評分的資料記錄屬于該類的機率。

2.4、通過删除次元處理稀疏和缺失資料

有些單元格沒有配置設定到足夠多的資料,這會導緻目标估計值的置信度較低。對于這類單元格該怎麼辦?一、減少每個次元上的劃分數量。二、減少定義稀疏單元格的次元數。

例如:建構某購物網站物品清單價格的競争力模型。基于清單熟悉感,點選吸引力的分析考慮四個次元:

産品

地域

供應商類型

星期幾

對于一些比較受歡迎的産品,使用這四個次元是有道理的。而對于不受歡迎的商品,沒有足夠多的清單來支援所有次元,是以要丢棄一些次元。對于一些産品,放棄星期幾這一次元就ok。對于已協商産品,隻是基于三個次元而不是基于四個次元之間的比較。對于一些産品,甚至隻留下一個次元,對于這類産品,要做的就是持續删除次元并合并單元格,直到每個單元格含有足夠的多的資料。

rfm模型,稱為近期、頻率以及貨币。rfm背後的邏輯很簡單。近期下單的客戶在不久的将來再次購買的機率可能性非常大。在過去有許多購買記錄的顧客更有可能在不久的将來再次購買,并且在過去消費較多的客戶更有可能在将來消費更多。rfm是一種最大化現有客戶收益的技術,而不是吸引新客戶的技術。

将客戶配置設定大rfm單元中,三個rfm變量需要轉化為三個量化名額。近期:距離上次購買的天數或周數,用于得到r的得分。

第二個變量頻率,通常是以前下單的總數,記錄f的得分。最後一個是客戶生存期中的總的花費,該值用于建立m的得分。每個次元5等分。由于次元之間具有相關性,如f維和m維,是以各個單元格的客戶數量并不相等。要做的就是将所有的資料都配置設定到合适的單元格中,而且每個單元格要有足夠多的記錄,進而目标估計值具有一個可以接受的置信度。

3.1、rfm單元格轉移

對于每個營銷活動,客戶都會在rfm單元格之間轉移。那些做出響應的客戶對增加其消費頻率和消費總額,并且會減少距上一次購買的時間。這些新的取值通常都會遷移到單元格中。沒有響應的客戶也可能因距上一次購買時間的增加而轉移到新的單元格。其實這就是定期的資料更新,模型更新。資料的遷移,會導緻原來的期望的變化,在資料單元格遷移過程中,要不斷的了解客戶的需求,及時的更改資料。

3.2、rfm和增量響應模組化

增量響應模組化的目标是識别那些容易被說服的潛在客戶——受營銷影響最大的人。rfm可以看成是對客戶營銷活動響應能力的預測。在定義好的rfm單元格之後,需要為每個單元格配置設定成員,要麼是接收營銷資訊的測試組成員,要麼就是不接受該資訊的對照組成員。基于測試組和對照組兩個分組之間的響應率之差決定了營銷活動對于發現潛在客戶的能力。對于測試組和對照組之間的響應率差異最大的單元格,營銷獲得産生的影響也是最大的。但這些單元格的響應率卻未必是最大的。

本文作者:佚名

來源:51cto

繼續閱讀