天天看點

資料挖掘(二)7.預測模型8.資料挖掘對商業問題的解決辦法9.結論

7.預測模型

預測模型檢驗并識别現有資料中的模式,以預測未來的結果。建構預測模型包括應用統計技術來擷取和顯示公開資料中所包含的資訊。

資料挖掘(二)7.預測模型8.資料挖掘對商業問題的解決辦法9.結論

圖2.6預測模型

決策樹

決策樹是最通用的模組化技術之一。該模型可以單獨用于預測,也可以用作開發其他預測模型模組化技術。例如,決策樹可用于選擇一組合适的變量,并将該組變量以提供給另一種模組化技術,供氣直接使用。決策樹也可以在模組化後解釋其工作原理,例如:解釋模型是如何做出決定的。

決策樹非常直覺,高度可視化,易于使用和了解,并且通常是非常有效的預測模型。作為分類模型,它們适用于類别型因變量,但也用于預測連續數值型因變量。

決策樹的結果可以直接使用到決策過程中,并能夠合并商業邏輯制定規則。它們還提供隐式特征權重,使它們适合于初始特征選擇,并且輸入到其它模組化技術中。

資料挖掘(二)7.預測模型8.資料挖掘對商業問題的解決辦法9.結論

圖2.7決策樹

線性回歸

線性回歸是一種常見的統計模組化技術,在預測和估計中有許多實際用途。預測是與任何預測有關的更通用的術語,估計是展示還未觀測出結果的未來事件的過程。

線性回歸适用于連續變量。因變量必須是連續的,自變量通常也是連續的。但是也可以通過一些手段将類别型自變量編碼為虛拟變量。輸出函數,即模型是對自變量和因變量線性關系進行拟合的直線。

簡單的一進制線性回歸僅包括一個獨立變量來預測因變量。多元線性回歸利用多個自變量來預測因變量。R^2統計量是評價整體模型性能的重要參考量。它反映了模型和自變量解釋因變量的比例。

資料挖掘(二)7.預測模型8.資料挖掘對商業問題的解決辦法9.結論

圖2.8:簡單一進制線性回歸

邏輯回歸

邏輯回歸是一種用于預測類别型因變量的模組化技術。

通常因變量是二進制變量:0或1,壞或好,是或否。舉個例子,一個金卡持有者可以被劃分為1,非金卡持有者被劃分為0。在這種情況下,邏輯回歸模型将預測新客戶成為金卡持有者的機率。

這種邏輯回歸被稱為二進制邏輯回歸,因為它的因變量被分為兩類。對于超過兩類的因變量的問題,例如低/中/高,被定義為利用多元邏輯回歸。

邏輯回歸衡量了一個類别型因變量和一個或多個自變量之間的關系。自變量可以是連續的,也可以不是。然而,邏輯回歸通常在自變量為連續時表現較好。至于類别型變量的處理,邏輯回歸與線性回歸方式相同。

從統計學的視角來看,邏輯回歸可以視為線性回歸的一個延伸。難點在于我們如何将二進制變量轉換為一個連續數值型變量。

這裡會引入一個叫做幾率的概念。比如,p是因變量在一定自變量條件下落入“是”中的機率,那麼(1-p)則是在相同環境下落入“不是”的機率。P/(1-p)就叫做在此條件下幾率。轉換的最後一步是将幾率去自然對數。

于是就能得到以下的公式,随後就可以重複利用線性回歸裡面用到的方法。

資料挖掘(二)7.預測模型8.資料挖掘對商業問題的解決辦法9.結論

二進制邏輯回歸的一個常見且有用的模型技術。它是建構記分卡模型時至關重要的一步。

記分卡模型

記分卡模型将各自變量轉換為相應點數,并将與因變量特征相關的點數相加以産生分數。比如,貸款公司通常使用記分卡來支援信貸決策,評估新的信貸申請,信貸限額的變更,交易的超額審批等。

記分卡模型通常是用于建立易于了解,易于管理和易于部署的信用風險模型。

記分卡一般有兩種類型:申請記分卡或行為記分卡。前者被用于評估服務或産品的申請。後者是賬戶管理和整合時有用的預測模型。此外記分卡模型可以與基于機率的模型組合。

圖2.9顯示了簡單的雙變量記分卡。 比如,租用住房且居住在目前位址少于一年,的申請人記分卡總分為:39+51=90

資料挖掘(二)7.預測模型8.資料挖掘對商業問題的解決辦法9.結論

圖2.9基于兩個變量的申請記分卡

與此類似,我們可以針對變量值的任何組合計算分數。為了基于總分數發放信用,可以事先設定門檻值。分數低于門檻值的申請人将被拒絕,相反則接受上述申請。

聚類分析

聚類是建立歸納同類族群的過程。例如,聚類可以分析消費者的購買習慣。聚類是一種無監督的機器學習過程,因為模型中不涉及因變量,所有變量都被視為自變量。

聚類分析是一種常見的聚類技術。在Altair KnowledgeSEEKER 和Altair KnowledgeSTUDIO中,是通過K均值或最大期望法兩種算法來完成聚類過程。

聚類分析是一種适用于客戶細分,産品定位,建立信用行為細分和産品購買細分的模型技術。

圖2.10展示了一個客戶細分的案例。散點圖中的每一點代表一個客戶的年齡和收入。結果代表了五種不同的細分。除此之外,一些具有極值特征的資料點可以解釋為異常值。

資料挖掘(二)7.預測模型8.資料挖掘對商業問題的解決辦法9.結論

圖2.10:客戶細分

聚類分析在資料中查找聚類,并用為每個記錄标記類别。基于對描述每個叢集的了解,分析人員可以為每個叢集配置設定一個名稱或含義。

例如,左下角較年輕,收入較低的群體可以被指定為學生的标簽。再例如較年輕但收入較高的群體可以被視為雅皮士。這些描述叢集特征的标簽可以被用于定制每個細分市場裡面所提供的産品和服務。

客戶細分在實踐中有兩個目标:

 -将客戶群分成更小的群體,以更好的定位這些群體。

 -生成索引;類别号碼或标簽,用于進一步模組化或探索

關聯分析(市場購物籃分析)

關聯分析是一種與聚類相似的技術。它主要用于發現資料之間的關聯并且導出規則。這些規則顯示出特定組合一起同時出現的機率。當有興趣将其它産品和服務作為下一個最佳産品推廣時,通常會使用到關聯分析。

典型的關聯分析問題是确定不同産品或者服務同時出現的頻繁程度。生成的關聯規則可主要用于建構産品促銷,産品放置,交叉銷售等政策。此外,關聯規則還可以應用在包括健康科學,欺詐檢測或者需要從事務資料中識别事件或行為模式的許多其它領域。

關聯分析模型的工作原理是分析銷售内容,即購物籃或一起購買的産品組。關聯分析算法利用以下形式提取規則:如果(A和B),那麼C

然後,使用規則根據以前的購買情況對客戶進行評分,以推薦他們可能購買的産品。

例如: 亞馬遜的消費者買了紅酒同時又買了芝士等。

關聯分析的另一用途是尋找産品組合,關聯分析會産生産品組合。這表明捆綁銷售或促銷這些産品将受到客戶的歡迎。

資料挖掘(二)7.預測模型8.資料挖掘對商業問題的解決辦法9.結論

圖2.11産品推薦

8.資料挖掘對商業問題的解決辦法

現如今,大量的可供使用的資料為公司提供了更好的機會和挑戰,以便更好的洞察客戶的行為。 通常,資料挖掘模型可能被用來預測未來的事件,客戶細分或者更好的了解客戶的要求。以下是常見的商業案例:

(1)預測型分析

-下一個産品或服務推薦

-如何獲得新客戶

-向上銷售和交叉銷售

-客戶防流失和客戶忠誠度培養

-客戶生命周期價值管理

-信用風險管理

-反欺詐

(2)細分

-客戶細分

-産品細分

(3)文本分析

-消費者需求,情感分析

下一個産品推薦:旨在适當的時候向現有客戶推廣更多的産品。當一家公司有許多産品要推廣時,他們必須根據客戶擁有的現有産品來确定哪些産品應該提供給該客戶。

如何擷取客戶:被用于獲得新客戶和增加市場佔有率,包括提供有很大前景的産品。

向上和交叉銷售:旨在為消費者提供更有價值的産品。

向上銷售是向現有客戶推廣更昂貴的産品,更新或附加産品的做法。

交叉銷售是向現有客戶銷售附加的産品。

适合這些模型的資料挖掘技術包括決策樹,邏輯回歸,市場購物籃分析和神經網絡。

客戶保留政策和客戶流失模型:旨在維護和獎勵客戶忠誠度。在客戶流失的情況下,重點放在一定時間内會取消訂單的客戶。有四種類型的流失:

 客戶流失 — 離開的客戶

 産品流失 — 取消産品訂單

 降級 — 降低産品使用水準的客戶

 産品替換 — 将一種産品替換為另一種的客戶

客戶生命周期價值管理:代表從客戶的生命周期内獲得預期收入,考慮到該客戶可能購買的所有産品。客戶生命周期價值也可以表示此類預期收入的指數。

客戶細分:可以更好的了解客戶特征,以及相應的市場格局。其中包括他們是否能自然的分組成為具有相似度的市場。用于客戶細分的常見資料挖掘技術是聚類分析。模型輸出的一組聚類,可以附加在其它模型中,例如決策樹,線性回歸,邏輯回歸和神經網絡等。

産品細分:根據現有使用者産品使用情況來推薦産品,在大多數情況下使用市場購物籃分析。

文本分析: 基于文本的資料源,分析客戶需求。并将非結構化資料轉換為結構化字段,其中包含客戶正在談論的實體,主題,話題以及相關評價情感的正負得分。

9.結論

随着資料量的增加,行業中采用越來越多的統計和模組化技術。傳統的模型建構方法被進行了一系列的重組,資料挖掘應運而生。

計算機技術的進步進一步提供了利用更複雜的操作,更快的處理大量資料的方法。

繼續閱讀