中國移動架構師大資料分析模型實踐：解決管道貓和老鼠的遊戲

貓池介紹

終端識别模型

日間隔預警模型

關于資料挖掘，我給大家分享的案例是貓池終端識别模型和日間隔預警模型。當然作為營運商一般是自己很少全程參與的，但這兩個模型基本上從需求定義、名額選取、名額确認、挖掘算法、模型結果确認和優化是我參與和把控的。

貓池（外文名：modempool）就是将相當數量的modem使用特殊的撥号請求接入裝置連接配接在一起，可以同時接受多個使用者撥接上網的裝置。

貓池分不同用途，可以單獨認為它是僅僅基于電話的一種擴充裝備，而不去區分它的上網或者手機訊号收發效應。它使用電話的中繼功能，即一個号碼多條線路。

貓池廣泛應用于大量具有多使用者遠端聯網需求的機關或需要向從多使用者提供電話撥号聯網服務的機關。如郵電局、稅務局、海關、銀行、證券商、各類交易所、期貨經紀公司、工商局、各類資訊呼叫中心等。

簡單說來就是一台裝置，這個裝置是為了友善人們的批量使用的。

如果隻是簡單的裝置和應用，沒必要大驚小怪的。問題出在哪裡呢，營運商是以kpi為導向的，使用者數、終端數，為了kpi，營運商的分公司會造假、管道會造假、甚至部分分公司配合管道造假。但是移動發放sim/usim卡雙為了發展新使用者、發展市場占有率，同時也發放正常的傭金給管道。移動賣終端也是為了維系老使用者，鞏固市場占有率，總的目标是為了“使用者”。但管道不同，他的本質在于逐利。除了正常的傭金/酬金，還想賺取倒卡的利潤，低價批量擷取移動資源，高價賣給使用者。終端也是，争取賺取更多的差價，創造更多利潤。

當然營運商也會對管道進行考核，希望使用者用起來卡和終端，而不是虛耗資源。但管道的對策是采用機卡分離，制造兩者使用的假象這就是我們本次挖掘的目标，把管道制造的假象和行為識别出來。

前面啰裡啰唆說了這麼多，就是為了找到資料挖掘出發點。管道套機是為了獲利，是以機終端在收入、流量、通話行為、終端行為等名額上會存在相似的特征，且顯著有别于正常的終端，是以識别貓池終端存在可行性。基于對貓池終端的以上了解，選擇從終端的收入、計費時長、流量、通話時長、通話次數、通話基站數、激活終端數、主用終端數、交往圈終端數、主被叫通話占比、通話行為集中次數等名額。管道制造使用的假象本質也是為了利潤，是以他投入的成本要小于營運商的傭金，這樣才有盈利的空間。世面上貓池裝置提供這種便利可能性，當然機器終歸是機器，其行為必定與正常使用者有所差別。

這是我們經過認真分析後得到的名額。主要是終端的消費行為，終端自身的行為、終端與管道的關系、終端與号碼的關系。經分系統的資料表有1萬+以上，報表5000+，名額數千，并不是所有的名額都可以直接拿來挖掘的。挖掘的誤區是，給我現有的幾百個名額，我可以得到任何想要的使用者模型，而且成本都是一樣的。通話行為集中次數-該終端在一個月中有幾次出現這樣的情況：在同一天，同一基站下，向同一人通話，且通話時間在30s以内，且通話次數大于2次,光看這個名額就很繞口。實作是從通話清單出的，現有的db2資料倉庫，每天隻能跑4、5天的資料。激活終端數，激活該終端的号碼激活了另外多少部終端。主用終端數，該終端的主用号碼還有多少部主用終端。是從終端找号碼，再從号碼找終端。

這20個名額的開發用了大約3個月時間。運作2個月資料花了半個月，是以資料準備期是最長的。

接下來是資料探索

探索是對資料進行初步研究，以便更好地了解它的特殊性質。資料探索有助于選擇合适的資料預處理和資料分析技術。它甚至可以處理一些通常由資料挖掘解決的問題，例如，有時可以通過對資料進行直覺檢查來發現模式。

資料探索的一種常用方法是“可視化”。資料可視化是指以圖形或表格的形式顯示資訊。成功的可視化需要将資料（資訊）轉換成可視的形式，以便能夠借此分析或報告資料的特征和資料項或屬性之間的關系。在資料分析中，可視化技術（如圖和表等）常常是優先選擇的方法。盡管資料挖掘強調算法和數學方法，但是可視化技術也能在資料分析中起關鍵性作用。

就是類似簡單的可視化，通過2維可視化來評估各名額的适配度

直方圖是一種可視化技術。在統計學中，直方圖是一種對資料分布情況的圖形表示，是一種二維統計圖表，它的兩個坐标分别是統計樣本和該樣本對應的某個屬性的度量。

我們完成每個名額的直方圖，對其進行解釋。分析各名額的資料分布規律性是否符合正态分布，不滿足正态分布的名額一般屬于重點監測對象，激活終端數、其他主用終端、其他終端這三個名額值的分布很不均勻，值為0的占絕大多數，表明正常終端絕大部分隻被一個号碼激活，如果激活該終端的号碼同時激活了其他一部或多部終端，則套機的可能性增大。另外，主叫占比大緻服從正态分布，但是當主叫占比值為100時，明顯與右側的長尾沖突。是以主叫占比100的終端有套機嫌疑。對貓池終端的識别采用的是聚類算法，對聚類出來的結果需要進行進一步業務分析和解讀，以确定是否有疑似貓池終端的聚類，确定後，即生成相應的名額規則。

通常名額是滿足正态分布的。但是也有長尾的，這很正常，比如收入、時長、流量，這是由于大多數人的消費行為和營運商對使用者的認定導緻的。激活終端數、其他主用終端、其他終端這三個名額值的分布很不均勻，值為0的占絕大多數，表明正常終端絕大部分隻被一個号碼激活，如果激活該終端的号碼同時激活了其他一部或多部終端，則套機的可能性增大。

這個是可以預想的，正常使用者的行為是如何的，極端客戶是如何的。

算法的選擇

市場部并未給出疑似貓池終端使用者的樣本，是以無法選用決策樹之類的模型。模型的目标是要挖掘出套機終端，由于沒有套機樣本，是以分類算法無法解決，必須借助于聚類算法。聚類算法的核心思想是“物以類聚，人以群分”，即具有相似特征的個體聚內建一個簇。貓池套機終端存在諸多相似特征，例如終端收入較低、計費時長較短、流量較小和主叫占比較高等特征，而這些特征又顯著差別于正常終端，是以聚類算法有效。

聚類是一個不斷探索尋優的過程，本次使用k-means算法将資料劃分成不同的類，觀察聚類結果，選擇平方誤差和（sse）最小的分類政策。k-means算法把簇的形心定義為簇内點的均值。首先，在資料集d中随機地選擇k個對象，每個對象代表一個簇的初始均值或中心。對剩下的每個對象，根據其與各個簇中心的歐氏距離，将它配置設定到最相似的簇。然後，使用更新後的均值作為新的簇中心，重新配置設定所有對象。疊代繼續，直到配置設定穩定，即本輪形成的簇與前一輪形成的簇相同。

k-means聚類過程

第1步：确定要劃分的類别數k；

第2步：根據歐氏距離把所有的終端劃分到這k個類中；

第3步：重新計算k個類的中心；

第4步：重複第2~3步，直至分類趨于穩定。

我們先是選擇了聚類算法，再次選擇k-mean聚類。k-mean聚類比較成熟，也容易了解。聚類既不是越多越好，也不是越少越好。聚類越多，幹擾項越多，解讀也越困難；聚類少了，使用者的特征展現不出來，是以一般是10個以内。聚類是一個不斷探索尋優的過程，本次使用k-means算法将資料劃分成不同的類，觀察聚類結果，選擇平方誤差和（sse）最小的分類政策。

随着分類個數的增加，分類誤差（sse）越來越小，同時分類耗時（疊代次數）也急劇上升。當聚類個數低于8時，聚類誤差下降很快，超過30時則趨于平緩，但疊代次數上升迅速。

聚類個數越多，誤差平方和越小，但是個數過多會幹擾決策判斷，導緻業務上的偏差。原則上聚類個數不宜過多，是以模型選擇聚類個數10類。

觀察結果發現，第10個類的終端收入、基站數和通話交往圈等名額值較其他類低，而激活終端數、主叫占比等名額值較高，根據貓池套機業務分析，此類應該判斷為貓池終端。

并把聚類的結果生成名額規則，以便為後續資料提供進一步挖掘依據。

聚類出來的結果要通過業務語言進行解讀，為了保證kmeans聚類能力的适用性，模型建立在以下資料集上（樣例為随機數）

資料集：2015年5月、6月銷售的已激活終端在6月、7月的行為資料；

樣本總數：xxxx

觀察結果：第10個類的終端收入、基站數和通話交往圈等名額值較其他類低，而激活終端數、主叫占比等名額值較高，根據貓池套機業務分析，此類應該判斷為貓池終端。

就是這麼一張聚類結果表，要能解析出業務含義，要評估出那些敏感名額的敏感特征資料，不是靠機器，而是靠業務積累。

資料挖掘的應用和輸出

資料挖掘的目的不是為了挖掘而挖掘，而是為了讓規則持續得到應用，并不斷去污求精的完善過程。是以該過程描述的是把規則庫應用到新月份的新售終端，且次月已經激活的情況下，通過貓池終端規則庫校驗，判斷是否為疑似貓池終端使用者，并通過對預設條件的篩選，最終擷取更為精确的結果。

通過以上步驟，完成了終端聚類任務，接下來需要将模型部署到生産環境中。

通過計算歐氏距離，把終端劃分到相應的類中，把劃分到第10個類的終端套機标簽标記為1，劃分到其他類的終端标記為0。

我判斷出之前資料的疑似貓池使用者，要把該模型結果應用到下個月或之後的使用者上，才能得到持續應用，産生價值，是吧。

同時我還要給使用者去看相關資料，如果使用者對相關資料不滿意，我還要能設定再次篩選吧。

是以在最終結果中，還引入了一些使用者的基本行為作為篩選項和判斷依據。比如疑似貓池使用者約為每月5000，使用者經過再次篩選後得到2000，然後業務部門再把這2000使用者送出給管道或者做私下調查，以避免模型誤判。這是第一個模型。

日間預警模型

第二個模型，日間隔預警模型稍微簡單點，是我12年進公司的時候，當時引入的一個模型。

客戶生命周期理論，告訴我們要發展新使用者，刺激使用者消費、維系存量使用者，預警和挽留老使用者。本模型适用于最後一個目标維系存量使用者、預警和挽留老使用者的投入是發展新使用者成本的十分之一。

rfm模型是基于上述三個要素建立的資料模型，是衡量客戶價值和客戶創利能力的重要工具和手段。該模型通過一個客戶的近期購買行為、購買的總體頻率以及花了多少錢三項名額來描述該客戶的價值狀況。

rfm模型之前我是知道的，但想明白跟日間隔預警模型的關系，卻是最近的事兒。

為什麼能使用這個模型？是基于假設的，假設正常使用者的通話行為是不變的，通話頻率、最近一次通話時間間隔等等；假設使用者要離網，該行為必定有所改變，你可以設想一下轉網或互轉或換卡等等。再一個是營運商一般對欠費、離網使用者會保留三個月的正常狀态，隻有持續不通話幾個月才會做銷号處理。是以我們可以向前推，假如使用者8月離網，5月開始通話不正常，則可以觀察3、4、5月的通話行為。

目前沉默時間：使用者最後一次通話時間距當日23點59分59秒的時間間隔；

期望值：使用者常态下通話時間間隔的平均值；

标準差：使用者常态下通話時間間隔穩定度，标準內插補點越小，說明使用者通話間隔越穩定；

t 值：t =(i-μ)/δ。當t很大時，說明使用者的通話時間間隔明顯超過使用者常态下的使用習慣，使用者離網傾向較高。

同rfm模型相比少了個m

基于使用者3個月的曆史通話詳單和5個月的使用者資料進行研究。分别運作m月份日通話清單，對比使用者m-1、m-2月份（使用者通話模式正常期）的通話模型，預測在m+1、m+2月發生離網的機率。以m+1、m+2月真實發生離網的使用者評估模型的命中率和覆寫率。這個在2012年時每天也隻能處理3天的資料，時間都被耗在模型計算上了。在4+1的mpp上，能計算10天資料。

模型的輸入輸出

輸入的是正常使用者的日間隔期望、标準差、最後一次通話日期和時間，以及目前沉默時間，輸出的是t值

再一個是查全率和查準率問題，這兩個是互相沖突的，是以必須不停調整t值以求得最佳結果。

模型的調優，因資料量原因，把日調成周了，同時也要解決實際操作問題，預警排重。

最後是模型應用。這個模型也可以調整成中高端使用者預警、存量預警等等，再

細化人群

企業的資料挖掘和書本的資料挖掘差别在于對于業務模型的解讀、持續的優化。

講師介紹：

16年it工作經驗；關注領域包括證券、航空、制造、電信等。

在資料庫開發和優化、資料倉庫、系統架構、大中型項目管理、資料分析、office、大資料方面有一定研究。

《劍破冰山--oracle開發藝術》一書合著者，《it項目管理那些事兒》一書主編。

<b></b>

<b>本文來自雲栖社群合作夥伴"dbaplus"，原文釋出時間：2015-12-26</b>

中國移動架構師大資料分析模型實踐：解決管道貓和老鼠的遊戲

繼續閱讀

Codeforces 1417 D. Make Them Equal(思維+構造)

查找算法之二分查找查找算法之二分查找

查找算法學習之二分查找（Python版本）——BinarySearch

CQ V1.0分詞bates(基于雙數組tire樹)—應該是目前最快的中文分詞算法

Command Network(POJ 3164)---定根最小樹形圖模闆題題目描述輸入格式輸出格式輸入樣例輸出樣例分析源程式

開源低帶寬語音編解碼器

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

C++ 第十五周報告1--《冒泡法排序》

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希