為什麼資料挖掘很難成功？

大資料時代，資料挖掘變得越加重要，曾經做了很多，成功有之，失敗的卻更多，舉一些例子，探究其失敗原因，也許于大家都有啟示吧。

資料缺失總是存在。

為什麼資料挖掘的資料準備工作要這麼長時間，可以了解成取數時間很長、轉換成所需的資料形式和格式時間很長，畢竟隻有這樣做，才能喂給資料挖掘引擎處理。

但資料準備的真正目的，其實是要從特定業務的角度去擷取一個真實的資料世界，資料的擷取比處理重要，技巧倒是其次了。

離網預測一直是很多業務領域關注的焦點，特别是電信行業，但這麼多年做下來，其建構的離網模型卻難言成功，為什麼?

因為資料擷取太難了。

離網預測希望用客戶曆史的行為資料來判定未來一段時間離網的可能性，但國内的電信市場并不穩定，不僅資費套餐複雜，大量的促銷政策時時轟炸眼球，大家看得是熱鬧，但對于資料挖掘人員來講，卻是業務了解和資料準備的噩耗了。

因為業務的了解很困難，資料完全被業務扭曲，如果要預測準确，不僅自身業務促銷的因素要考慮進去，還要考慮競争對手策反政策、地域影響等等，你訓練時看到的是一個簡單的離網結果資料，但誘導因素異常複雜，這類因素相關的資料根本取不到或者難以量化。

比如電信離網很大程度是競争對手策反、客戶遷徙離網等等，你知道競争對手何時推出的促銷政策嗎?你知道客戶什麼時候搬的家嗎?你如何用資料來表達這種影響?你的資料能适應市場變化的節奏嗎?

是以，如果某個合作夥伴來跟你說，我可以做電信行業的離網模型，那是個僞命題，離網模型已經被電信行業做爛了，幾乎沒有成功的案例，即使一時成功也持續不了多久，隻要業務不統一，就不大可能出現一個基本适用的離網模型，你無法想象全國10萬個電信資費政策會對預測模組化造成怎樣的影響。

與網際網路大一統的資料相比，其搞的風控模型顯然要簡單的多了，因為資料的擷取難度和穩定度不在一個量級上。

資料挖掘，難就難在要為預測的業務提供跟這個業務相關的資料環境，是以，有時離網模型做不好，并不是模型師的錯，也不是算法的問題，而是業務惹的禍，是資料問題。

你讓開發出alphgo的deep mind團隊來做離網模型，也是一個死字，這可能也是傳統行業資料挖掘很難出效果的一個原因。

阿裡的螞蟻金服，是以能算法取勝，一個原因是它天生具有線上的資金往來資料，如果讓它去分析傳統銀行的線下資料，估計難度也很大。

資料挖掘師特别強調要了解業務，就是希望你基于業務的了解能找到所需的解釋資料，外來的和尚是以做不好，也是這個因素，因為打一槍換一個地方的方式，跟紮根了解業務的模組化文化背道而馳。

資料準備，不确定性總是存在，是以一定程度上講，這個世界是不可預測的，預測的能力，跟我們采集資料的能力成一定的正相關關系。

大資料的意義，就在于可以采集到更多的資料，這個決定了我們用機器解釋世界的可能程度。

假資料真分析。

還是拿離網的例子，你就知道很多時候，所謂的解釋資料，都是假資料，雖然你不是故意的，你還很認真，但因為受限于業務能力，決定了你隻能使用假資料，結果可想而知。

以前新手，在做離網預測的時候，總喜歡拿訂購成功的資料作為訓練的資料，但這個顯然是個大謬誤。

要知道，大量的業務訂購是套餐附帶訂購的，并不能反映使用者的真實意願，拿這個資料去訓練，能訓練出什麼東西?這就是業務能力不夠造成的現象。

現在網際網路上估計這個現象很嚴重，比如刷單，這些假資料嚴重擾亂了模型，去僞存真是資料挖掘師的一個必修課。

但這個，可惜又跟業務能力相關，依賴于實踐和經驗，如果讓市場部經理轉行去做資料挖掘師，估計也很牛逼。

資料挖掘，難就難在這裡，其是業務、資料甚至是技術的結合體，在大資料時代，這個趨勢會越加明顯。

缺乏對于“常理”的感覺。

以下是一個社交網絡的案例，場景是需要對于兩個通話(或其它)交往圈進行重合度判定，以識别兩個手機号碼是否屬于同一個人。

規則似乎很簡單，但挖掘出來的結果卻不盡如人意，準确率隻有12%，百思不得其解。

後來發現判定重合度的門檻值是30%，這個也不能說明有問題，但問題出在對于基數的判定上，大量的使用者總的交往圈隻有3-4個，也就是說，重合1個就可能達到這個門檻值，很多新手或者過于迷信技巧的人，往往忽視業務本質的認識。

資料挖掘不僅僅是一門挖掘語言，還要有足夠的生活認知和資料感覺，這個很難短期能夠提升，依賴于長期實踐，甚至認為，這個跟情商相關，有些人就是有感覺，一眼能發現問題。

缺乏疊代的能力。

很多傳統企業，資料挖掘效果不好，跟企業的組織、機制、流程等相關，舉個例子：

曾經給外呼部門做了一個外呼偏好模型，就是對于所有客戶的外呼偏好排個序，在外呼資源有限的條件下，按照這個排序進行外呼，可以提升外呼效率，然後釋出到标簽庫，然後讓外呼部門去用，等待回報的時間總是很長，大家都懂的，然後就石沉大海了。

最近想起來，再去要結果，發現效果很不錯，能真正提升10個百分點啊，但已經2個月過去了。

這還算一個較為成功的挖掘，但又有多少模型由于線下流程的原因而被放棄了，誰都知道，資料挖掘靠的是疊代，很難第一次就成功，但有多少星星在開始之時，就被掐滅了。

傳統企業冗長的線下流程，的确成為了模型優化的大殺器，網際網路公司天生的線上性讓其算法發揮出巨大的價值，而傳統企業的模組化，往往還在為獲得回報資料而努力，組織、系統和營運上的差距很大。

推廣是永遠的痛。

很多傳統企業不同地域上的業務差異，不僅僅造成管理難度加大、體驗不一緻、系統過于複雜、營運成本高昂，也讓模型的建設和推廣異常困難。

從模型本身的角度，不同地域的資料差異有時很大，在一個地方成功的模型，在另一個地方則完全失敗，過拟合現象比比皆是。

從業務了解的角度，模組化團隊要面對幾個甚至十多個做類似業務的團隊，各個團隊的業務了解上的差異和對于模組化的要求各不相同，造成了模組化團隊的無所适從。

模型推廣，成為了模組化團隊巨大的負擔，複制模型，往往變成了重做模型，搜集結果資料也難上加難，資料挖掘，已經不是一項純粹的活。

提了以上五點，隻是為了說明資料挖掘是以難，是綜合多種因素的結果，可能不是靠建立一個平台，懂得一些算法，掌握一個工具就能簡單解決的，往往具有更深層次的原因。

我們在努力掌握好“器”的同時，也要擡起頭來，更全面的看待資料挖掘這個事情，因地制宜的制定适合自己企業特點的資料挖掘機制和流程。

當然，大資料時代的到來，讓平台，工具和算法也變得越加重要，這對資料模組化師的知識結構也帶來了新的沖擊。

本文作者：傅一平

來源：51cto

為什麼資料挖掘很難成功？

繼續閱讀

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

C++ 第十五周報告1--《冒泡法排序》

淺談企業活動中進行資料分析的重要性

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

Ambari介紹和架構原理

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark

hdu7108哈希