我們在資料挖掘中迷失了什麼？

當我們沉浸在親手建構的模型裡的時候，是否會理智地跳出來，重新審視一下，我們所忽略的會不會正是客戶所需求的呢？

　　1.太關注訓練

就像體育訓練中越來越注重實戰訓練，因為單純的封閉式訓練常常會訓練時狀态神勇，比賽時一塌糊塗。實際上，隻有樣本外資料上的模型評分結果才真正有用!

栗子：機器學習或計算機科學研究者常常試圖讓模型在已知資料上表現最優，這樣做的結果通常會導緻過度拟合( overfit )。

解決方法：解決這個問題的典型方法是重抽樣。重抽樣技術包括：bootstrap、cross-validation 、jackknife 、leave-one-out… 等等。

2.隻依賴一項技術

沒有對比也就沒有所謂的好壞，辯證法的思想在此展現無遺。“ 當小孩子手拿一把錘子時，整個世界看起來就是一枚釘子。” 要想讓工作盡善盡美，就需要一套完整的工具箱。不要簡單地信賴你用單個方法分析的結果，至少要和傳統方法(比如線性回歸或線性判别分析)做個比較。

解決方法：使用一系列好的工具和方法。(每種工具或方法可能最多帶來5%~10% 的改進)。

3. 提錯了問題

一般在分類算法中都會給出分類精度作為衡量模型好壞的标準，但在實際項目中我們卻幾乎不看這個名額。為什麼?因為那不是我們關注的目标。

a) 項目的目标：一定要鎖定正确的目标。栗子：欺詐偵測(關注的是正例!)( shannon 實驗室在國際長途電話上的分析)：不要試圖在一般的通話中把欺詐和非欺詐行為分類出來，重點應放在如何描述正常通話的特征，然後據此發現異常通話行為。

b) 模型的目标：讓計算機去做你希望它做的事。大多數研究人員會沉迷于模型的收斂性來盡量降低誤差，這樣讓他們可以獲得數學上的美感。但更應該讓計算機做的事情應該是如何改善業務，而不是僅僅側重模型計算上的精度。

4. 隻靠資料來說話

如果資料+工具就可以解決問題的話，還要人做什麼呢？

a）投機取巧的資料：資料本身隻能幫助分析人員找到什麼是顯著的結果，但它并不能告訴你結果是對還是錯。

b）經過設計的實驗：某些實驗設計中摻雜了人為的成分，這樣的實驗結果也常常不可信。

5. 抛棄了不該忽略的案例

不同的人生态度可以有同樣精彩的人生，不同的資料也可能蘊含同樣重要的價值。異常值可能會導緻錯誤的結果(比如價格中的小數點标錯了)，但也可能是問題的答案(比如臭氧洞)。是以需要仔細檢查這些異常。研究中最讓激動的話語不是“啊哈!”，而是“這就有點奇怪了……”資料中的不一緻性有可能會是解決問題的線索，深挖下去也許可以解決一個大的業務問題。

栗子：在直郵營銷中，在對家庭位址的合并和清洗過程中發現的資料不一緻，反而可能是新的營銷機會。

解決方法：可視化可以幫助你分析大量的假設是否成立。

6. 輕信預測

事物都是不斷發展變化的。人們常常在經驗不多的時候輕易得出一些結論。即便發現了一些反例，人們也不太願意放棄原先的想法。

次元咒語：在低次元上的直覺，放在高次元空間中，常常是毫無意義的。

解決方法：進化論。沒有正确的結論，隻有越來越準确的結論。

7. 試圖回答所有問題

“不知道”是一種有意義的模型結果。模型也許無法100%準确回答問題，但至少可以幫我們估計出現某種結果的可能性。

本文轉自d1net（轉載）

我們在資料挖掘中迷失了什麼？

繼續閱讀

Codeforces 1417 D. Make Them Equal(思維+構造)

查找算法之二分查找查找算法之二分查找

查找算法學習之二分查找（Python版本）——BinarySearch

CQ V1.0分詞bates(基于雙數組tire樹)—應該是目前最快的中文分詞算法

Command Network(POJ 3164)---定根最小樹形圖模闆題題目描述輸入格式輸出格式輸入樣例輸出樣例分析源程式

開源低帶寬語音編解碼器

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

C++ 第十五周報告1--《冒泡法排序》

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希