<b>2.2 統計分析與資料挖掘的主要差別</b>
統計分析與資料挖掘有什麼差別呢?從實踐應用和商業實戰的角度來看,這個問題并沒有很大的意義,正如“不管白貓還是黑貓,抓住老鼠才是好貓”一樣,在企業的商業實戰中,資料分析師分析問題、解決問題時,首先考慮的是思路,其次才會對與思路比對的分析挖掘技術進行篩選,而不是先考慮到底是用統計技術還是用資料挖掘技術來解決這個問題。
從兩者的理論來源來看,它們在很多情況下都是同根同源的。比如,在屬于典型的資料挖掘技術的決策樹裡,cart、chaid等理論和方法都是基于統計理論所發展和延伸的;并且資料挖掘中的技術有相當比例是用統計學中的多變量分析來支撐的。
相對于傳統的統計分析技術,資料挖掘有如下一些特點:
資料挖掘特别擅長于處理大資料,尤其是幾十萬行、幾百萬行,甚至更多更大的資料。
資料挖掘在實踐應用中一般都會借助資料挖掘工具,而這些挖掘工具的使用,很多時候并不需要特别專業的統計背景作為必要條件。不過,需要強調的是基本的統計知識和技能是必需的。
在資訊化時代,資料分析應用的趨勢是從大型資料庫中抓取資料,并通過專業軟體進行分析,是以資料挖掘工具的應用更加符合企業實踐和實戰的需要。
從操作者來看,資料挖掘技術更多是企業的資料分析師、業務分析師在使用,而不是統計學家用于檢測。
更主流的觀點普遍認為,資料挖掘是統計分析技術的延伸和發展,如果一定要加以區分,它們又有哪些差別呢?資料挖掘在如下幾個方面與統計分析形成了比較明顯的差異:
統計分析的基礎之一就是機率論,在對資料進行統計分析時,分析人員常常需要對資料分布和變量間的關系做假設,确定用什麼機率函數來描述變量間的關系,以及如何檢驗參數的統計顯著性;但是,在資料挖掘的應用中,分析人員不需要對資料分布做任何假設,資料挖掘中的算法會自動尋找變量間的關系。是以,相對于海量、雜亂的資料,資料挖掘技術有明顯的應用優勢。
統計分析在預測中的應用常表現為一個或一組函數關系式,而資料挖掘在預測應用中的重點在于預測的結果,很多時候并不會從結果中産生明确的函數關系式,有時候甚至不知道到底是哪些變量在起作用,又是如何起作用的。最典型的例子就是“神經網絡”挖掘技術,它裡面的隐蔽層就是一個“黑箱”,沒有人能在所有的情況下讀懂裡面的非線性函數是如何對自變量進行組合的。在實踐應用中,這種情況常會讓習慣統計分析公式的分析師或者業務人員感到困惑,這也确實影響了模型在實踐應用中的可了解性和可接受度。不過,如果能換種思維方式,從實戰的角度考慮,隻要模型能正确預測客戶行為,能為精細化營運提供準确的細分人群和目标客戶,業務部門、營運部門不了解模型的技術細節,又有何不可呢?
在實踐應用中,統計分析常需要分析人員先做假設或判斷,然後利用資料分析技術來驗證該假設是否成立。但是,在資料挖掘中,分析人員并不需要對資料的内在關系做任何假設或判斷,而是會讓挖掘工具中的算法自動去尋找資料中隐藏的關系或規律。兩者的思維方式并不相同,這給資料挖掘帶來了更靈活、更寬廣的思路和舞台。
雖然上面詳細闡述了統計分析與資料挖掘的差別,但是在企業的實踐應用中,我們不應該硬性地把兩者割裂開來,也無法割裂,在實踐應用中,沒有哪個分析師會說,“我隻用資料挖掘技術來分析”,或者“我隻用統計分析技術來分析”。正确的思路和方法應該是:針對具體的業務分析需求,先确定分析思路,然後根據這個分析思路去挑選和比對合适的分析算法、分析技術,而且一個具體的分析需求一般都會有兩種以上不同的思路和算法可以去探索,最後可根據驗證的效果和資源比對等一系列因素進行綜合權衡,進而決定最終的思路、算法和解決方案。
鑒于實踐應用中,統計分析與資料挖掘技術并不能完全被割裂開來,并且本書側重于資料化營運的實踐分享。是以在後續各章節的讨論中,将不再人為地給一個算法、技術貼上“統計分析”或“資料挖掘”的标簽,後續各章節的技術分享和實戰應用舉例,都會本着針對不同的分析目的、項目類型來介紹主流的、有效的分析挖掘技術以及相應的特點和技巧。統計分析也罷,資料挖掘也好,隻要有價值,隻要在實戰中有效,都會是我們所關注的,都會是我們所要分析分享的。