所謂資料科學家,是指那些能夠利用最合适的工具與方法完成自身工作的專業人士。最出色的資料科學家能夠将自己完整的知識集與模式發現方案充分利用于統計分析工作當中。
我們應該如何對科學技術資料的積累總和進行查閱?通常來講,這要用到所謂“進階分析”機制。這句話在表述上故意顯得比較模糊,其核心在于将一切技術手段納入其中——包括統計分析、資料挖掘、可預測模型、自然語言處理以及支援向量機等等。
在一般人的印象中,“資料挖掘”的涵蓋範圍很廣、大部分相關工作似乎都能劃歸其下,包括對于隐私侵犯的關注以及應用程式監控等等。不過在我看來,這相當于所有能在空中飛翔的鳥類都稱為“秃鹫”——明顯并不準确。究其原因,資料挖掘的指向對象為結構化資料,這類方案通常會涉及到具體的技術機制,例如回歸分析、決策樹等等,而且一般不會被用于對非結構化資料進行内容分析。
與之類似“機器學習”也被越來越多地提及并成為一種包羅萬象的概念。或者機器學習至少已經成為一種針對目前資料的便捷處理手段,科學家們用它來指代從新資料(大部分屬于非結構化資料)中自動擷取并發現知識與模式的尖端技術範疇。而人們對于機器學習定義的探尋似乎也延伸到了更為廣泛且界線模糊的領土之上。
這是我在最近閱讀了《了解機器學習:個人探索之路》一文後建立起來的印象。在這篇文章中,來自聖疊戈州立大學與true bearing analytics公司的joseph r. barr以作者的角度探讨了機器學習的發展曆史以及他個人在學習這一課題過程中的感悟。他指出,“将機器學習、資料挖掘、可預測性分析以及進階分析或多或少視為同義詞其實并無不妥。” 我不知道将機器學習與前面提到的其它技術相提并論是否具有實際意義。正如前面已經提到,機器學習主要用于非結構化資料,而資料挖掘則專門針對結構化資料集。此外,與資料挖掘類似、機器學習關心的主要是曆史資料當中的多樣化形式,相比之下預測性分析更側重于尋找其中适用于未來新資料收集測試機制的可預測模式。然而機器學習、資料挖掘乃至可預測性分析的針對範圍較窄,進階分析則是一項更為寬泛的概念、足以将前面幾項全部容納進來。
在我看來,機器學習一隻腳立足于資料科學、另一方面則以計算機科學為基礎。基于這樣的了解,我認同barr在文章中所言:“機器學習發展自多個彼此不一定存在交集的數學學科,其中最值得注意的子類包括數理統計、計算與算法、資訊理論以及數學優化等……在過去,機器學習是與人工智能緊密結合在一起的……大多數與機器學習相關的議題主要關注凸包的理論可能性、組合、凸度與優化、統計、資訊以及計算。對于這份名單,我會向其中添加額外的三個條目:啟發法、經驗與應用。”
這實在是一門相當艱深的學科,值得我們深入探索與了解。通過以上描述,我們可以看到機器學習擁有一條令人心生畏懼的學習曲線,大家需要在大學課堂以及實驗室當中耗費多年才能窺探其門徑。這實際上也是barr這篇文章的核心所在:他本人就是一位機器學習教學兼資料科學專家,而他面臨的難題在于如何為未來的資料科學家們設定一個正确的機器學習定義。
定義範圍的變化表明這些挑戰已經給機器學習本身帶來影響與反映。在機器學習這一宏觀概念之下,不同學科以創新方式不斷交叉而又互相促進,而這将拓展每一位資料科學家的思維方式并決定他們在使用這一術語時為機器學習設立的概念定義。
原文釋出時間為:2014-06-28
本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号