天天看點

機器學習和統計學的“愛恨情仇”可以結束了

機器學習和統計學的“愛恨情仇”可以結束了

       圖檔來自知乎

機器學習,是人工智能的一個子領域,主要關注于開發一些讓計算機可以自動“學習”的技術。更具體說,機器學習是一種用于建立資料集分析程式的方法。機器學習跟統計學有着重要的關系,因為這兩個領域都是研究資料分析,但是機器學習又不像統計學,機器學習關注的是計算實作的算法複雜度。

統計學,是在統計實踐的基礎上,自17世紀中葉産生并逐漸發展起來的一門社會學科。它是研究如何測定、收集、整理、歸納和分析反映客觀現象總體數量的資料,以便給出正确認識的方法論科學,被廣泛的應用在各門學科之上,從自然科學和社會科學到人文科學,甚至被用來工商業及政府的情報決策之上。

随着機器學習的不斷興起,處理資料的鼻祖統計學認為:模式識别和機器學習裡面全都是統計理論。但是機器學習者認為ml更強調algorithm-oriented(面向算法),而統計學的話更偏重于model-oriented(面向模型)。換言之,機器學習更加強調算法的結果要好,是以機器學習很關注損失函數(差不多就是描述預測與實際之間的偏差,跟殘差的概念有一點點像)。而統計學要先扔出來一大堆模型假設,然後站在模型上面通過嚴格的數學推導做出結果。

在整個曆史上,機器學習(ml)與統計學的關系一直是很僵硬的,就像一個男的不小心出現在前女友的婚禮招待會上,既不知如何對話,又痛苦地意識到潛在的尴尬。這是因為機器學習采用了許多統計方法,但從來沒有意圖取代統計學,甚至是維持原本統計學的基礎。然而,統計學家和ml從業者往往最終在一起工作或者從事類似的任務,并且想知道每一個問題。問題是“ <b>機器學習與統計學到底有哪些不同?</b>“這個問題現在已經問了幾十年了。

機器學習是一個混合領域,從各種領域擷取靈感和技術,這也是ml更加讓人難以了解的原因吧。由于統計學能被更好地了解為一個領域,而ml似乎又與之重疊,兩者之間的關系問題頻繁出現。已經給出了許多答案,從中立或不屑一顧:

·

“機器學習本質上是一種應用統計的形式”

“機器學習是被美化的統計學”

“機器學習本質就是将統計資料擴大為大資料”

“簡短的答案是沒有差別”

可疑或貶損的答案:

“機器學習是不能通過統計課程的計算機科學專業的人瞎搞出來的”。

“機器學習是統計學減去模型和假設的應用,是不科學的。

“我不知道機器學習在十年内會是什麼樣子,但無論如何,我相信統計學家們會嗚咽。”

關于機器學習和統計學,上面的答案有些口水仗的意思。更糟糕的是,哪些領域“擁有”什麼技術問題?邏輯回歸是統計學還是機器學習?如果在spark中實作又如何實作?回歸分析真的是機器學習嗎?我們已經看到許多答案,我們認為是誤導,不相幹,混亂,甚至是錯誤的。

我們(湯姆,機器學習從業人員,德魯,統計學家)已經合作了好幾年,互相觀察資料密集型項目的分析和解決問題的方法。我們花了幾個小時嘗試了解不同學科的思考過程并讨論差異。

正如我們所看到的,差異不僅僅是算法和經驗,而是目标和政策。這兩個領域都不是其他領域的一個子集,他們就像兩對老人坐在公園裡玩兩個不同的棋盤遊戲。這兩款遊戲都使用相同類型的棋盤和同一組棋子,但是每個棋子都以不同的規則落子,并且具有不同的目标,因為遊戲根本不同。

這個博文的目的就是幫助您解開統計學和機器學習的“愛恨情仇”。

統計:

統計學和機器學習都從資料建立模型,但是是為了不同的目的。統計學家主要關注使用一種稱為特殊類型的統計量的度量。這些度量最常見的是平均值和标準偏差。統計學家将這些統計資料用于幾個不同的目的,劃分領域的一種常見方式是描述性和推論性統計領域。

描述性統計資料涉及描述原始資料的結構,這些描述性統計資料提供了一個更簡單的方式來了解什麼是非常複雜的資料。

推理統計資料處理關于資料的陳述。該領域真正來自卡爾·皮爾遜(karl pearson),費雪(ra fisher)等人的開創性工作。推理統計試圖解決如下問題:

龍卷風庇護所的人的生存率要高于躲在橋下的人嗎?

通過考慮區域人口的樣本,總人口的估計數量是多少?

在未來的某一年,本市有多少人需要接受治療?

您的銀行賬戶應該有多少錢,才能夠支撐你每月的消費?

明天有多少人會在當地的雜貨店出現?

這些問題就是估計和預測,如果我們有完整的資訊,可能會準确計算這些值。但在現實世界中,總是有不确定性,這意味着你所做的任何預測都有錯誤的機會。

盡管有不确定性,但仍然需要做出決定,統計提供了制定更好決策的架構。為此,統計學家需要評估與各種結果相關的機率。為了做到這一點,統計人員開始使用模型。在統計中,模組化的目标是接近資料,然後了解資料的過程,最後通過了解資料的結果來回答你真正關心的問題。

在實踐中,統計學家經常進行簡單的分析,有些分析結果并不是真相。但基本思想是健全的,因為在分析中做出的每一個選擇都必須是可辯護的。

總之,統計學家主要關注模型的有效性、模型參數的準确估計和模型的推論。然而,對于未知的資料的預測,這不是統計學家的關注點。

機器學習:

機器學習的發展非常曲折,原來它是ai的一部分,關注所有人類智慧行為。在過去的幾十年中,它已經轉向工程/性能的關注。在機器學習中,主要任務是預測:為了預測而建立模型。我們暫時擱置機器學習的其他問題,因為預測分析是主要的子領域,并且這個領域經常被拿來與統計學比較。

在ml的預測分析中,每個示例都有一個标簽,根據問題類型,它可以是類的名稱(分類)或數值(回歸)。它建立一個模型,其目的是預測。具體來說,學習算法分析資料示例,并建立一個程式,給定一個新的未知的示例,這個示例可以準确預測。然後利用資料的另外一部分,驗證模型。或者,可以采用諸如引導或交叉驗證的方法以原則方式重用資料。

具有良好性能特征的模型可以預測哪些客戶是有價值的,哪些交易是欺詐性的,哪些客戶是良好的貸款風險,患者是否患有癌症等等。這一切都假定未來将與過去相似,這是假設一定程度的因果關系,當然,這種因果假設必須得到驗證。

請注意,與統計相反,這裡的目标是産生最佳的預測。ml開發者通常進行一些探索性資料分析,但隻能讓資料指導功能選擇和模型選擇,其目的是純粹的功能。沒有ml從業者準備證明模型的“有效性”,這在機器學習中沒有任何意義,因為該模型真的隻是對功能性能的輔助。機器學習的格言也可以是:模型的證明在測試集中。

這種方法對ml與統計數有一些重要的影響。

1.ml從業人員不用擔心模型假設或診斷。如果模型假設造成不良預測,則隻是一個問題。當然,從業者經常執行标準的探索性資料分析(eda)來指導模型類型的選擇。但是,由于測試設定的性能是模型品質的最終仲裁者。

2. 也許更重要的是,ml從業人員不用擔心假設被違反的情況,因為模型很可能依然有用。這種情況并不罕見。例如,樸素貝葉斯分類器背後的理論假設屬性—獨立性,但實際上它在包含依賴屬性。

3.通常,預測分析的目标是最終部署預測方法,以便決策自動化。是以,資料科學家必須牢記務實的計算問題:如何實作?它有多快?模型在哪裡擷取資料?最終決定是做什麼的?這樣的計算問題對于統計學家通常是不必要的。

對統計學家來說,機器學習可能看起來像一個工程學科。實質上,所有的ml技術都采用單一的診斷測試:在一個保留資料集上的預測性能。而且由于機器學習經常涉及大型資料集,是以ml從業者可以選擇非參數模型,這通常需要比參數模型更多的資料。

總結:

總而言之,統計與機器學習領域有很大的差別,如聚類,關聯規則,特征選擇,評價方法等。統計學和機器學習對資料科學都有很大的貢獻,但它們有不同的目标。雖然方法和推理可能重疊,但目的卻很少一樣。調用機器學習“應用統計”是誤導性的,對這兩個領域都是不利的。

機器學習通常被教授為計算機科學課程的一部分,統計學由專門數學系的一部分教授。在許多情況下,當提及完全相同的事情時,兩個領域都使用不同的術語。将兩組合在一起成為一個資料科學團隊或許可以創造一個非常有趣的團隊氛圍。

從根本上說,ml和統計數都靠資料解決問題。機器學習可能強調預測,統計可能更多地關注估計和推論。重要的是,兩者的對話可以帶來兩個方面的改善。例如,諸如正則化和重采樣等主題與兩種類型的問題都是相關的。

文章原标題《machine-learning-vs-statistics》,

作者:tom

fawcett

湯姆在“數學科學”雜志工作,在實際應用中運用20多年的機器學習和資料挖掘經驗。

drew

hardin

在計算機科學和統計學方面擁有廣泛的背景,德魯喜歡探索資料和發現見解。

譯者:袁虎 審閱:主題曲

繼續閱讀