天天看點

萬物皆可“貝葉斯”:不确定性時代的知識哲學

萬物皆可“貝葉斯”:不确定性時代的知識哲學

蘇婉/溫 你正在走在暮色的街區,突然看到一個毛茸茸的東西在草叢裡移動。接近夜幕降臨,光線不好,你憑直覺判斷,這麼大的機率就是你經常遇到海狸貓。你不停地觀察,你看到它小而尖尖的耳朵,你加深了這是海狸的信念。然後它的條紋尾巴出來,蜷縮起來,搖曳着,你幾乎可以肯定是那隻貓。最後,毛茸茸的身影閃過,消失在灌木叢中。你回到家,告訴你的家人,"我可能在兩天前遇到了那隻大海狸!""

一個典型的貝葉斯可能會告訴你,這種不尋常的觀察和推測反映了你非凡的大腦剛剛進行了複雜的貝葉斯計算:你根據自己的直覺,根據依次出現的視覺資訊,對特定現象的原因做出判斷。

萬物皆可“貝葉斯”:不确定性時代的知識哲學

貝葉斯遊戲:數學、思維和人工智能

作者: 黃麗源

發行商: 圖靈|人民郵電出版社

轉換器:方形字元串

釋出日期: 2021-3

18世紀英國哲學家休谟在他的懷疑論中指出,"我們沒有辦法知道因果關系,隻有某些事情總是聯系在一起的。"這種"相關的非因果關系"思想反映在他1748年關于神迹的文章中,其中他對見證人的見證永遠無法證明神迹(即基督的複活),這可能導緻托馬斯·J·托馬斯·貝葉斯(Thomas J. Thomas Bayes)指出:我們真的不能通過觀察結果來找出真正的原因嗎?如果我們預先形成一個信念,需要觀察多少證據來确定它的正确性?

在他的文章中,貝葉斯想象自己背對着一張桌子上有一個白球,然後讓他的助手随機地把黑球放在桌子上,問白球相對于黑球的位置。白球的位置是黑球處于相對位置的原因,在已知黑球相對于白球位置的情況下确定白球可能位置的過程,是可以回答休谟問題的典型反向機率計算過程。對于貝葉斯來說,隻要放置的黑球數量足夠,白球絕對位置的歸納推測就可以無限接近準确,是以,由此産生的原因的歸納思維模式不僅有用,而且不像休谟所說的那樣,不是非理性的。

貝葉斯的主要業務是神學,他不會想到他自己沒有信心發表高調的機率論(盡管他的結論與他認為奇迹可以用足夠的證據反過來證明的信念并不沖突),他身後的數學世界經曆了争議和沉默,最後, 兩個世紀後,計算機一出現就重生了,在人類越來越依賴和擅長處理大量資料的時代,他命名的定理被廣泛用于醫學診斷、機器學習、認知神經科學等前沿領域。這個原本粗糙的理論雛形,經過許多天才的修改和推廣,現在被看作一種學說、一種知識哲學,甚至是一種抽象的模型,可以概括人腦的認知工作。

貝葉斯博弈:數學,思維和人工智能是一本解釋貝葉斯定理"宇宙的普遍性"的書。該書的原始法語版本"知識公式:基于貝葉斯定理的統一知識哲學"(La Formuledusavoir:Unephilo Sophieunifeedusavodéde deBayes)由畢業于巴黎綜合技術學院的年輕亞裔法國數學家L'Nguyen HOANG撰寫。他現在是瑞士洛桑聯邦理工學院的研究員。

黃麗媛長期專注于人工智能的倫理學,是一位活躍而受歡迎的科普視訊部落客,在數學,計算機科學和實體學領域經營着法語視訊頻道"Sci-ence4All"。在他的書中,他熱情洋溢地贊揚了貝葉斯公式的實際有效性和哲學啟迪,稱其為"智慧方程"。這本書告訴我們,從貝葉斯公式中衍生出來的貝葉斯方法和貝葉斯知識哲學就像一個可以傳播到世界各地的思想密碼,我們甚至可以說一切都可以是"貝葉斯"。

貝葉斯公式用于描述事件發生在已知條件下的機率,其表達式為P(A|B)=P(A)P(B|A)/P(B)。我們可以将貝葉斯公式解釋為一種基于可靠證據(例如觀察,資料,資訊)計算信念(例如,假設,命題或論點)有效性的方法,簡單地作為原始信念和新證據,具有改進的新信念。其中P代表機率,A代表原始信念,B代表新證據或新條件。P(A)是A的真實機率,也稱為先驗機率,這是貝葉斯的"主觀偏差",但它|也是貝葉斯反對者用來攻擊貝葉斯統計科學的"弱點";A)A為真B的機率,又稱思維實驗的出現或"需要一些想象"。這個公式實際上是由法國數學家皮埃爾-西蒙·拉普拉斯(Pierre-Simon Laplace)獲得的,他被認為是貝葉斯主義之父,以重新發現貝葉斯機率。也許,就像微積分公式的全名牛頓-萊布尼茨公式一樣,貝葉斯公式至少應該被稱為貝葉斯-拉普拉斯公式。

如何應用貝葉斯公式?以藥物為例。醫學檢查通常檢測呈陽性或陰性,以确定受試者是否生病。在現實世界中,測試很少是完全可靠的,并且會發生假陽性和假陰性。假設一個75歲的人在75歲時測試了癌症發病率為1%的癌症,當他測試呈陽性時,這個人可能會絕望地覺得他必須寫遺囑。但測試通常并不完全可靠,假設準确率為99%,這意味着100名癌症患者中有99名檢測呈陽性,而100名健康人中有99名檢測呈陰性。如果檢測呈陽性,癌症的真正可能性是多少?貝葉斯定理告訴你,如果他隻測試一次并得到陽性結果,他隻有50%的機會患癌症。

貝葉斯公式如何計算50%的相對樂觀機率?P(A)的先驗機率,或75歲時癌症發病率的1%;P( B |答)在癌症的情況下,有99%的機會檢測呈陽性。是以P(A)乘以P(B|A) 等于 0.01 乘以 0.99 或 0.0099。分母P(B)是檢測結果為陽性的機率,包括真假,無論是否患有癌症,手術稍微複雜一些,結果為0.0198。最後P(A|B)=P(A)P(B|A)/P(B) 結果,即在 P(A| 檢測呈陽性的同時患癌症的機率B) 0.5,或50%。但如果第二次檢測結果仍然呈陽性,并且再次應用貝葉斯公式,則癌症的機率從50%增加到99%。我們看到第一次測試結果會影響第二次測試結果,這表明疊代貝葉斯定理可以逐漸産生更準确的資訊,這也表明任何醫學診斷都需要多次進行以防止誤診。

然而,這樣一個具有無限潛力的公式,卻經曆了被學術權威冷落的曆史。在統計學中,頻率主義者将貝葉斯主義作為激烈的競争對手。誕生于20世紀20年代的頻率主義實際上是我們在數學教科書中學到的最經典的統計架構。頻率主義假設機率是頻率的度量,強調當樣本量變得足夠大時,誤差逐漸消失。頻率主義的核心是使用p值來測試理論模型的可信度,這隻有在測試了足夠的新資料時才是科學的。

頻率主義在當時的基因研究中非常出色,更相信客觀性是唯一的黃金法則,并且非常反感貝葉斯主義,貝葉斯主義帶來了先驗機率,因為它相當于在發現之前給予理論主觀信心。他們将這種主觀性(作者在書中稱之為"偏見")視為洪水野獸,并認為包含主觀性的統計方法根本不是科學。

在整個20世紀中葉,"主觀"、"先驗"和"貝葉斯"等術語被逐出統計系,由頻率統計學家如埃貢·皮爾遜(Egon Pearson)和羅納德·費舍爾(Ronald Fisher)上司。Fisher是一位前醫學科學家,他曾使用貝葉斯定理來證明煙草在引起肺癌方面的危害,但從煙草業獲得資助的頻率學家Fisher指責該科學家未能遵循對照組并重複基于頻率的方法所需的實驗,然後颠倒因果順序, 這表明潛在的肺癌可能導緻人們吸煙。

然而,頻率主義也有不可避免的弱點。首先,p值可以通過大量的實驗來操縱,并且對于許多小機率事件的預測,例如地震,我們可以獲得的測量資料和實驗機會非常少。貝葉斯統計的神奇之處在于,當資料稀缺時,有可能接近準确的值。是以,在前計算機時代,當資訊更難收集和處理時,貝葉斯仍然是人們可以依賴的工具,因為他們試圖掌握罕見事件的不确定性。除了通過偏愛使用詞語來識别《聯邦人文科學集》的匿名作者的衆所周知的例子,以及搜尋天蠍座核潛艇在廣闊的大西洋中的位置之外,貝葉斯計算還被用來估計核電站發生重大事故的機率,預測火箭發射時發生重大事故的機率, 等等。

貝葉斯主義是一種機率哲學,它再次問,什麼是機率?頻率主義認為,機率取決于事件重複發生的頻率。但是當有一定程度的重複時,即當資料不足時,很難根據以前的模式準确預測未來。例如,如果将前一個事件的發生視為一組數組"1,2,4,8,16",則下一個發生的事件應為 32,并具有簡單的推理。但是,當數字表示圓的各個部分的數量,該圓分為由周長上2,3,4和5個點連接配接的幾條直線時,當點數為6時,出現的下一個副本數,即事件,應該是31,而不是32。

萬物皆可“貝葉斯”:不确定性時代的知識哲學

貝葉斯公式

在什麼時候,我們确信我們熟悉的規則會突然失效?大多數時候,人們不想面對這個問題。人類對确定性和控制的渴望寫在基因中。前科學時代的巫術是對确定性的終極追求。例如,根據前阿贊德時期的生活邏輯,小機率的厄運歸因于敵人故意強加的巫術,即追溯性确定性的外部原因。科學,尤其是機率認知,與巫術最大的差別在于,巫術是在接受不确定性存在的前提下,逐漸掌握一種動态的不确定性方法。一個好的預測應該能夠計算出上述序列中下一個項目的所有候選值發生的機率,這裡的機率應該是對這些可能性的置信度。這就是貝葉斯公式試圖實作的目标。

這本書強調,我們探索世界、積累知識的思維模式,很大程度上可以用貝葉斯定理來概括。例如,看到烏鴉是黑色的,推斷世界上所有的烏鴉都是黑色的,根據觀察結果做出假設并糾正它們,要麼通過增加推論是正确的機率,要麼通過削減它。貝葉斯的父親拉普拉斯曾經說過,機率論本質上隻是被轉化為計算的常識。它以一種準确的方式評估正常思維通過一種通常未被發現的直覺來感覺事物。

歸根結底,貝葉斯公式指向一種知識哲學,作者甚至認為"理性"可以歸因于貝葉斯公式的應用,是以可以稱之為貝葉斯主義。貝葉斯主義是假設所有"現實"的模型,理論或概念都隻不過是信仰,虛構或詩歌,特别指出"所有模型都是錯誤的";貝葉斯比波普爾的僞證理論更準确地定義了科學。

貝葉斯在今天顯得尤為重要,随着計算機性能的提高,資料收集和處理技術已經遠遠超過了人腦,商業、政策等領域都更加依賴大資料分析的結果,"技術的演進讓我們重新審視貝葉斯公式及其在知識建設中的地位。

貝葉斯計算對于減少繁文缛節并在分析大量資料時保持小規模特别有用。從天體實體學和航空航天,到基因組測序和蛋白質研究,從醫學中的癌症可追溯性和病毒檢測到計算機科學中的圖像識别和資訊加密,從保險,廣告,物流到社會政治領域的選舉和資源配置設定。貝葉斯應用無處不在。

除了應用純數學架構和尖端技術之外,貝葉斯哲學非常适合作為思考個人生活快速變化的時代的指南。貝葉斯哲學反映了人類對不确定性的焦慮,并通過接受不确定性,大膽地做出直覺假設同時防止過度自信,并保持新證據更新以保持自己在尋找答案來應對不确定性。正如諾貝爾實體學獎得主費曼曾經說過的那樣:"我可以忍受懷疑、不确定和無知......我對每個問題的确定性或高或低水準有一些類似的答案和一些合理的信念,但我并不完全确定任何事情。"

貝葉斯并非沒有缺陷。雖然它給了主觀性一個地方,但如果主觀起點是僞科學或謠言,那麼就有可能援引可疑的證據來支援甚至加強這種可疑的信念。但貝葉斯主義最強大的方面在于其哲學包容性,強調"一片不相容模型的森林比其中的每一棵樹都更聰明。""

"根據貝葉斯定理,沒有一個理論是完美的,"書中說。相反,這是一項未完成的工作,總是在錘擊和測試的過程中。"貝葉斯狀态是一種信念和懷疑之間的平衡狀态,在這種狀态下,人們不能輕易地被說服謠言,可以擺脫厄運,或者可以勇敢地捍衛不公正。貝葉斯公式可能并不完美,但貝葉斯主義也許是最适合這個不确定時代的知識哲學。