天天看點

小白之通俗易懂的貝葉斯定理貝葉斯定理的産生以及意義什麼是貝葉斯定理?貝葉斯定理的應用案例貝葉斯定理套路生活中的貝葉斯思維

小白之通俗易懂的貝葉斯定理

  • 貝葉斯定理的産生以及意義
  • 什麼是貝葉斯定理?
  • 貝葉斯定理的應用案例
  • 貝葉斯定理套路
  • 生活中的貝葉斯思維

轉載自:https://mp.weixin.qq.com/s/lR3eeSWYHJDAJ9kJUzXc7w

貝葉斯定理的産生以及意義

1、貝葉斯定理的産生來源

  • 英國數學家托馬斯·貝葉斯(Thomas Bayes)在1763年發表的一篇論文中,首先提出了這個定理。而這篇論文是在他死後才由他的一位朋友發表出來的。在這篇論文中,他為了解決一個“逆向機率”問題,而提出了貝葉斯定理。
  • 在貝葉斯寫這篇文章之前,人們已經能夠計算正向機率,比如杜蕾斯舉辦了一個抽獎,抽獎桶裡有10個球,其中2個白球,8個黑球,抽到白球就算你中獎。你伸手進去随便摸出1顆球,摸出中獎球的機率是多大。根據頻率機率的計算公式,你可以輕松的知道中獎的機率是2/10。
  • 而貝葉斯在他的文章中是為了解決一個“逆機率”的問題。同樣以抽獎為例,我們并不知道抽獎桶裡有什麼,而是摸出一個球,通過觀察這個球的顔色,來預測這個桶裡裡白色球和黑色球的比例。
  • 這個預測其實就可以用貝葉斯定理來做。貝葉斯當時的論文隻是對“逆機率”這個問題的一個直接的求解嘗試,這哥們當時并不清楚這裡面這裡面包含着的深刻思想。然而後來,貝葉斯定理席卷了機率論,并将應用延伸到各個問題領域。可以說,所有需要作出機率預測的地方都可以見到貝葉斯定理的影子,特别地,貝葉斯是機器學習的核心方法之一。

2、為什麼貝葉斯定理在現實生活中這麼有用呢?

  • 這是因為現實生活中的問題,大部分都是像上面的逆機率問題。生活中絕大多數決策面臨的資訊都是不完全的,我們手中隻有有限的資訊。既然無法得到全面的資訊,我們就應該在資訊有限的情況下,盡可能做出一個最優的預測。
  • 比如,天氣預報說,明天降雨的機率是30%。這是什麼意思呢?因為我們無法像計算頻率機率那樣,重複地把明天過上100次,然後計算出大約有30次會下雨,是以隻能利用有限的資訊(過去天氣的測量資料),采用貝葉斯定理來預測出明天下雨的機率是多少。
  • 同樣的,在現實世界中,我們每個人都需要預測。要想深入分析未來、思考是否買股票、政策給自己帶來哪些機遇、提出新産品構想,或者隻是計劃一周的飯菜。貝葉斯定理就是為了解決這些問題而誕生的,它可以根據過去的資料來預測出機率。貝葉斯定理的思考方式為我們提供了明顯有效的方法來幫助我們提供能力,以便更好地預測未來的商業、金融、以及日常生活。

3、貝葉斯定理有什麼用?在有限的資訊下,能夠幫助我們預測出機率。

什麼是貝葉斯定理?

貝葉斯定理公式如下:

小白之通俗易懂的貝葉斯定理貝葉斯定理的産生以及意義什麼是貝葉斯定理?貝葉斯定理的應用案例貝葉斯定理套路生活中的貝葉斯思維

貝葉斯定理其實就是下面圖檔中的機率公式,這裡先不講這個公式,而是重點關注它的使用價值,因為隻有了解了它的使用意義,你才會更有興趣去學習它。其實,我和你一樣,不喜歡公式。我們還是從一個例子開始聊起。

我的朋友小鹿說,他女神每次看到他的時候都會沖他笑,他想知道女神是不是喜歡他呢?誰讓我學過統計機率知識呢,下面我們一起用貝葉斯幫小鹿預測以下女神喜歡他的機率有多大,這樣小鹿就可以根據機率的大小來決定是否要表白女神。

首先,我們分析給定的已知資訊和未知資訊:

1)要求解的問題:女神喜歡你,記為A事件

2)已知條件:女神經常沖你笑,記為B事件

根據條件機率,P(A|B)是女神經常沖你笑這個B事件發生後女神喜歡你的機率(A事件)。

現在,我們來詳細解釋公式:

1)先驗機率

我們把P(A)稱為"先驗機率"(Prior probability),即在不知道B事件發生的前提下,我們對A事件發生機率的一個主觀判斷。這個例子裡就是在不知道女神經常對你笑的前提下,來主觀判斷出女神喜歡一個人的機率。這裡我們假設是50%,也就是有可能喜歡你,也有可能不喜歡還你的機率各是一半。

2)可能性函數

P(B|A)/P(B)稱為**“可能性函數”(Likelyhood),這是一個調整因子,即新資訊事件B的發生調整,作用是,使得先驗機率更接近真實機率。**

可能性函數你可以了解為新資訊過來後,對先驗機率的一個調整。比如上面的例子 在女神沒有對笑之前,你覺得女神喜歡你的機率50%(先驗機率/主管判斷),女生經常對你笑(調整因子/新的資訊),使得你覺得女神喜歡你的機率上升而超過50%(後驗機率);又比如我們剛開始看到“人工智能”這個資訊,你有自己的了解(先驗機率/主觀判斷),但是當你學習了一些資料分析,或者看了些這方面的書後(新的資訊),然後你根據掌握的最新資訊優化了自己之前的了解(可能性函數/調整因子),最後重新了解了“人工智能”這個資訊(後驗機率)

如果"可能性函數"P(B|A)/P(B)>1,意味着"先驗機率"被增強,事件A的發生的可能性變大;

如果"可能性函數"=1,意味着B事件無助于判斷事件A的可能性;

如果"可能性函數"<1,意味着"先驗機率"被削弱,事件A的可能性變小。

還是剛才的例子,根據女神經常沖你笑這個新的資訊,我調查走訪了女神的閨蜜,最後發現女神平日比較高冷,很少對人笑。是以我估計出"可能性函數"P(B|A)/P(B)=1.5(具體如何估計,省去1萬字,後面會有更詳細科學的例子)

3)後驗機率

P(A|B)稱為"後驗機率"(Posterior probability),即在B事件發生之後,我們對A事件機率的重新評估。這個例子裡就是在女神沖你笑後,對女神喜歡你的機率重新預測。

帶入貝葉斯公式計算出P(A|B)=P(A)* P(B|A)/P(B)=50% *1.5=75%

是以,女神經常沖你笑,喜歡上你的機率是75%。這說明,女神經常沖你笑這個新資訊的推斷能力很強,将50%的"先驗機率"一下子提高到了75%的"後驗機率"。

現在我們再來看一遍貝葉斯公式,你現在就能明白這個公式背後的最關鍵思想了:

我們先根據以往的經驗預估一個"先驗機率"P(A),然後加入新的資訊(實驗結果B),這樣有了新的資訊後,我們對事件A的預測就更加準确。

是以,貝葉斯定理可以了解成下面的式子:

後驗機率(新資訊出現後A發生的機率)=先驗機率(A發生的機率)x可能性函數(新資訊帶出現來的調整)

貝葉斯的底層思想就是:

如果我能掌握一個事情的全部資訊,我當然能計算出一個客觀機率(古典機率、正向機率)。可是生活中絕大多數決策面臨的資訊都是不全的,我們手中隻有有限的資訊。既然無法得到全面的資訊,我們就在資訊有限的情況下,盡可能做出一個好的預測。也就是,在主觀判斷的基礎上,可以先估計一個值(先驗機率),然後根據觀察的新資訊不斷修正(可能性函數)。

貝葉斯定理的應用案例

案例1:貝葉斯定理在做判斷上的應用

有兩個一模一樣的碗,1号碗裡有30個巧克力和10個水果糖,2号碗裡有20個巧克力和20個水果糖。然後把碗蓋住。随機選擇一個碗,從裡面摸出一個巧克力。

問題:這顆巧克力來自1号碗的機率是多少?

好了,下面我就用套路來解決這個問題,到最後我會給出這個套路。

第1步,分解問題

1)要求解的問題:取出的巧克力,來自1号碗的機率是多少?

來自1号碗記為事件A1,來自2号碗記為事件A2

取出的是巧克力,記為事件B,

那麼要求的問題就是P(A1|B),即取出的是巧克力,來自1号碗的機率

2)已知資訊:

1号碗裡有30個巧克力和10個水果糖

2号碗裡有20個巧克力和20個水果糖

取出的是巧克力

第2步,應用貝葉斯定理

1)求先驗機率

由于兩個碗是一樣的,是以在得到新資訊(取出是巧克力之前),這兩個碗被選中的機率相同,是以P(A1)=P(A2)=0.5,(其中A1表示來自1号碗,A2表示來自2号碗)

這個機率就是"先驗機率",即沒有做實驗之前,來自一号碗、二号碗的機率都是0.5。

2)求可能性函數

P(B|A1)/P(B)

其中,P(B|A1)表示從一号碗中(A1)取出巧克力(B)的機率。因為1号碗裡有10個水果糖和30個巧克力,是以P(B|A1)=30/(30+10)=75% 根據全機率公式,可以求得P(B)=P(B|A1)P(A1)+P(B|A2)P(A2)=62.5%

可能性函數P(B|A1)/P(B)=75%/62.5%=1.2 可能性函數>1.表示新資訊B對事情A1的可能性增強了。

3)代入貝葉斯公式求後驗機率

将上述計算結果,帶入貝葉斯定理,即可算出P(A1|B)=60%

這個例子中我們需要關注的是限制條件:抓出的是巧克力。如果沒有這個限制條件在,來自一号碗這件事的機率就是50%了,因為巧克力的分布不均把機率從50%提升到60%。

貝葉斯垃圾郵件過濾器

垃圾郵件是一種令人頭痛的問題,困擾着所有的網際網路使用者。全球垃圾郵件的高峰出現在2006年,那時候所有郵件中90%都是垃圾,2015年6月份全球垃圾郵件的比例數字首次降低到50%以下。

最初的垃圾郵件過濾是靠靜态關鍵詞加一些判斷條件來過濾,效果不好,漏網之魚多,冤枉的也不少。

2002年,Paul Graham提出使用"貝葉斯推斷"過濾垃圾郵件。他說,這樣做的效果,好得不可思議。1000封垃圾郵件可以過濾掉995封,且沒有一個誤判。因為典型的垃圾郵件詞彙在垃圾郵件中會以更高的頻率出現,是以在做貝葉斯公式計算時,肯定會被識别出來。之後用最高頻的15個垃圾詞彙做聯合機率計算,聯合機率的結果超過90%将說明它是垃圾郵件。用貝葉斯過濾器可以識别很多改寫過的垃圾郵件,而且錯判率非常低。甚至不要求對初始值有多麼精确,精度會在随後計算中逐漸逼近真實情況。

貝葉斯定理套路

貝葉斯定理應用的套路,你就更清楚了,會發現像國小生做應用題一樣簡單:

第1步. 分解問題

簡單來說就像做應用題的感覺,先列出解決這個問題所需要的一些條件,然後記清楚哪些是已知的,哪些是未知的。

1)要求解的問題是什麼?

識别出哪個是貝葉斯中的事件A(一般是想要知道的問題),哪個是事件B(一般是新的資訊,或者實驗結果)

2)已知條件是什麼?

第2步.應用貝葉斯定理

第3步.求貝葉斯公式中的2個名額

1)求先驗機率

2)求可能性函數

3)帶入貝葉斯公式求後驗機率

生活中的貝葉斯思維

貝葉斯定理與人腦的工作機制很像,這也是為什麼它能成為機器學習的基礎。

如果你仔細觀察小孩學習新東西的這個能力,會發現,很多東西根本就是看一遍就會。比如我3歲的外甥,看了我做俯卧撐的動作,也做了一次這個動作,雖然動作不标準,但是也是有模有樣。

同樣的,我告訴他一個新單詞,他一開始并不知道這個詞是什麼意思,但是他可以根據當時的情景,先來個猜測(先驗機率/主觀判斷)。一有機會,他就會在不同的場合說出這個詞,然後觀察你的反應。如果我告訴他用對了,他就會進一步記住這個詞的意思,如果我告訴他用錯了,他就會進行相應調整。(可能性函數/調整因子)。經過這樣反複的猜測、試探、調整主觀判斷,就是貝葉斯定理思維的過程。

同樣的,我們成人也在用貝葉斯思維來做出決策。比如,你和女神在聊天的時候,如果對方說出“雖然”兩個字,你大概就會猜測,對方後繼九成的可能性會說出“但是”。我們的大腦看起來就好像是天生在用貝葉斯定理,即根據生活的經曆有了主觀判斷(先驗機率),然後根據搜集新的資訊來修正(可能性函數/調整因子),最後做出高機率的預測(後驗機率)。

繼續閱讀