天天看點

《貝葉斯思維:統計模組化的Python學習法》——1.5 曆時诠釋

本節書摘來異步社群《貝葉斯思維:統計模組化的python學習法》一書中的第1章,第1.5節,作者:【美】allen b. downey,更多章節内容可以通路雲栖社群“異步社群”公衆号檢視

還有另外一種了解貝葉斯定理的思路:它給我們提供的是一種根據資料集d的内容變化更新假設機率h的方法。

這種對貝葉斯定理的了解被稱為“曆時诠釋”。

“曆時”意味着某些事情随着時間而發生;在本例,即是假設的機率随着看到的新資料而變化。

在考慮h和d的情況下,貝葉斯定理的表達式可以改寫成:

在這種解釋裡,每項意義如下:

p(h)稱為先驗機率,即在得到新資料前某一假設的機率。

p(h |d)稱為後驗機率,即在看到新資料後,我們要計算的該假設的機率。

p(d|h)是該假設下得到這一資料的機率,稱為似然度。

p(d)是在任何假設下得到這一資料的機率,稱為标準化常量。

有些情況,我們可以基于現有背景資訊進行計算。比如在曲奇餅問題中,我們就将随機選中碗1或碗2的機率假設為均等。

在其他情況下,先驗機率是偏主觀性的;對某一先驗機率,理性派的人可能會有不同意見,或許由于他們使用不同的背景資訊做出判斷,或者因為他們針對相同的前提條件做出了不同的解讀。

似然度是貝葉斯計算中最簡單的部分,在曲奇餅問題中曲奇餅來自來自哪個碗,則我們就計算那個碗中香草曲奇餅的機率。

标準化常量則有些棘手,它被定義為在所有的假設條件下這一資料出現的機率,但因為考慮的正是最一般的情況,是以不容易确定這個常量在具體應用場合的現實意義。

最常見的,我們可以指定一組如下的假設集來簡化。

互斥的:集合中,至多一個假設為真。

完備的:集合中,至少一個假設必為真,且集合包含了所有的假設。

我使用suite這個詞來表示具備上述屬性的假設集。

在曲奇餅問題中,僅有兩個假設:餅幹來自碗1或者碗2,它們就是互斥的和完備的。

在本例中,我們可以用全機率公式計算p(d),即如果發生某一事件有互不容的兩個可能性,可以像下面這樣累加機率:

p(d) = p(b1)p(d|b1) + p(b2)p(d|b2)

代入餅幹問題中的實際值,得到:

p(d) = (1/2)(3/4) + (1/2)(1/2) = 5/8

我們早前心算得到的結果也是一樣的。