天天看點

PRML-系列一之1.2

機率論

  模式識别領域中一個關鍵概念是不确定性。通過噪聲測量以及有限大小的資料集都會出現。機率論提供了不确定性量化和操縱統一的架構并形成模式識别的中心基礎之一。當與決策論(在1.5節中讨論)結合時,給出所有可獲得的資訊,我們就能夠得到最佳預測,即使這些資訊可能不完整或不明确的。

  我們通過考慮一個簡單的例子來介紹機率論的基本概念。想象一下,我們有兩個箱子,一紅一藍,紅色箱子中我們有2個蘋果和6個桔子,而在藍箱子中,我們有3個蘋果,1個桔子。如圖1.9。現在假設我們随機選取一個箱子并從這個箱子中随機選一個水果,觀察是何種水果後我們放回到原來的箱子裡。我們可以想像重複該過程多次。假設就是這麼做,我們挑紅箱子的次數是40%,我們挑藍箱子的次數是60%,而當我們從箱中取出一個水果時,等價地我們有可能選擇了箱子中其餘的所有水果。

PRML-系列一之1.2

  在這個例子中,選擇箱子的身份是一個随機變量,我們用B表示。這個随機變量可以取兩種可能值的一個,即r(對應于紅箱子)或b(對應于藍箱子)。同樣地,水果的身份也是随機變量并用F表示。它取a(蘋果)或o(橙色)的的任意一個。

  首先,我們将定義事件機率為整個試驗中事件發生的次數,在極限的狀态下試驗總次數趨于無窮大。是以,選擇紅色箱子的機率是4/10而選擇藍色箱子的機率是6/10。我們将機率寫為p(B= r)=4/10,p(B = b)=6/10。注意,根據定義機率必須位于區間[0,1]上。此外,如果事件是互相排斥的并且包括所有可能的結果(例如,在本試驗彙中箱子必須是紅色或藍色),那麼我們可以看到這些事件的機率必須加起來和為1。

  現在,我們可以提出這樣的問題:“挑到一個蘋果的總機率是多少?“,或者”假設我們已經選了桔子,那麼我們選擇的箱子是藍色的機率是多少?“。我們可以回答這樣的問題,以及在模式識别中與之相關的更複雜的問題,前提是我們具備了機率論的兩個基本規則,分别是求和規則和乘積規則。獲得了這些規則後,我們再回到水果箱子的例子。

  為了推導機率的規則,考慮稍微更一般的例子。圖1.10涉及兩個随機變量X和Y(可以是上面考慮的箱子和水果變量)。我們将假設X可以取xi的任一個值,其中i =1,, ,M而Y可以取yj的任一個值,其中j =1,, ,L。考慮N次試驗,我們采樣變量X和Y,并讓X取xi和Y取yj的試驗次數用nij表示。此外,讓X取xi的試驗次數(與Y的值不相關)用ci表示,并且類似地讓Y取yj的試驗次數用rj表示。

PRML-系列一之1.2

  X取值xi和Y取值yj的機率寫作P(X =xi,Y = yj),它被稱為X =xi和Y =yj的聯合機率。它由落到i,j單元的點的數目給出,該單元占所有點的一部分,是以

PRML-系列一之1.2

這裡,我們正在隐含地考慮極限N→∞。同樣,X取xi的機率寫作p(X=xi)并且是由落在第i列的所有點得出的,使得

PRML-系列一之1.2

因為圖1.10中i列的執行個體數量剛好是該列每個單元中執行個體數目的總和,是以我們有

PRML-系列一之1.2

,是以,從(1.5)和(1.6),我們有

PRML-系列一之1.2

這是機率的加法規則。注意,ρ(X =xi)有時也被稱為邊緣機率,因為它是通過邊緣化,或求和其他變量(在此情況下Y)得到的。

  如果我們隻考慮X=xi的執行個體,那麼Y= yj的執行個體部分寫做P(Y= yi| X=xi),它被稱為給定X = xi,Y=yj的條件機率。通過找出第i列落在i,j單元的點可以得出,是以

PRML-系列一之1.2

從(1.5)(1.6)和(1.8),我們可以得到下面的關系

PRML-系列一之1.2

這是機率的乘積規則。

  目前為止,我們已經十分仔細地得出了随機變量和随機變量所取值之間的差別。是以B取值r的機率表示為p(B=r)。雖然這有助于避免歧義,但是它産生了十分繁瑣的符号。在許多情況下不需要這麼教條。取而代之,我們可以簡單地寫p(B)表示随機變量B的一個分布,或者p(r)表示估計特定值r的分布,前提是上下文的解釋很清晰。

  用這個更加緊湊的符号,我們能重寫機率論的兩個基本規則

PRML-系列一之1.2

這裡P(X,Y)是聯合機率,并用語言表達為“X和Y的機率“。類似地,P(Y| X)是條件機率,并且語言表達為“給定X,Y的機率”,而P(X)是邊緣機率,僅僅是“X的機率”。這兩個簡單的規則形成機率的基礎,我們在整本書中都會使用到它。

  從乘積規則,連同對稱屬性p(X,Y)= P(Y,X),我們立刻得到條件機率之間的關系

PRML-系列一之1.2

這被稱為貝葉斯定理并在模式識别和機器學習中起很重要的作用。使用求和規則,貝葉斯定理中的分母可以用分子的數量和來表示

PRML-系列一之1.2

我們可以将貝葉斯定理中的分母看做歸一化常數進而保證(1.12)左邊的條件機率總和等于一。

  在圖1.11中,我們顯示了涉及兩個變量的聯合分布例子來說明邊緣和條件分布的概念。這裡有限的N=60個資料點的樣本已經從聯合分布中描繪出來,并示于左上角。在右上角是每個Y值資料點的直方圖。根據機率的定義,這部分在N→∞時應該等于相應的機率p(Y)。我們可以将直方圖看做模拟機率分布的一種簡單方法,隻給出有限數量的描繪該分布點的數量。從資料中模拟分布是統計模式識别的心髒,在這本書會找到好多相關細節。圖1.11中其餘的兩幅圖顯示ρ(X)和p(X |Y=1)的直方圖估計。

  現在我們回到水果箱的例子。就目前而言,我們應再次明确差別随機變量和他們的執行個體。我們已經看到,選擇紅色或藍色的機率如下:

PRML-系列一之1.2

注意他們滿足p(B=r)+p(B=b)=1。

PRML-系列一之1.2

  現在假設我們随機選擇一個箱子,并且它是藍箱子。然後取到一個蘋果的機率隻是在藍箱子中蘋果數即3/4,是以P(F = a | B= b)=3/4。事實上,我們可以寫出水果類型的所有四個條件機率,假設已經選中一個箱子

PRML-系列一之1.2

注意,這些機率被歸一化了,是以

PRML-系列一之1.2

  現在我們可以根據機率的求和和乘積規則來估計取出一個蘋果的機率

PRML-系列一之1.2

接着,應用求和規則,p(F = o) = 1 − 11/20 = 9/20。

  相反,假設我們被告知已經選中了水果并且它是一個橙色,而我們想知道它來自哪個箱子。這要求我們估計水果作為條件箱子的機率分布,而(1.16) - (1.19)給出的是箱子作為條件水果的機率分布。通過使用貝葉斯定理,我們可以解決這個反轉的條件機率問題

PRML-系列一之1.2

根據求和規則,p(B = b|F = o) = 1 − 2/3 = 1/3。

  我們可以按如下提供貝葉斯定理的一個重要解釋。如果我們要求箱子在取水果之前被告知,那麼我們可用的最完整資訊是由機率p(B)提供的。我們稱這個為先驗機率,因為它是我們觀察到水果身份之前可用的機率。一旦我們被告知水果是桔子,那麼我們就可以使用貝葉斯定理來計算p(B | F)的機率,我們稱之為後驗機率,因為它是我們觀察到F之後得到的機率。.注意,在這個例子中,選擇紅箱子的先驗機率是4/10,是以我們更可能選擇藍箱子而不是紅箱子。然而,一旦我們已經觀察到取出的水果是桔子,我們發現現在紅色箱子的後驗機率是2/3,進而使現在我們更可能選到紅箱子。這一結果符合我們的直覺,因為紅箱子中桔子的比例要比藍箱子高得多,是以水果是桔子的觀察值提供了顯著的有利于紅色箱子的證據。事實上,證據是足夠強以至于它超過了先驗并且更可能選擇紅盒子而不是藍色的。

  最後,我們注意到,如果兩個變量的聯合分布因子分解成邊緣的乘積,使得p(X,Y)= p(X)p(Y),則X和Y是獨立的。根據乘積規則,我們看到p(Y| X)= p(Y),是以給定X,Y的條件分布是獨立于X的值。例如,在我們的水果箱例子中,如果每個盒子包含相同的蘋果和桔子,則p(F | B)= p(F)中,以使選擇的機率,也就是說,蘋果與選擇哪個箱子沒有關系。