天天看點

似然函數,最大似然估計,以及與條件機率,貝葉斯機率差別簡要說明

目錄

1. 似然(likehood)與最大似然估計

2. 條件機率(conditional probability),全機率(total probability),和貝葉斯機率(Bayes probability)

2.1 聯合機率==>條件機率:

2.2 聯合機率==>全機率公式:

2.3 條件機率+聯合機率==>貝葉斯機率公式:

1. 似然(likehood)與最大似然估計

似然從字面很難了解什麼意思,這裡借助了知乎https://www.zhihu.com/question/54082000和quora上的一個回答 What is the difference between probability and likelihood?的回答。不僅回答了似然是什麼還指出了似然和機率的差別。

這裡作簡短概括:

似然和機率同宗同源,像一個雙胞胎一樣,是以很容易搞混:

連結中給了一個不錯的比喻,将機率密度函數和似然函數之間的關系,類比成 幂函數和 指數函數之間的關系。假設一個函數為 

似然函數,最大似然估計,以及與條件機率,貝葉斯機率差別簡要說明

 ,這個函數包含兩個變量,a,b。如果你令b=2,這樣你就得到了一個關于a的二次幂函數,即 

似然函數,最大似然估計,以及與條件機率,貝葉斯機率差別簡要說明

。當你令a=2時,你将得到一個關于b的指數函數,即 

似然函數,最大似然估計,以及與條件機率,貝葉斯機率差別簡要說明

如此似然和機率他們倆又性格各異(互逆):

1.1  似然是知道事件結果推參數。舉個栗子:如曆史上,美國數學家Feller為了得知抛硬币正反的機率參數,一口氣抛了10000次硬币,得到結果是4972次正面和5021次反面(事件結果),由此可得到一個硬币正反的機率參數的簡單結果:正面機率約0.497,反面約為0.502。

.1.2  機率是知道參數推事件結果。舉個栗子:小明知道了Feller大神的實驗結果(機率參數),想要算一下抛硬币連續兩次正再連續兩次反面額機率,那麼就是0.497*0.497*0.502*0.502 機率約為0.062(事件結果)。

那麼最大似然估計又是什麼呢:

回到上面的1.1例子中。令Feller的抛硬币實驗次數為N次,其中事件結果是m次為正面,n次為反面(這裡有N=m+n):

那麼得到了該次抛硬币實驗的似然函數:

似然函數,最大似然估計,以及與條件機率,貝葉斯機率差別簡要說明

                                                                                                             (式1.1)

其中x代表這次抛硬币N次的事件的已知結果,

似然函數,最大似然估計,以及與條件機率,貝葉斯機率差別簡要說明

為正面朝上的機率參數。求這個似然函數得最大值就是最大似然估計,它代表了有怎樣的參數才最有可能複現這次已知事件。Feller抛硬币次數太多,不便于計算,我們取其中10次抛硬币結果:

x=HHTTHTHHHH,這是一個正反序列,套用(式1.1),可得

似然函數,最大似然估計,以及與條件機率,貝葉斯機率差別簡要說明

,這是一個一進制多次幂函數,繪制如圖1.1函數圖:

似然函數,最大似然估計,以及與條件機率,貝葉斯機率差別簡要說明

圖1.1 抛硬币似然函數

這個曲線就是θ的似然函數,通過了解在某一假設下(假設參數),已知事件資料發生的可能性,來評價哪一個假設更接近θ的真實值。如圖1.1所示,最有可能的假設是在θ=0.7的時候取到。常識告訴我們θ=0.5應該是最合理的,但是,0.7卻是最大似然估計的取值。因為這裡僅僅試驗了一次,得到的樣本太少,是以最終求出的最大似然值偏差較大,如果經過多次試驗,擴充樣本空間,則最終求得的最大似然估計将接近真實值0.5。在這篇部落格中有詳細的過程,就不再贅述。

2. 條件機率(conditional probability),全機率(total probability),和貝葉斯機率(Bayes probability)

巧了,這三個哥們也是同宗同源,三者都是由聯合機率一步一步推導出來的。

2.1 聯合機率==>條件機率:

我們知道:

A和B是兩個獨立事件,有如下AB同時發生的機率公式(即聯合機率公式):

似然函數,最大似然估計,以及與條件機率,貝葉斯機率差別簡要說明
似然函數,最大似然估計,以及與條件機率,貝葉斯機率差別簡要說明

易推出條件機率公式⇒

似然函數,最大似然估計,以及與條件機率,貝葉斯機率差別簡要說明

                                                      (式2.1)

這叫做在B事件發生條件下,A事件的發生機率。

2.2 聯合機率==>全機率公式:

聯合機率變一下:

似然函數,最大似然估計,以及與條件機率,貝葉斯機率差別簡要說明

似然函數,最大似然估計,以及與條件機率,貝葉斯機率差別簡要說明

是兩個獨立事件,其中

似然函數,最大似然估計,以及與條件機率,貝葉斯機率差別簡要說明

是由一系列小事件組成

似然函數,最大似然估計,以及與條件機率,貝葉斯機率差別簡要說明

,,這裡引入概念完備事件組:

似然函數,最大似然估計,以及與條件機率,貝葉斯機率差別簡要說明

,即

似然函數,最大似然估計,以及與條件機率,貝葉斯機率差別簡要說明

是這次實驗的完整的樣本空間

似然函數,最大似然估計,以及與條件機率,貝葉斯機率差別簡要說明

,那麼整體看

似然函數,最大似然估計,以及與條件機率,貝葉斯機率差別簡要說明

,B雖然由很多小事件組成,但是不管此刻哪件小事件發生,此刻必有唯一的

似然函數,最大似然估計,以及與條件機率,貝葉斯機率差別簡要說明

發生。滿足完備事件組的條件為:

n個事件兩兩互斥,且這n個事件的并是Ω,則稱這n個事件為完備事件組。

那麼此時聯合機率公式如下:

似然函數,最大似然估計,以及與條件機率,貝葉斯機率差別簡要說明

,由于

似然函數,最大似然估計,以及與條件機率,貝葉斯機率差別簡要說明

,則公式左邊為可以寫作

似然函數,最大似然估計,以及與條件機率,貝葉斯機率差別簡要說明

,于是有全機率公式:

似然函數,最大似然估計,以及與條件機率,貝葉斯機率差別簡要說明

                                                                                          (式2.2)

全機率公式的意義在于,當直接計算

似然函數,最大似然估計,以及與條件機率,貝葉斯機率差別簡要說明

較為困難,而

似然函數,最大似然估計,以及與條件機率,貝葉斯機率差別簡要說明

的計算較為簡單時,可以利用全機率公式計算

似然函數,最大似然估計,以及與條件機率,貝葉斯機率差別簡要說明

。思想就是,将事件

似然函數,最大似然估計,以及與條件機率,貝葉斯機率差別簡要說明

分解成幾個小事件,通過求小事件的機率,然後相加進而求得事件

似然函數,最大似然估計,以及與條件機率,貝葉斯機率差別簡要說明

的機率,而将事件

似然函數,最大似然估計,以及與條件機率,貝葉斯機率差別簡要說明

進行分割的時候,不是直接對

似然函數,最大似然估計,以及與條件機率,貝葉斯機率差別簡要說明

進行分割,而是先找到樣本空間為

似然函數,最大似然估計,以及與條件機率,貝葉斯機率差別簡要說明
似然函數,最大似然估計,以及與條件機率,貝葉斯機率差別簡要說明

的完備事件組

似然函數,最大似然估計,以及與條件機率,貝葉斯機率差別簡要說明

,對

似然函數,最大似然估計,以及與條件機率,貝葉斯機率差別簡要說明

進行劃分:

似然函數,最大似然估計,以及與條件機率,貝葉斯機率差別簡要說明

舉個栗子:

發報台分别以機率0.6和0.4發出信号“0”和“1”。由于通信系統受到幹擾,當發出信号“0”時,收報台分别以機率0.8和0.2受到信号“0”和“1”;又當發出信号“1”時,收報台分别以機率0.9和0.1收到信号“1”和“0”。求:

1.收報台收到信号“0”的機率?

2. 當收報台收到信号“0”時,發報台确系發出“0”的機率?

第一個問題是全機率問題,求得是某事件發生機率,這裡電報台發電報事件為完備事件組

似然函數,最大似然估計,以及與條件機率,貝葉斯機率差別簡要說明

,其中

似然函數,最大似然估計,以及與條件機率,貝葉斯機率差別簡要說明

似然函數,最大似然估計,以及與條件機率,貝葉斯機率差別簡要說明

分别為0.6和0.4。關系的問題為收報台收到信号“0”的機率,令為事件

似然函數,最大似然估計,以及與條件機率,貝葉斯機率差別簡要說明

,套用(式2.2),可得:

似然函數,最大似然估計,以及與條件機率,貝葉斯機率差別簡要說明

第二個問題是貝葉斯問題,是已知事件發生,求事件發生原因的機率,這兩個問題互逆。

2.3 條件機率+聯合機率==>貝葉斯機率公式:

 與全機率公式解決的問題相反,貝葉斯公式是建立在條件機率的基礎上尋找事件發生的原因(即事件A已經發生的條件下,分割其中的小事件

似然函數,最大似然估計,以及與條件機率,貝葉斯機率差別簡要說明

發生的機率),

似然函數,最大似然估計,以及與條件機率,貝葉斯機率差別簡要說明

是樣本空間Ω的完備事件組,則對任一事件

似然函數,最大似然估計,以及與條件機率,貝葉斯機率差別簡要說明

似然函數,最大似然估計,以及與條件機率,貝葉斯機率差別簡要說明

),由   條件機率公式(式2.1)和全機率公式(式2.2)有某事件

似然函數,最大似然估計,以及與條件機率,貝葉斯機率差別簡要說明

前提下的事件

似然函數,最大似然估計,以及與條件機率,貝葉斯機率差別簡要說明

的:

似然函數,最大似然估計,以及與條件機率,貝葉斯機率差別簡要說明

                                                                                           (式2.3)

等式最右邊的分子是

似然函數,最大似然估計,以及與條件機率,貝葉斯機率差別簡要說明

的聯合機率,分母是

似然函數,最大似然估計,以及與條件機率,貝葉斯機率差別簡要說明

,而等式左邊這個“條件機率”就是貝葉斯機率。通俗解釋就是,事件

似然函數,最大似然估計,以及與條件機率,貝葉斯機率差別簡要說明

的誘因是

似然函數,最大似然估計,以及與條件機率,貝葉斯機率差別簡要說明

的機率為

似然函數,最大似然估計,以及與條件機率,貝葉斯機率差別簡要說明

似然函數,最大似然估計,以及與條件機率,貝葉斯機率差別簡要說明

同時發生機率除以事件

似然函數,最大似然估計,以及與條件機率,貝葉斯機率差別簡要說明

的發生機率,這就是貝葉斯機率公式(式2.3)。

繼續閱讀