天天看點

伯努利分布、二項分布、多項分布、Beta分布、Dirichlet分布1. 伯努利分布2. 二項分布3. 多項分布4. 貝塔分布5. 狄利克雷分布6. 後記

1. 伯努利分布

伯努利分布(Bernoulli distribution)又名兩點分布或0-1分布,介紹伯努利分布前首先需要引入伯努利試驗(Bernoulli trial)。
  • 伯努利試驗是隻有兩種可能結果的單次随機試驗,即對于一個随機變量X而言:
伯努利分布、二項分布、多項分布、Beta分布、Dirichlet分布1. 伯努利分布2. 二項分布3. 多項分布4. 貝塔分布5. 狄利克雷分布6. 後記
伯努利分布、二項分布、多項分布、Beta分布、Dirichlet分布1. 伯努利分布2. 二項分布3. 多項分布4. 貝塔分布5. 狄利克雷分布6. 後記
伯努利試驗都可以表達為“是或否”的問題。例如,抛一次硬币是正面向上嗎?剛出生的小孩是個女孩嗎?等等
  • 如果試驗E是一個伯努利試驗,将E獨立重複地進行n次,則稱這一串重複的獨立試驗為n重伯努利試驗。
  • 進行一次伯努利試驗,成功(X=1)機率為p(0<=p<=1),失敗(X=0)機率為1-p,則稱随機變量X服從伯努利分布。伯努利分布是離散型機率分布,其機率品質函數為:
伯努利分布、二項分布、多項分布、Beta分布、Dirichlet分布1. 伯努利分布2. 二項分布3. 多項分布4. 貝塔分布5. 狄利克雷分布6. 後記

2. 二項分布

二項分布(Binomial distribution)是n重伯努利試驗成功次數的離散機率分布。
  • 如果試驗E是一個n重伯努利試驗,每次伯努利試驗的成功機率為p,X代表成功的次數,則X的機率分布是二項分布,記為X~B(n,p),其機率品質函數為
    伯努利分布、二項分布、多項分布、Beta分布、Dirichlet分布1. 伯努利分布2. 二項分布3. 多項分布4. 貝塔分布5. 狄利克雷分布6. 後記
    顯然,
    伯努利分布、二項分布、多項分布、Beta分布、Dirichlet分布1. 伯努利分布2. 二項分布3. 多項分布4. 貝塔分布5. 狄利克雷分布6. 後記
  • 從定義可以看出,伯努利分布是二項分布在n=1時的特例
  • 二項分布名稱的由來,是由于其機率品質函數中使用了二項系數
    伯努利分布、二項分布、多項分布、Beta分布、Dirichlet分布1. 伯努利分布2. 二項分布3. 多項分布4. 貝塔分布5. 狄利克雷分布6. 後記
    ,該系數是二項式定理中的系數,二項式定理由牛頓提出:
    伯努利分布、二項分布、多項分布、Beta分布、Dirichlet分布1. 伯努利分布2. 二項分布3. 多項分布4. 貝塔分布5. 狄利克雷分布6. 後記
  • 二項分布的典型例子是扔硬币,硬币正面朝上機率為p, 重複扔n次硬币,k次為正面的機率即為一個二項分布機率。

3. 多項分布

多項式分布(Multinomial Distribution)是二項式分布的推廣。二項式做n次伯努利實驗,規定了每次試驗的結果隻有兩個,如果現在還是做n次試驗,隻不過每次試驗的結果可以有多m個,且m個結果發生的機率互斥且和為1,則發生其中一個結果X次的機率就是多項式分布。
  • 扔骰子是典型的多項式分布。扔骰子,不同于扔硬币,骰子有6個面對應6個不同的點數,這樣單次每個點數朝上的機率都是1/6(對應p1~p6,它們的值不一定都是1/6,隻要和為1且互斥即可,比如一個形狀不規則的骰子),重複扔n次,如果問有k次都是點數6朝上的機率就是
    伯努利分布、二項分布、多項分布、Beta分布、Dirichlet分布1. 伯努利分布2. 二項分布3. 多項分布4. 貝塔分布5. 狄利克雷分布6. 後記
  • 多項式分布一般的機率品質函數為:
    伯努利分布、二項分布、多項分布、Beta分布、Dirichlet分布1. 伯努利分布2. 二項分布3. 多項分布4. 貝塔分布5. 狄利克雷分布6. 後記

4. 貝塔分布

在介紹貝塔分布(Beta distribution)之前,需要先明确一下先驗機率、後驗機率、似然函數以及共轭分布的概念。
  • 通俗的講,先驗機率就是事情尚未發生前,我們對該事發生機率的估計。利用過去曆史資料計算得到的先驗機率,稱為客觀先驗機率; 當曆史資料無從取得或資料不完全時,憑人們的主觀經驗來判斷而得到的先驗機率,稱為主觀先驗機率。例如抛一枚硬币頭向上的機率為0.5,這就是主觀先驗機率。
  • 後驗機率是指通過調查或其它方式擷取新的附加資訊,利用貝葉斯公式對先驗機率進行修正,而後得到的機率。
  • 先驗機率和後驗機率的差別:先驗機率不是根據有關自然狀态的全部資料測定的,而隻是利用現有的材料(主要是曆史資料)計算的;後驗機率使用了有關自然狀态更加全面的資料,既有先驗機率資料,也有補充資料。另外一種表述:先驗機率是在缺乏某個事實的情況下描述一個變量;而後驗機率(Probability of outcomes of an experiment after it has been performed and a certain event has occured.)是在考慮了一個事實之後的條件機率。
  • 似然函數
  • 共轭分布(conjugacy):後驗機率分布函數與先驗機率分布函數具有相同形式
好了,有了以上先驗知識後,終于可以引入貝塔分布啦!!首先,考慮一點,在試驗資料比較少的情況下,直接用最大似然法估計二項分布的參數可能會出現過拟合的現象(比如,扔硬币三次都是正面,那麼最大似然法預測以後的所有抛硬币結果都是正面)。為了避免這種情況的發生,可以考慮引入先驗機率分布
伯努利分布、二項分布、多項分布、Beta分布、Dirichlet分布1. 伯努利分布2. 二項分布3. 多項分布4. 貝塔分布5. 狄利克雷分布6. 後記
來控制參數
伯努利分布、二項分布、多項分布、Beta分布、Dirichlet分布1. 伯努利分布2. 二項分布3. 多項分布4. 貝塔分布5. 狄利克雷分布6. 後記
,防止出現過拟合現象。那麼,問題現在轉為如何選擇
伯努利分布、二項分布、多項分布、Beta分布、Dirichlet分布1. 伯努利分布2. 二項分布3. 多項分布4. 貝塔分布5. 狄利克雷分布6. 後記

先驗機率和後驗機率的關系為:

伯努利分布、二項分布、多項分布、Beta分布、Dirichlet分布1. 伯努利分布2. 二項分布3. 多項分布4. 貝塔分布5. 狄利克雷分布6. 後記
二項分布的似然函數為(就是二項分布除歸一化參數之外的後面那部分,似然函數之是以不是pdf,是因為它不需要歸一化):
伯努利分布、二項分布、多項分布、Beta分布、Dirichlet分布1. 伯努利分布2. 二項分布3. 多項分布4. 貝塔分布5. 狄利克雷分布6. 後記
如果選擇的先驗機率
伯努利分布、二項分布、多項分布、Beta分布、Dirichlet分布1. 伯努利分布2. 二項分布3. 多項分布4. 貝塔分布5. 狄利克雷分布6. 後記
也與
伯努利分布、二項分布、多項分布、Beta分布、Dirichlet分布1. 伯努利分布2. 二項分布3. 多項分布4. 貝塔分布5. 狄利克雷分布6. 後記
伯努利分布、二項分布、多項分布、Beta分布、Dirichlet分布1. 伯努利分布2. 二項分布3. 多項分布4. 貝塔分布5. 狄利克雷分布6. 後記
次方德乘積的關系,那麼後驗機率分布的函數形式就會跟它的先驗函數形式一樣了。具體來說,選擇prior的形式是
伯努利分布、二項分布、多項分布、Beta分布、Dirichlet分布1. 伯努利分布2. 二項分布3. 多項分布4. 貝塔分布5. 狄利克雷分布6. 後記
,那麼posterior就會變成
伯努利分布、二項分布、多項分布、Beta分布、Dirichlet分布1. 伯努利分布2. 二項分布3. 多項分布4. 貝塔分布5. 狄利克雷分布6. 後記
這個樣子了(
伯努利分布、二項分布、多項分布、Beta分布、Dirichlet分布1. 伯努利分布2. 二項分布3. 多項分布4. 貝塔分布5. 狄利克雷分布6. 後記
為pdf的歸一化參數),是以posterior和prior具有相同的函數形式(都是
伯努利分布、二項分布、多項分布、Beta分布、Dirichlet分布1. 伯努利分布2. 二項分布3. 多項分布4. 貝塔分布5. 狄利克雷分布6. 後記
也與
伯努利分布、二項分布、多項分布、Beta分布、Dirichlet分布1. 伯努利分布2. 二項分布3. 多項分布4. 貝塔分布5. 狄利克雷分布6. 後記
伯努利分布、二項分布、多項分布、Beta分布、Dirichlet分布1. 伯努利分布2. 二項分布3. 多項分布4. 貝塔分布5. 狄利克雷分布6. 後記

次方的乘積),這樣先驗機率與後驗機率就是共轭分布了。

是以,我們選擇了貝塔分布作為先驗機率,其機率分布函數為:

伯努利分布、二項分布、多項分布、Beta分布、Dirichlet分布1. 伯努利分布2. 二項分布3. 多項分布4. 貝塔分布5. 狄利克雷分布6. 後記
,其中
伯努利分布、二項分布、多項分布、Beta分布、Dirichlet分布1. 伯努利分布2. 二項分布3. 多項分布4. 貝塔分布5. 狄利克雷分布6. 後記

5. 狄利克雷分布

狄利克雷分布(Dirichlet distribution)是多項分布的共轭分布,也就是它與多項分布具有相同形式的分布函數。
  • 機率分布函數為:
    伯努利分布、二項分布、多項分布、Beta分布、Dirichlet分布1. 伯努利分布2. 二項分布3. 多項分布4. 貝塔分布5. 狄利克雷分布6. 後記

6. 後記

本篇博文隻是将伯努利分布、二項分布、多項分布、貝塔分布和狄利克雷分布做了簡單的介紹,其中涉及到大量的機率基礎和高等數學的知識,文中的介紹隻是粗淺的把這些分布的概念作了大概介紹,沒有對這些分布的産生曆史做介紹。我想,更好的介紹方式,應是從數學史的角度,将這幾項分布的發現按照曆史規律來展現,這樣會更直覺、形象。後續再補吧!

繼續閱讀