1. 伯努利分布
伯努利分布(Bernoulli distribution)又名兩點分布或0-1分布,介紹伯努利分布前首先需要引入伯努利試驗(Bernoulli trial)。伯努利試驗都可以表達為“是或否”的問題。例如,抛一次硬币是正面向上嗎?剛出生的小孩是個女孩嗎?等等
- 伯努利試驗是隻有兩種可能結果的單次随機試驗,即對于一個随機變量X而言:
- 如果試驗E是一個伯努利試驗,将E獨立重複地進行n次,則稱這一串重複的獨立試驗為n重伯努利試驗。
- 進行一次伯努利試驗,成功(X=1)機率為p(0<=p<=1),失敗(X=0)機率為1-p,則稱随機變量X服從伯努利分布。伯努利分布是離散型機率分布,其機率品質函數為:
2. 二項分布
二項分布(Binomial distribution)是n重伯努利試驗成功次數的離散機率分布。
- 如果試驗E是一個n重伯努利試驗,每次伯努利試驗的成功機率為p,X代表成功的次數,則X的機率分布是二項分布,記為X~B(n,p),其機率品質函數為 顯然,
- 從定義可以看出,伯努利分布是二項分布在n=1時的特例
- 二項分布名稱的由來,是由于其機率品質函數中使用了二項系數 ,該系數是二項式定理中的系數,二項式定理由牛頓提出:
- 二項分布的典型例子是扔硬币,硬币正面朝上機率為p, 重複扔n次硬币,k次為正面的機率即為一個二項分布機率。
3. 多項分布
多項式分布(Multinomial Distribution)是二項式分布的推廣。二項式做n次伯努利實驗,規定了每次試驗的結果隻有兩個,如果現在還是做n次試驗,隻不過每次試驗的結果可以有多m個,且m個結果發生的機率互斥且和為1,則發生其中一個結果X次的機率就是多項式分布。
- 扔骰子是典型的多項式分布。扔骰子,不同于扔硬币,骰子有6個面對應6個不同的點數,這樣單次每個點數朝上的機率都是1/6(對應p1~p6,它們的值不一定都是1/6,隻要和為1且互斥即可,比如一個形狀不規則的骰子),重複扔n次,如果問有k次都是點數6朝上的機率就是
- 多項式分布一般的機率品質函數為:
4. 貝塔分布
在介紹貝塔分布(Beta distribution)之前,需要先明确一下先驗機率、後驗機率、似然函數以及共轭分布的概念。好了,有了以上先驗知識後,終于可以引入貝塔分布啦!!首先,考慮一點,在試驗資料比較少的情況下,直接用最大似然法估計二項分布的參數可能會出現過拟合的現象(比如,扔硬币三次都是正面,那麼最大似然法預測以後的所有抛硬币結果都是正面)。為了避免這種情況的發生,可以考慮引入先驗機率分布 來控制參數 ,防止出現過拟合現象。那麼,問題現在轉為如何選擇
- 通俗的講,先驗機率就是事情尚未發生前,我們對該事發生機率的估計。利用過去曆史資料計算得到的先驗機率,稱為客觀先驗機率; 當曆史資料無從取得或資料不完全時,憑人們的主觀經驗來判斷而得到的先驗機率,稱為主觀先驗機率。例如抛一枚硬币頭向上的機率為0.5,這就是主觀先驗機率。
- 後驗機率是指通過調查或其它方式擷取新的附加資訊,利用貝葉斯公式對先驗機率進行修正,而後得到的機率。
- 先驗機率和後驗機率的差別:先驗機率不是根據有關自然狀态的全部資料測定的,而隻是利用現有的材料(主要是曆史資料)計算的;後驗機率使用了有關自然狀态更加全面的資料,既有先驗機率資料,也有補充資料。另外一種表述:先驗機率是在缺乏某個事實的情況下描述一個變量;而後驗機率(Probability of outcomes of an experiment after it has been performed and a certain event has occured.)是在考慮了一個事實之後的條件機率。
- 似然函數
- 共轭分布(conjugacy):後驗機率分布函數與先驗機率分布函數具有相同形式
!
先驗機率和後驗機率的關系為:
二項分布的似然函數為(就是二項分布除歸一化參數之外的後面那部分,似然函數之是以不是pdf,是因為它不需要歸一化): 如果選擇的先驗機率 也與 和 次方德乘積的關系,那麼後驗機率分布的函數形式就會跟它的先驗函數形式一樣了。具體來說,選擇prior的形式是 ,那麼posterior就會變成 這個樣子了( 為pdf的歸一化參數),是以posterior和prior具有相同的函數形式(都是 也與 和次方的乘積),這樣先驗機率與後驗機率就是共轭分布了。
是以,我們選擇了貝塔分布作為先驗機率,其機率分布函數為:
,其中
5. 狄利克雷分布
狄利克雷分布(Dirichlet distribution)是多項分布的共轭分布,也就是它與多項分布具有相同形式的分布函數。
- 機率分布函數為:
6. 後記
本篇博文隻是将伯努利分布、二項分布、多項分布、貝塔分布和狄利克雷分布做了簡單的介紹,其中涉及到大量的機率基礎和高等數學的知識,文中的介紹隻是粗淺的把這些分布的概念作了大概介紹,沒有對這些分布的産生曆史做介紹。我想,更好的介紹方式,應是從數學史的角度,将這幾項分布的發現按照曆史規律來展現,這樣會更直覺、形象。後續再補吧!