似然函數，最大似然估計，以及與條件機率，貝葉斯機率差別簡要說明

1. 似然（likehood）與最大似然估計

2. 條件機率(conditional probability)，全機率（total probability），和貝葉斯機率(Bayes probability)

2.1 聯合機率==>條件機率：

2.2 聯合機率==>全機率公式：

2.3 條件機率+聯合機率==>貝葉斯機率公式：

1. 似然（likehood）與最大似然估計

似然從字面很難了解什麼意思，這裡借助了知乎https://www.zhihu.com/question/54082000和quora上的一個回答 What is the difference between probability and likelihood?的回答。不僅回答了似然是什麼還指出了似然和機率的差別。

這裡作簡短概括：

似然和機率同宗同源，像一個雙胞胎一樣，是以很容易搞混：

連結中給了一個不錯的比喻，将機率密度函數和似然函數之間的關系，類比成幂函數和指數函數之間的關系。假設一個函數為

似然函數，最大似然估計，以及與條件機率，貝葉斯機率差別簡要說明

，這個函數包含兩個變量，a，b。如果你令b=2，這樣你就得到了一個關于a的二次幂函數，即

似然函數，最大似然估計，以及與條件機率，貝葉斯機率差別簡要說明

。當你令a=2時，你将得到一個關于b的指數函數，即

似然函數，最大似然估計，以及與條件機率，貝葉斯機率差別簡要說明

。

如此似然和機率他們倆又性格各異（互逆）：

1.1 似然是知道事件結果推參數。舉個栗子：如曆史上，美國數學家Feller為了得知抛硬币正反的機率參數，一口氣抛了10000次硬币，得到結果是4972次正面和5021次反面（事件結果），由此可得到一個硬币正反的機率參數的簡單結果：正面機率約0.497,反面約為0.502。

.1.2 機率是知道參數推事件結果。舉個栗子：小明知道了Feller大神的實驗結果（機率參數），想要算一下抛硬币連續兩次正再連續兩次反面額機率，那麼就是0.497*0.497*0.502*0.502 機率約為0.062（事件結果）。

那麼最大似然估計又是什麼呢：

回到上面的1.1例子中。令Feller的抛硬币實驗次數為N次，其中事件結果是m次為正面，n次為反面（這裡有N=m+n）：

那麼得到了該次抛硬币實驗的似然函數：

似然函數，最大似然估計，以及與條件機率，貝葉斯機率差別簡要說明

（式1.1）

其中x代表這次抛硬币N次的事件的已知結果，

似然函數，最大似然估計，以及與條件機率，貝葉斯機率差別簡要說明

為正面朝上的機率參數。求這個似然函數得最大值就是最大似然估計，它代表了有怎樣的參數才最有可能複現這次已知事件。Feller抛硬币次數太多，不便于計算，我們取其中10次抛硬币結果：

x=HHTTHTHHHH，這是一個正反序列，套用（式1.1），可得

似然函數，最大似然估計，以及與條件機率，貝葉斯機率差別簡要說明

，這是一個一進制多次幂函數，繪制如圖1.1函數圖：

似然函數，最大似然估計，以及與條件機率，貝葉斯機率差別簡要說明

圖1.1 抛硬币似然函數

這個曲線就是θ的似然函數，通過了解在某一假設下（假設參數），已知事件資料發生的可能性，來評價哪一個假設更接近θ的真實值。如圖1.1所示，最有可能的假設是在θ=0.7的時候取到。常識告訴我們θ=0.5應該是最合理的，但是，0.7卻是最大似然估計的取值。因為這裡僅僅試驗了一次，得到的樣本太少，是以最終求出的最大似然值偏差較大，如果經過多次試驗，擴充樣本空間，則最終求得的最大似然估計将接近真實值0.5。在這篇部落格中有詳細的過程，就不再贅述。

2. 條件機率(conditional probability)，全機率（total probability），和貝葉斯機率(Bayes probability)

巧了，這三個哥們也是同宗同源，三者都是由聯合機率一步一步推導出來的。

2.1 聯合機率==>條件機率：

我們知道：

A和Ｂ是兩個獨立事件，有如下AB同時發生的機率公式（即聯合機率公式）:

似然函數，最大似然估計，以及與條件機率，貝葉斯機率差別簡要說明

易推出條件機率公式⇒

似然函數，最大似然估計，以及與條件機率，貝葉斯機率差別簡要說明

（式2.1）

這叫做在B事件發生條件下，A事件的發生機率。

2.2 聯合機率==>全機率公式：

聯合機率變一下：

似然函數，最大似然估計，以及與條件機率，貝葉斯機率差別簡要說明

和

似然函數，最大似然估計，以及與條件機率，貝葉斯機率差別簡要說明

是兩個獨立事件，其中

似然函數，最大似然估計，以及與條件機率，貝葉斯機率差別簡要說明

是由一系列小事件組成

似然函數，最大似然估計，以及與條件機率，貝葉斯機率差別簡要說明

，，這裡引入概念完備事件組：

似然函數，最大似然估計，以及與條件機率，貝葉斯機率差別簡要說明

，即

似然函數，最大似然估計，以及與條件機率，貝葉斯機率差別簡要說明

是這次實驗的完整的樣本空間

似然函數，最大似然估計，以及與條件機率，貝葉斯機率差別簡要說明

，那麼整體看

似然函數，最大似然估計，以及與條件機率，貝葉斯機率差別簡要說明

，B雖然由很多小事件組成，但是不管此刻哪件小事件發生，此刻必有唯一的

似然函數，最大似然估計，以及與條件機率，貝葉斯機率差別簡要說明

發生。滿足完備事件組的條件為：

n個事件兩兩互斥，且這n個事件的并是Ω，則稱這n個事件為完備事件組。

那麼此時聯合機率公式如下：

似然函數，最大似然估計，以及與條件機率，貝葉斯機率差別簡要說明

，由于

似然函數，最大似然估計，以及與條件機率，貝葉斯機率差別簡要說明

，則公式左邊為可以寫作

似然函數，最大似然估計，以及與條件機率，貝葉斯機率差別簡要說明

，于是有全機率公式：

似然函數，最大似然估計，以及與條件機率，貝葉斯機率差別簡要說明

（式2.2）

全機率公式的意義在于，當直接計算

似然函數，最大似然估計，以及與條件機率，貝葉斯機率差別簡要說明

較為困難,而

似然函數，最大似然估計，以及與條件機率，貝葉斯機率差別簡要說明

的計算較為簡單時，可以利用全機率公式計算

似然函數，最大似然估計，以及與條件機率，貝葉斯機率差別簡要說明

。思想就是，将事件

似然函數，最大似然估計，以及與條件機率，貝葉斯機率差別簡要說明

分解成幾個小事件，通過求小事件的機率，然後相加進而求得事件

似然函數，最大似然估計，以及與條件機率，貝葉斯機率差別簡要說明

的機率，而将事件

似然函數，最大似然估計，以及與條件機率，貝葉斯機率差別簡要說明

進行分割的時候，不是直接對

似然函數，最大似然估計，以及與條件機率，貝葉斯機率差別簡要說明

進行分割，而是先找到樣本空間為

似然函數，最大似然估計，以及與條件機率，貝葉斯機率差別簡要說明

的完備事件組

似然函數，最大似然估計，以及與條件機率，貝葉斯機率差別簡要說明

，對

似然函數，最大似然估計，以及與條件機率，貝葉斯機率差別簡要說明

進行劃分：

似然函數，最大似然估計，以及與條件機率，貝葉斯機率差別簡要說明

。

舉個栗子:

發報台分别以機率0.6和0.4發出信号“0”和“1”。由于通信系統受到幹擾，當發出信号“0”時，收報台分别以機率0.8和0.2受到信号“0”和“1”；又當發出信号“1”時，收報台分别以機率0.9和0.1收到信号“1”和“0”。求:

1.收報台收到信号“0”的機率?

2. 當收報台收到信号“0”時，發報台确系發出“0”的機率?

第一個問題是全機率問題，求得是某事件發生機率，這裡電報台發電報事件為完備事件組

似然函數，最大似然估計，以及與條件機率，貝葉斯機率差別簡要說明

，其中

似然函數，最大似然估計，以及與條件機率，貝葉斯機率差別簡要說明

，

似然函數，最大似然估計，以及與條件機率，貝葉斯機率差別簡要說明

分别為0.6和0.4。關系的問題為收報台收到信号“0”的機率，令為事件

似然函數，最大似然估計，以及與條件機率，貝葉斯機率差別簡要說明

，套用（式2.2），可得：

似然函數，最大似然估計，以及與條件機率，貝葉斯機率差別簡要說明

第二個問題是貝葉斯問題，是已知事件發生，求事件發生原因的機率，這兩個問題互逆。

2.3 條件機率+聯合機率==>貝葉斯機率公式：

與全機率公式解決的問題相反，貝葉斯公式是建立在條件機率的基礎上尋找事件發生的原因（即事件A已經發生的條件下，分割其中的小事件

似然函數，最大似然估計，以及與條件機率，貝葉斯機率差別簡要說明

發生的機率），

似然函數，最大似然估計，以及與條件機率，貝葉斯機率差別簡要說明

是樣本空間Ω的完備事件組，則對任一事件

似然函數，最大似然估計，以及與條件機率，貝葉斯機率差別簡要說明

（

似然函數，最大似然估計，以及與條件機率，貝葉斯機率差別簡要說明

),由條件機率公式（式2.1）和全機率公式（式2.2）有某事件

似然函數，最大似然估計，以及與條件機率，貝葉斯機率差別簡要說明

前提下的事件

似然函數，最大似然估計，以及與條件機率，貝葉斯機率差別簡要說明

的：

似然函數，最大似然估計，以及與條件機率，貝葉斯機率差別簡要說明

（式2.3）

等式最右邊的分子是

似然函數，最大似然估計，以及與條件機率，貝葉斯機率差別簡要說明

的聯合機率，分母是

似然函數，最大似然估計，以及與條件機率，貝葉斯機率差別簡要說明

，而等式左邊這個“條件機率”就是貝葉斯機率。通俗解釋就是，事件

似然函數，最大似然估計，以及與條件機率，貝葉斯機率差別簡要說明

的誘因是

似然函數，最大似然估計，以及與條件機率，貝葉斯機率差別簡要說明

的機率為

似然函數，最大似然估計，以及與條件機率，貝葉斯機率差別簡要說明

和

似然函數，最大似然估計，以及與條件機率，貝葉斯機率差別簡要說明

同時發生機率除以事件

似然函數，最大似然估計，以及與條件機率，貝葉斯機率差別簡要說明

的發生機率，這就是貝葉斯機率公式（式2.3）。

似然函數，最大似然估計，以及與條件機率，貝葉斯機率差別簡要說明

1. 似然（likehood）與最大似然估計

2. 條件機率(conditional probability)，全機率（total probability），和貝葉斯機率(Bayes probability)

2.1 聯合機率==>條件機率：

2.2 聯合機率==>全機率公式：

2.3 條件機率+聯合機率==>貝葉斯機率公式：

繼續閱讀

詳解最大似然估計（MLE）、最大後驗機率估計（MAP），以及貝葉斯公式的了解

參數估計：最大似然、貝葉斯與最大後驗

Compute Inverse Gamma PDF and CDF in MATLAB

[JZOJ5519] Hello my friend

【Codeforces 678E】【JZOJ 4648】錦标賽

POJ 3071 Football【機率DP】題目連結思路AC代碼

lightOJ 1248 - Dice (III) 機率DP

lightoj 1064 - Throwing Dice 簡單DP

UVa 10759 Dice Throwing (機率DP)Sample Input Output for Sample Input

MLE到EM算法reference

Java實作樸素貝葉斯分類器

[CF 335E]Counting Skyscrapers題解翻譯

CF280C Game on Tree（期望的線性性）

Gaussian discriminant analysis and Gaussian Mixture Model

機率練習 (16.04.30)

Human-level concept learning through probabilistic program induction