天天看點

機率、似然與極大似然估計

今天來學習極大似然估計這個頗為抽象的内容。

1、似然與機率的概念

二者看似相近,實則不同。在統計學中,似然函數(likelihood function,通常簡寫為likelihood,似然)是一個重要内容,在非正式場合似然和機率(Probability)幾乎是一對同義詞,但是在統計學中似然和機率卻是兩個不同的概念。

機率是在特定環境下某件事情發生的可能性,也就是結果沒有産生之前依據環境所對應的參數來預測某件事情發生的可能性。比如抛硬币,抛之前并不知道最後是哪一面朝上,但是根據硬币的性質我們可以推測任何一面朝上的可能性均為50%,這個機率隻有在抛硬币之前才是有意義的,抛完硬币後的結果(可能性)便是确定的。也就是說,機率是對事件發生可能性的推測或認知,是已知的。

而似然剛好相反,是在确定的結果下去推測産生這個結果的可能環境(參數)。還是抛硬币的例子,假設随機抛擲一枚硬币1,000次,結果500次人頭朝上,500次數字朝上(實際情況一般不會這麼理想,這裡隻是舉個例子),我們很容易判斷這是一枚标準的硬币,兩面朝上的機率均為50%,這個過程就是運用出現的結果來判斷這個事情本身的性質(參數),也就是似然。

通過上面兩段描述,可以準确的看出二者不同點:機率描述的是在一定條件下某個事件發生的可能性,機率越大說明這件事情越可能會發生;而似然描述的是結果已知的情況下,該事件在不同條件下發生的可能性,似然函數的值越大說明該事件在對應的條件下發生的可能性越大。

如果結果和似然是針對相同的事件而言,二者在值上是相等的。如果用 θ表示環境對應的參數,x表示結果,那麼機率可以表示為:

機率、似然與極大似然估計

,這是條件機率的表達方式,可了解為在θ的條件下發生x的機率。對應的,似然可以表示為:

機率、似然與極大似然估計

,可了解為已知結果為x,對應的環境參數θ的可能性機率。

二者值雖然相等,但其意義不同:分别從不同角度來描述一件事情。

在機器學習領域,我們更關注的是似然函數的最大值,我們需要根據已知事件來找出産生這種結果最有可能的條件,目的是根據這個最有可能的條件去推測未知事件的機率。

2、對數化的似然函數

實際問題往往要比抛一次硬币複雜得多,會涉及到多個獨立事件,在似然函數的表達式中通常都會出現連乘:

機率、似然與極大似然估計

對多項乘積的求導往往非常複雜,但是對于多項求和的求導卻要簡單的多,對數函數不改變原函數的單調性和極值位置,而且根據對數函數的性質可以将乘積轉換為加減式,這可以簡化求導的過程:

機率、似然與極大似然估計

在機器學習的公式推導中,經常能看到類似的轉化。

3、極大似然估計

隻是一種機率論在統計學的應用,它是參數估計的方法之一。說的是已知某個随機樣本滿足某種機率分布,但是其中具體的參數不清楚,參數估計就是通過若幹次試驗,觀察其結果,利用結果推出參數的大概值。極大似然估計是建立在這樣的思想上:已知某個參數能使這個樣本出現的機率最大,我們當然不會再去選擇其他小機率的樣本,是以幹脆就把這個參數作為估計的真實值。

求極大似然函數估計值的一般步驟:

(1) 寫出似然函數;

(2) 對似然函數取對數,并整理;

(3) 求導數;

(4) 解似然方程 。

4、極大似然估計舉例

1)問題提出:學生身高問題

我們需要調查我們學校的男生和女生的身高分布。 假設你在校園裡随便找了100個男生和100個女生。他們共200個人。将他們按照性别劃分為兩組,然後先統計抽樣得到的100個男生的身高。假設他們的身高是服從高斯分布的。但是這個分布的均值μ和方差∂2我們不知道,這兩個參數就是我們要估計的。記作θ=[μ, ∂]T。

  問題:我們知道樣本所服從的機率分布的模型和一些樣本,而不知道該模型中的參數。

2)估計方法

根據問題,已知的條件有:

a:樣本服從的分布模型

b:随機抽取的若幹樣本

求解:通過極大似然估計求解模型的參數

求解方法:

根據極大似然的求解方法,如下:

(1)列出似然函數

樣本集:X={x1,x2,…,xN}, N=100

機率密度:p(xi|θ)是抽到男生i(的身高)的機率

考慮到樣本獨立且同分布,是以同時抽到這100個男生的機率就是他們各自機率的乘積,就是從分布為p(x|θ)的總樣本集中抽取到這100個樣本的機率,也就是樣本集X中各個樣本的聯合機率,用下式表示:

機率、似然與極大似然估計

這個機率反映了,在機率密度函數的參數是θ時,得到X這組樣本的機率。 需要找到一個參數θ,其對應的似然函數L(θ)最大,也就是說抽到這100個男生(的身高)機率最大。這個叫做θ的最大似然估計量,記為:

機率、似然與極大似然估計

(2) 對似然函數取對數,并整理

機率、似然與極大似然估計

(3) 求導數,令導數為0,得到似然方程。

(4) 解似然方程,得到的參數即為所求。

文章參考:

1、http://fangs.in/post/thinkstats/likelihood/

2、https://www.cnblogs.com/Gabby/p/5344658.html

繼續閱讀