EM算法學習(一)

EM算法是英文expectation-maximization算法的英文簡寫,翻譯過來就是期望最大化算法,其實是一種根據求參的極大似然估計的一種疊代的優化政策,EM算法可以廣泛估計是因為他可以從非完整的資料集中對于參數進行極大似然的估計,這樣的方法對于處理殘缺資料,截尾資料和一些帶有噪聲的資料來說是很有效的.

在寫這篇文章之前,我看了很多篇部落格,學習了很多的知識,也參照了很多的資料,希望可以從EM算法的疊代優化理論和一般的步驟中出發,然後能夠舉一個例子來使我們了解這個EM算法,然後在對其收斂性進行證明,目的是為了說明EM算法每一次疊代都是能夠提高似然函數值然後收斂到一個穩定的點,再引出EM算法的收斂速度.

大概通過上述部分,我們可以得到基于其簡單,收斂,穩定上升的優勢,但是也會産生一些缺點,比如收斂速度過慢的加速方法等,在第二篇文章中将會介紹這個處理缺點的方法,然後會寫一些關于EM算法的重要應用,包括EM算法在二進制正态分布上的參數估計的應用,混合高斯分布參數估計方面的應用,以及EM算法在隐馬爾科夫模型上參數的應用(一種EM算法的特殊情形),希望通過這一系列的文章可以讓大家了解好EM算法的明顯優勢以及原理,讓我們開始吧!

背景:

極大似然估計和貝葉斯統計其實是作為現在的統計領域中非常熱門的領域了,其實來說他們的計算過程是有一定的相似成分的,比如極大似然函數估計在計算的方法上跟貝葉斯的後驗機率的計算是非常相似的,學過統計學習的我們知道,貝葉斯是分為兩種的大類的,一種是擁有顯式的後驗分布,這樣的一般用于簡單的似然函數,另外一種是資料添加的算法,有些時候我們的資料可能會存在缺失或者是似然函數不是顯性的,資料添加類在這時候就可以很好的應用,他可以将已經觀測到的資料基礎上加上一些”潛在資料”,進而使得變得更簡單,完成極大化的工作,然後我們常用的一種資料添加法其實就是我們今天介紹的EM算法.

EM算法是一種疊代的優化政策,他的計算方法是分為期望步(E步)和極大步(M步)的,是以這個算法的名字是這樣來的,EM算法受到了缺失算法的影響,最初就是為了解決上邊提到的資料缺失的問題,基本的思想就是首先根據已經觀測出來的資料估計出模型參數的值,然後再根據上一步估計出的參數值來估計缺失資料的值,然後再根據估計中缺失的資料加上之前的已經觀測到的資料重新在對參數值進行估計,然後反複的進行疊代,直到最後收斂,疊代結束.

而現在EM算法發展了幾十年了,在當時的資料快速增長得那個時代,那時候處理資料很困難,經常會出現資料缺失或者不可用的情況,當時無非就是用用神經網絡拟合,添補法,卡爾曼濾波法等等,但是最後還是EM脫穎而出,最主要還是他的算法步驟簡單,穩定上升可以很可靠的找到最優的收斂值,但是運用這種思想,我們拓展到了簡化問題政策,有時候缺失資料并非真的缺少了,這時候EM引入恰當的資料添加技術,這樣的資料被稱為”潛在資料”,複雜問題通過引入潛在資料,能夠有效的解決我們的問題

“潛在資料”可以解釋為資料本身并不存在缺失變量，但觀察資料比較難以處理，如果添加上額外的變量，處理起來會變得比較簡單。假設X是已知的觀測資料，想象由随機變量X生成的觀察資料連同來自随機變量y的缺失或未觀測資料，得到Z=(X,Y)為完全資料。通過給定觀察資料X,我們希望最大化似然的函數L(0/x).由于資料缺失或者其他原因導

緻采用該似然函數會難以處理，而采用Z|0和Y|(x,0)的密度則比較容易處理。EM算法通過采用這些較容易的密度p(0|z),進而避開考慮了P(0|X).但是這在貝葉斯應用中,對于後驗分布的P都是随機變量.

但是不可避免EM算法也有一些缺點:

1:在缺失資料較多的情形,收斂的速度較慢.

2:對于某些情況下,要計算算法中的M步,即完成對似然函數的估計是非常困難的

3:在某些情況下是要獲得EM算法中的E步的期望顯式是非常困難或者不可能的

算法原理和步驟:

現在我們假設X是觀測資料,Y是潛在資料,EM算法疊代是為了尋求關于0最大化函數L(0|X),設0(k)是在進行K次疊代以後估計得到的最大值點,K屬于(0,1,2......),定義Q(0|0(k))

是在觀測資料X ={x1,x2….xn}的條件下完全資料的聯合對數函數似然的期望,既可以獲得以下式子: