天天看點

統計學習方法:樸素貝葉斯法 (四)

主要思想:通過訓練資料學習先驗機率分布P(Y=c)和條件機率分布P(X=x|Y=c),進而學習聯合機率分布P(X=x, Y=c)。是以是生成模型。

計算公式:

統計學習方法:樸素貝葉斯法 (四)

後驗機率最大化,将執行個體分到後驗機率最大的類中。

每一個機率可通過極大似然估計 (通過采樣估計真實分布中的參數值,在參數的所有可能取值中尋找一個值能夠最大化采樣結果的可能性)得到。而極大似然估計的準确性依賴于樣本量的大小,樣本量越大,越能反映真實分布。

極大似然估計的另一個問題:可能因為樣本覆寫不全面,導緻需要估計的機率值為0的情況,這會影響後驗機率的計算結果,使分類産生偏差。

解決方法:使用貝葉斯估計,條件機率及先驗機率的貝葉斯估計分别如下:

統計學習方法:樸素貝葉斯法 (四)
統計學習方法:樸素貝葉斯法 (四)

其中當lambda值為1時,即為常說的拉普拉斯平滑。

繼續閱讀