主要思想:通過訓練資料學習先驗機率分布P(Y=c)和條件機率分布P(X=x|Y=c),進而學習聯合機率分布P(X=x, Y=c)。是以是生成模型。
計算公式:
![](https://img.laitimes.com/img/__Qf2AjLwojIjJCLyojI0JCLiAzNvwVZ2x2bzNXak9CX90TQNNkRrFlQKBTSvwFbslmZvwFMwQzLcVmepNHdu9mZvwFVywUNMZTY18CX052bm9CX9EFRNp3ZU5keBRVT3V1MMBjVtJWd0ckW65UbM5WOHJWa5kHT20ESjBjUIF2LcRHelR3LcJzLctmch1mclRXY39DM4kDO0MzMwEzMxYDM4EDMy8CX0Vmbu4GZzNmLn9Gbi1yZtl2Lc9CX6MHc0RHaiojIsJye.jpg)
後驗機率最大化,将執行個體分到後驗機率最大的類中。
每一個機率可通過極大似然估計 (通過采樣估計真實分布中的參數值,在參數的所有可能取值中尋找一個值能夠最大化采樣結果的可能性)得到。而極大似然估計的準确性依賴于樣本量的大小,樣本量越大,越能反映真實分布。
極大似然估計的另一個問題:可能因為樣本覆寫不全面,導緻需要估計的機率值為0的情況,這會影響後驗機率的計算結果,使分類産生偏差。
解決方法:使用貝葉斯估計,條件機率及先驗機率的貝葉斯估計分别如下:
其中當lambda值為1時,即為常說的拉普拉斯平滑。