統計學習方法：樸素貝葉斯法 (四)

2023-04-05 17:56:57

主要思想：通過訓練資料學習先驗機率分布P(Y=c)和條件機率分布P(X=x|Y=c)，進而學習聯合機率分布P(X=x, Y=c)。是以是生成模型。

計算公式：

統計學習方法：樸素貝葉斯法 (四)

後驗機率最大化，将執行個體分到後驗機率最大的類中。

每一個機率可通過極大似然估計 (通過采樣估計真實分布中的參數值，在參數的所有可能取值中尋找一個值能夠最大化采樣結果的可能性)得到。而極大似然估計的準确性依賴于樣本量的大小，樣本量越大，越能反映真實分布。

極大似然估計的另一個問題：可能因為樣本覆寫不全面，導緻需要估計的機率值為0的情況，這會影響後驗機率的計算結果，使分類産生偏差。

解決方法：使用貝葉斯估計，條件機率及先驗機率的貝葉斯估計分别如下：

統計學習方法：樸素貝葉斯法 (四)

統計學習方法：樸素貝葉斯法 (四)

其中當lambda值為1時，即為常說的拉普拉斯平滑。

統計學習樸素貝葉斯拉普拉斯極大似然估計先驗機率條件機率

上一篇: 《統計學習方法》四：手推“樸素貝葉斯法”

下一篇: 【統計學習方法】樸素貝葉斯對鸢尾花(iris)資料集進行訓練預測一、鸢尾花(iris)資料集二、代碼描述三、python代碼（注釋詳細）

繼續閱讀