機器學習總結（四）：樸素貝葉斯（Naive Bayes）

2023-05-20 22:07:10

（1）基本思想：基于貝葉斯定理與特征條件獨立假設的分類方法；首先基于特征條件獨立假設學習輸入/輸出的聯合機率分布，然後基于此模型，對給定的輸入x,利用貝葉斯定理求出後驗機率最大的輸出y。

（2）為什麼叫“樸素”：對條件機率分布作了條件獨立性的假設，因為這是一個較強的假設。

條件獨立性假設：

機器學習總結（四）：樸素貝葉斯（Naive Bayes）

根據貝葉斯定理推導：

機器學習總結（四）：樸素貝葉斯（Naive Bayes）

（3）為什麼要後驗機率最大化：等價于期望風險最小化。假設選取0-1損失函數，即分類正确取1，錯誤取0，這時的期望風險最小化為

機器學習總結（四）：樸素貝葉斯（Naive Bayes）

（4）先驗條件機率的計算方法：

a.離散分布時：統計訓練樣本中每個類别出現的頻率。若某一特征值的機率為0會使整個機率乘積變為0（稱為資料稀疏），這破壞了各特征值地位相同的假設條件。

解決方法一：采用貝葉斯估計（λ=1 時稱為拉普拉斯平滑）：

機器學習總結（四）：樸素貝葉斯（Naive Bayes）

解決方法二：通過聚類将未出現的詞找出系統關鍵詞，根據相關詞的機率求平均值。

b.連續分布時：假定其值服從高斯分布（正态分布）。即計算樣本均值與方差。

機器學習總結（四）：樸素貝葉斯（Naive Bayes）

（5）算法問題：實際項目中，機率值往往是很小的小數，連續微小小數相乘容易造成下溢出使乘積為0. 解決方法：對乘積取自然對數，将連乘變為連加。

繼續閱讀