天天看點

機器學習總結(四):樸素貝葉斯(Naive Bayes)

(1)基本思想:基于貝葉斯定理與特征條件獨立假設的分類方法;首先基于特征條件獨立假設學習輸入/輸出的聯合機率分布,然後基于此模型,對給定的輸入x,利用貝葉斯定理求出後驗機率最大的輸出y。

(2)為什麼叫“樸素”:對條件機率分布作了條件獨立性的假設,因為這是一個較強的假設。

條件獨立性假設:

機器學習總結(四):樸素貝葉斯(Naive Bayes)

根據貝葉斯定理推導:

機器學習總結(四):樸素貝葉斯(Naive Bayes)

(3)為什麼要後驗機率最大化:等價于期望風險最小化。假設選取0-1損失函數,即分類正确取1,錯誤取0,這時的期望風險最小化為

機器學習總結(四):樸素貝葉斯(Naive Bayes)

(4)先驗條件機率的計算方法:

       a.離散分布時:統計訓練樣本中每個類别出現的頻率。若某一特征值的機率為0會使整個機率乘積變為0(稱為資料稀疏),這破壞了各特征值地位相同的假設條件。

解決方法一:采用貝葉斯估計(λ=1 時稱為拉普拉斯平滑):

機器學習總結(四):樸素貝葉斯(Naive Bayes)

     解決方法二:通過聚類将未出現的詞找出系統關鍵詞,根據相關詞的機率求平均值。

b.連續分布時:假定其值服從高斯分布(正态分布)。即計算樣本均值與方差。

機器學習總結(四):樸素貝葉斯(Naive Bayes)

(5)算法問題:實際項目中,機率值往往是很小的小數,連續微小小數相乘容易造成下溢出使乘積為0. 解決方法:對乘積取自然對數,将連乘變為連加。

繼續閱讀