天天看點

機器學習筆記——貝葉斯分類器(III)樸素貝葉斯分類器屬性條件獨立性假設

屬性條件獨立性假設

貝葉斯定理:

P(c∣x)=P(c)P(x∣c)P(x)

此時後驗機率 P(c∣x) 比較難以估計,由于類條件機率 P(x∣c) 是所有屬性上的聯合機率,難以從有限的訓練樣本中直接估計而得到。

處理方式

假設所有屬性互相獨立,即每個屬性獨立地對分類結果産生影響。

基于屬性獨立性假設

P(c∣x)=P(c)P(x∣c)P(x)=P(c)P(x)Πdi=1P(xi∣c)

其中 d 為屬性數目,xi為 x 在第 i 個屬性上的取值。

由于對于所有的類别c來說 P(x) 相同,

于是上式可以寫成:

hnb(x)=argmaxc∈YP(c)Πdi=1P(xi∣c)(A)

A 就是樸素貝葉斯分類器的表達式。

計算先驗機率

P(c)

P(c)=|Dc||D|

P(xi∣c)

離散屬性

P(xi)=|Dc,xi||D|

連續屬性

考慮機率密度函數

假定 p(xi∣c)∼N(μc,i,δ2c,i) 其中 (μc,i,δ2c,i) 分别式第 c 類樣本在屬性i上取值的均值和方差。

P(xi∣c)=12π−−√δc,iexp⎛⎝−(xi−μc,j)22δ2c,i⎞⎠

如果某個屬性值在訓練集中沒有某個類同時出現過,則判别可能出現問題。

拉普拉斯修正

為了避免其他屬性攜帶的資訊被訓練集中未出現的屬性值“抹去”,在估計機率值時通常要進行平滑處理。

令 N 表示訓練集D中可能的類别數, Ni 表示第 i 個屬性可能的取值數。

P^(c)=|Dc|+1|D|+NP^(xi∣c)=|Dc,xi|+1|Dc|+Ni

繼續閱讀