屬性條件獨立性假設
貝葉斯定理:
P(c∣x)=P(c)P(x∣c)P(x)
此時後驗機率 P(c∣x) 比較難以估計,由于類條件機率 P(x∣c) 是所有屬性上的聯合機率,難以從有限的訓練樣本中直接估計而得到。
處理方式
假設所有屬性互相獨立,即每個屬性獨立地對分類結果産生影響。
基于屬性獨立性假設
P(c∣x)=P(c)P(x∣c)P(x)=P(c)P(x)Πdi=1P(xi∣c)
其中 d 為屬性數目,xi為 x 在第 i 個屬性上的取值。
由于對于所有的類别c來說 P(x) 相同,
于是上式可以寫成:
hnb(x)=argmaxc∈YP(c)Πdi=1P(xi∣c)(A)
A 就是樸素貝葉斯分類器的表達式。
計算先驗機率
P(c)
P(c)=|Dc||D|
P(xi∣c)
離散屬性
P(xi)=|Dc,xi||D|
連續屬性
考慮機率密度函數
假定 p(xi∣c)∼N(μc,i,δ2c,i) 其中 (μc,i,δ2c,i) 分别式第 c 類樣本在屬性i上取值的均值和方差。
P(xi∣c)=12π−−√δc,iexp⎛⎝−(xi−μc,j)22δ2c,i⎞⎠
如果某個屬性值在訓練集中沒有某個類同時出現過,則判别可能出現問題。
拉普拉斯修正
為了避免其他屬性攜帶的資訊被訓練集中未出現的屬性值“抹去”,在估計機率值時通常要進行平滑處理。
令 N 表示訓練集D中可能的類别數, Ni 表示第 i 個屬性可能的取值數。
P^(c)=|Dc|+1|D|+NP^(xi∣c)=|Dc,xi|+1|Dc|+Ni