一、貝葉斯決策論
1、假設有N種可能的類别标記,
,
是将一個真實标記為
的樣本誤分類為
所産生的損失,後驗機率
可獲得将樣本x分類為
所産生的期望損失。
(1) 樣本在x上的條件風險為:
(2) 樣本的總體風險為:
2、根據貝葉斯判定準則,我們需要最小化總體風險,是以需要最小化條件風險:
(1)前面提及的誤分類損失可寫為:
(2)此時的條件風險為:
(3)由于需要最小條件風險,故需對
取最大:
公式(3)為貝葉斯最優分類器
二、樸素貝葉斯分類器
1、基于樸素貝葉斯公式為:
2、基于屬性條件獨立性假設,上式可重寫為:
代表類别,
代表特征
3、綜上貝葉斯表達式的公式為:
樸素貝葉斯分類器的訓練過程是基于訓練集D來估計先驗機率
,并為每個屬性估計條件機率
。
1) 先驗機率為:
2) 條件機率分兩種情況,一種是離散型屬性的條件機率,另一種是連續型屬性的條件機率,具體如下:
A、對于離散型條件機率:
B、對于連續型條件機率: