貝葉斯分類器
貝葉斯決策論
貝葉斯決策論是機率架構下實施決策的基本方法。對分類任務來說,在所有相關機率都已知的理想情形下,貝葉斯決策論考慮如何基于這些機率和誤判損失來選擇最優的類别标記。
假設有N種可能的類别标記,即y={c1,c2,.....,cN},
![](https://img.laitimes.com/img/9ZDMuAjOiMmIsIjOiQnIsICM38CXlZHbvN3cpR2Lc1TPB10QGtWUCpEMJ9CXsxWam9CXwADNvwVZ6l2c052bm9CXUJDT1wkNhVzLcRnbvZ2Lc1TP31UeFRUTyUkeOpHOsJGcohVYsR2MMBjVtJWd0ckW65UbM5WOHJWa5kHT20ESjBjUIF2LcRHelR3LcJzLctmch1mclRXY39jM0gTN0YjMyITOwcDM4EDMy8CX0Vmbu4GZzNmLn9Gbi1yZtl2Lc9CX6MHc0RHaiojIsJye.jpg)
是将一個真實标記為cj的樣本誤分類為ci所産生的損失,基于後驗機率P(ci | x)可獲得将樣本x分類為ci所産生的期望損失,即在樣本x上的“條件風險”
我們的任務是尋找一個判定标準h:X->Y以最小化總體風險。
貝葉斯判定準則:為最小化總體風險,隻需在每個樣本上選擇哪個能使條件風險R(c | x)最小的類别标記。
具體來說,若目标是最小化分類錯誤率,則誤判損失
可寫為
此時條件風險
于是,最小化分類錯誤率的貝葉斯最優分類器為
不難看出,欲使用貝葉斯判定準則來最小化決策風險,首先要獲得後驗機率P(c | x),這在現實中是難以直接獲得的。
對于後驗機率的估計有兩種方法:(1)“判别式模型”,給定x,通過直接模組化P(c | x)來預測c (2)“生成式模型”,對聯合機率分布P(x,c)模組化得到P(c | x);一般地,有決策樹、BP神經網絡、支援向量機
對生成式模型來說,必然考慮
基于貝葉斯定理,P(c | x)可寫為
事實上,機率模型的訓練過程就是參數估計過程。
樸素貝葉斯分類器
基于貝葉斯公式估計後驗機率P(c | x)的主要困難在于:類條件機率P(c | x)是所有屬性上的聯合機率,難以從有限訓練樣本直接估計而得。為了避開這個障礙,樸素貝葉斯分類器采用了“屬性條件獨立性假設”:對已知類别,假設所有屬性互相獨立。換言之,假設每個屬性獨立地對分類結果發生影響。
基于屬性條件獨立性假設,可得
其中,d為屬性數目,xi為x在第i個屬性上的取值。
’