
文章目錄
- 4.1樸素貝葉斯法的學習與分類
- 4.1.1 基本方法
- 4.1.2 後驗機率最大化的含義
- 4.2 樸素貝葉斯法的參數估計
- 4.2.1 極大似然估計
- 4.2.2 學習與分類算法
- 4.2.3 貝葉斯估計
4.1樸素貝葉斯法的學習與分類
貝葉斯定理
- 貝葉斯思維
-
條件機率
-
貝葉斯定理
已知:
存在 類 , 給定一個新的執行個體
問:該執行個體歸屬第 類的可能性有多大?
即,
-
樸素貝葉斯
假設:執行個體特征之間互相獨立
4.1.1 基本方法
- 訓練資料集:
- 輸入:
-
輸出:
生成方法:學習聯合機率分布
- 生成方法:學習聯合機率分布
- 先驗機率分布:
- 條件機率分布:
- 聯合機率分布:
假設是獨立的是為了能夠計算出來,使其具有可行性
4.1.2 後驗機率最大化的含義
-
後驗機率
-
樸素貝葉斯法将執行個體分到後驗機率最大的類中。這等價于期望風險最小化。假設選擇損失函數:
式中是分類決策函數。這時,期望風險函數為
因為期望的定義是值出現的機率乘以具體值之和,是以上式可轉換為損失函數與聯合機率之積的積分:
期望是對聯合分布取的。由此取條件期望
為了使期望風險最小化,隻需對逐個極小化,由此得到:
-
這樣一來,根據期望風險最小化準則就得到了後驗機率最大化準則:
即樸素貝葉斯法所采用的原理.
4.2 樸素貝葉斯法的參數估計
4.2.1 極大似然估計
- 由可知,學習意味着估計和
- 極大似然估計
- 是樣本,分子是點的個數
-
設第個特征可能取值的集合為, 條件機率的極大似然估計是
式中,是第個樣本的第個特征;是第個特征可能取的第個值;
4.2.2 學習與分類算法
- 計算先驗機率及條件機率
-
對于給定執行個體,計算
- 确定執行個體的類
4.2.3 貝葉斯估計
- 先驗機率的貝葉斯估計
- 條件機率的貝葉斯估計