天天看點

【李航】統計學習方法--4. 樸素貝葉斯法(詳細推導)

【李航】統計學習方法--4. 樸素貝葉斯法(詳細推導)

文章目錄

  • ​​4.1樸素貝葉斯法的學習與分類​​
  • ​​4.1.1 基本方法​​
  • ​​4.1.2 後驗機率最大化的含義​​
  • ​​4.2 樸素貝葉斯法的參數估計​​
  • ​​4.2.1 極大似然估計​​
  • ​​4.2.2 學習與分類算法​​
  • ​​4.2.3 貝葉斯估計​​

4.1樸素貝葉斯法的學習與分類

貝葉斯定理

  • 貝葉斯思維
  • 【李航】統計學習方法--4. 樸素貝葉斯法(詳細推導)
  • 條件機率

  • 貝葉斯定理

    已知:

    存在 類 , 給定一個新的執行個體

    問:該執行個體歸屬第 類的可能性有多大?

    即,

  • 樸素貝葉斯

    假設:執行個體特征之間互相獨立

4.1.1 基本方法

【李航】統計學習方法--4. 樸素貝葉斯法(詳細推導)
  • 訓練資料集:
  • 輸入:
  • 輸出:

    生成方法:學習聯合機率分布

  • 生成方法:學習聯合機率分布
  • 先驗機率分布:
  • 條件機率分布:
  • 聯合機率分布:

假設是獨立的是為了能夠計算出來,使其具有可行性

4.1.2 後驗機率最大化的含義

  • 後驗機率

  • 樸素貝葉斯法将執行個體分到後驗機率最大的類中。這等價于期望風險最小化。假設選擇損失函數:

    式中是分類決策函數。這時,期望風險函數為

    因為期望的定義是值出現的機率乘以具體值之和,是以上式可轉換為損失函數與聯合機率之積的積分:

    期望是對聯合分布取的。由此取條件期望

    為了使期望風險最小化,隻需對逐個極小化,由此得到:

  • 這樣一來,根據期望風險最小化準則就得到了後驗機率最大化準則:

    即樸素貝葉斯法所采用的原理.

【李航】統計學習方法--4. 樸素貝葉斯法(詳細推導)

4.2 樸素貝葉斯法的參數估計

4.2.1 極大似然估計

  • 由可知,學習意味着估計和
  • 極大似然估計
  1. 是樣本,分子是點的個數
  2. 設第個特征可能取值的集合為, 條件機率的極大似然估計是

    式中,是第個樣本的第個特征;是第個特征可能取的第個值;

4.2.2 學習與分類算法

  1. 計算先驗機率及條件機率
  2. 對于給定執行個體,計算

  3. 确定執行個體的類

4.2.3 貝葉斯估計

  • 先驗機率的貝葉斯估計
  • 條件機率的貝葉斯估計

繼續閱讀