天天看點

統計學習方法第四章——樸素貝葉斯法1、經典統計學2、貝葉斯思維3、條件機率4、貝葉斯定理:逆機率思維5、樸素貝葉斯數學推導6、樸素貝葉斯7、極大似然估計8、樸素貝葉斯“算法”9、貝葉斯估計

1、經典統計學

  • 經典統計學對于小樣本事件不能準确評估
  • 例如:可以通過1000次抛硬币實驗驗證硬币正面朝上機率,但是對于日本地震這種事情的機率則無法預估
  • 即經典統計學的基礎就是大量的實驗

2、貝葉斯思維

  • 先驗機率 + 調整因子 ==》後驗機率

    (此圖在看完樸素貝葉斯數學推導之後再看)

    統計學習方法第四章——樸素貝葉斯法1、經典統計學2、貝葉斯思維3、條件機率4、貝葉斯定理:逆機率思維5、樸素貝葉斯數學推導6、樸素貝葉斯7、極大似然估計8、樸素貝葉斯“算法”9、貝葉斯估計

3、條件機率

統計學習方法第四章——樸素貝葉斯法1、經典統計學2、貝葉斯思維3、條件機率4、貝葉斯定理:逆機率思維5、樸素貝葉斯數學推導6、樸素貝葉斯7、極大似然估計8、樸素貝葉斯“算法”9、貝葉斯估計

4、貝葉斯定理:逆機率思維

  • 正常機率思維:對于一個确定的類Ci,其中存在某個執行個體x的機率有多大
  • 貝葉斯:已知一個執行個體,問其歸屬于某一類的機率有多大
    統計學習方法第四章——樸素貝葉斯法1、經典統計學2、貝葉斯思維3、條件機率4、貝葉斯定理:逆機率思維5、樸素貝葉斯數學推導6、樸素貝葉斯7、極大似然估計8、樸素貝葉斯“算法”9、貝葉斯估計
    4.1 貝葉斯分類
    統計學習方法第四章——樸素貝葉斯法1、經典統計學2、貝葉斯思維3、條件機率4、貝葉斯定理:逆機率思維5、樸素貝葉斯數學推導6、樸素貝葉斯7、極大似然估計8、樸素貝葉斯“算法”9、貝葉斯估計

5、樸素貝葉斯數學推導

  • 若執行個體 x 有 n 個特征,那麼假設這 n 個特征之間互相獨立
    統計學習方法第四章——樸素貝葉斯法1、經典統計學2、貝葉斯思維3、條件機率4、貝葉斯定理:逆機率思維5、樸素貝葉斯數學推導6、樸素貝葉斯7、極大似然估計8、樸素貝葉斯“算法”9、貝葉斯估計
    5.1 樸素貝葉斯分類
    統計學習方法第四章——樸素貝葉斯法1、經典統計學2、貝葉斯思維3、條件機率4、貝葉斯定理:逆機率思維5、樸素貝葉斯數學推導6、樸素貝葉斯7、極大似然估計8、樸素貝葉斯“算法”9、貝葉斯估計

6、樸素貝葉斯

  • 又稱樸素貝葉斯分類器,本質是一個分類的方法
  • 樸素貝葉斯 = 貝葉斯定理在特征條件獨立假設下得到的

6.1 “樸素”

  • 生成方法:學習聯合機率分布P(x, y),由此可以得到P(y | x),然後進行分類結果的判斷
  • 判别方法:根據訓練集直接學習決策函數f(x),或者條件機率分布P(y | x)
  • 樸素貝葉斯分類是一種生成方法

基本方法

統計學習方法第四章——樸素貝葉斯法1、經典統計學2、貝葉斯思維3、條件機率4、貝葉斯定理:逆機率思維5、樸素貝葉斯數學推導6、樸素貝葉斯7、極大似然估計8、樸素貝葉斯“算法”9、貝葉斯估計

6.2 後驗機率最大化

  • 圖中推導表明期望風險最小化 ( 或簡單了解為降低損失函數 ) 等價于後驗機率最大化
    統計學習方法第四章——樸素貝葉斯法1、經典統計學2、貝葉斯思維3、條件機率4、貝葉斯定理:逆機率思維5、樸素貝葉斯數學推導6、樸素貝葉斯7、極大似然估計8、樸素貝葉斯“算法”9、貝葉斯估計

7、極大似然估計

  • 先驗機率和條件機率的估計值通過極大似然法得到
統計學習方法第四章——樸素貝葉斯法1、經典統計學2、貝葉斯思維3、條件機率4、貝葉斯定理:逆機率思維5、樸素貝葉斯數學推導6、樸素貝葉斯7、極大似然估計8、樸素貝葉斯“算法”9、貝葉斯估計

7.1 極大似然估計原理

  • 中心思想:機率最大化。極大似然最終解決的問題就是求得機率值。
  • 似然函數與聯合密度函數具有相同形式,但似然函數不是聯合密度函數
  • 聯合密度函數:β已知
  • 似然函數:X已知(即訓練集),要估計參數β
    統計學習方法第四章——樸素貝葉斯法1、經典統計學2、貝葉斯思維3、條件機率4、貝葉斯定理:逆機率思維5、樸素貝葉斯數學推導6、樸素貝葉斯7、極大似然估計8、樸素貝葉斯“算法”9、貝葉斯估計

7.2 極大似然估計實作

7.2.1 基礎版實作

  • 1、根據輸入先得到機率密度函數
  • 2、然後根據實驗情況得到聯合機率函數(關于參數β)

    假設實驗樣本獨立,則條件機率似然函數 = 聯合機率函數 = 每個樣本機率密度函數累乘

  • 3、周遊 β 的所有可能取值,選擇最大的函數值對應的 β 值即為似然估計值
  • 特别:若β取值太多,則這種周遊β所有可能取值的方式不現實

7.2.2 數值計算方法(進階版)

  • 整個過程
  • 找到參數空間,每個參數都代入似然函數計算,選取最大值
  • 參數太多,嘗試求導=0(獲得極大值點),以此求得解析解
  • 如果函數沒有解析解,利用疊代法求得一個近似的數值解

8、樸素貝葉斯“算法”

8.1 算法詳解

  • 貝葉斯算法目的就是首先通過訓練資料集求出模型(先驗機率和條件機率),然後将要分類資料代入模型,判斷哪種類别其機率更大,則屬于哪一類
  • 1、計算先驗機率和條件機率(通過數數方式即極大似然)
  • 2、求解後驗機率的分子,判斷哪類的機率更大

9、貝葉斯估計

9.1 估計方法

統計學習方法第四章——樸素貝葉斯法1、經典統計學2、貝葉斯思維3、條件機率4、貝葉斯定理:逆機率思維5、樸素貝葉斯數學推導6、樸素貝葉斯7、極大似然估計8、樸素貝葉斯“算法”9、貝葉斯估計

9.2 為什麼稱作貝葉斯估計

  • 當λ=0,是傳統的頻率方法,不再是貝葉斯估計,因為λ=0是假設參數的先驗分布都是均勻分布時得到的

9.3 平滑思想是什麼

  • 加入λ的作用是為了防止過拟合,即最終的模型不能完全按照樣本來推導出,因為樣本本身存在各種噪聲。
  • 拉普拉斯平滑是λ=1時,此時當樣本數量非常大時,λ=1基本可以忽略

繼續閱讀