1、經典統計學
- 經典統計學對于小樣本事件不能準确評估
- 例如:可以通過1000次抛硬币實驗驗證硬币正面朝上機率,但是對于日本地震這種事情的機率則無法預估
- 即經典統計學的基礎就是大量的實驗
2、貝葉斯思維
-
先驗機率 + 調整因子 ==》後驗機率
(此圖在看完樸素貝葉斯數學推導之後再看)
統計學習方法第四章——樸素貝葉斯法1、經典統計學2、貝葉斯思維3、條件機率4、貝葉斯定理:逆機率思維5、樸素貝葉斯數學推導6、樸素貝葉斯7、極大似然估計8、樸素貝葉斯“算法”9、貝葉斯估計
3、條件機率
4、貝葉斯定理:逆機率思維
- 正常機率思維:對于一個确定的類Ci,其中存在某個執行個體x的機率有多大
- 貝葉斯:已知一個執行個體,問其歸屬于某一類的機率有多大 4.1 貝葉斯分類
統計學習方法第四章——樸素貝葉斯法1、經典統計學2、貝葉斯思維3、條件機率4、貝葉斯定理:逆機率思維5、樸素貝葉斯數學推導6、樸素貝葉斯7、極大似然估計8、樸素貝葉斯“算法”9、貝葉斯估計 統計學習方法第四章——樸素貝葉斯法1、經典統計學2、貝葉斯思維3、條件機率4、貝葉斯定理:逆機率思維5、樸素貝葉斯數學推導6、樸素貝葉斯7、極大似然估計8、樸素貝葉斯“算法”9、貝葉斯估計
5、樸素貝葉斯數學推導
- 若執行個體 x 有 n 個特征,那麼假設這 n 個特征之間互相獨立 5.1 樸素貝葉斯分類
統計學習方法第四章——樸素貝葉斯法1、經典統計學2、貝葉斯思維3、條件機率4、貝葉斯定理:逆機率思維5、樸素貝葉斯數學推導6、樸素貝葉斯7、極大似然估計8、樸素貝葉斯“算法”9、貝葉斯估計 統計學習方法第四章——樸素貝葉斯法1、經典統計學2、貝葉斯思維3、條件機率4、貝葉斯定理:逆機率思維5、樸素貝葉斯數學推導6、樸素貝葉斯7、極大似然估計8、樸素貝葉斯“算法”9、貝葉斯估計
6、樸素貝葉斯
- 又稱樸素貝葉斯分類器,本質是一個分類的方法
- 樸素貝葉斯 = 貝葉斯定理在特征條件獨立假設下得到的
6.1 “樸素”
- 生成方法:學習聯合機率分布P(x, y),由此可以得到P(y | x),然後進行分類結果的判斷
- 判别方法:根據訓練集直接學習決策函數f(x),或者條件機率分布P(y | x)
- 樸素貝葉斯分類是一種生成方法
基本方法
6.2 後驗機率最大化
- 圖中推導表明期望風險最小化 ( 或簡單了解為降低損失函數 ) 等價于後驗機率最大化
統計學習方法第四章——樸素貝葉斯法1、經典統計學2、貝葉斯思維3、條件機率4、貝葉斯定理:逆機率思維5、樸素貝葉斯數學推導6、樸素貝葉斯7、極大似然估計8、樸素貝葉斯“算法”9、貝葉斯估計
7、極大似然估計
- 先驗機率和條件機率的估計值通過極大似然法得到
7.1 極大似然估計原理
- 中心思想:機率最大化。極大似然最終解決的問題就是求得機率值。
- 似然函數與聯合密度函數具有相同形式,但似然函數不是聯合密度函數
- 聯合密度函數:β已知
- 似然函數:X已知(即訓練集),要估計參數β
統計學習方法第四章——樸素貝葉斯法1、經典統計學2、貝葉斯思維3、條件機率4、貝葉斯定理:逆機率思維5、樸素貝葉斯數學推導6、樸素貝葉斯7、極大似然估計8、樸素貝葉斯“算法”9、貝葉斯估計
7.2 極大似然估計實作
7.2.1 基礎版實作
- 1、根據輸入先得到機率密度函數
-
2、然後根據實驗情況得到聯合機率函數(關于參數β)
假設實驗樣本獨立,則條件機率似然函數 = 聯合機率函數 = 每個樣本機率密度函數累乘
- 3、周遊 β 的所有可能取值,選擇最大的函數值對應的 β 值即為似然估計值
- 特别:若β取值太多,則這種周遊β所有可能取值的方式不現實
7.2.2 數值計算方法(進階版)
- 整個過程
- 找到參數空間,每個參數都代入似然函數計算,選取最大值
- 參數太多,嘗試求導=0(獲得極大值點),以此求得解析解
- 如果函數沒有解析解,利用疊代法求得一個近似的數值解
8、樸素貝葉斯“算法”
8.1 算法詳解
- 貝葉斯算法目的就是首先通過訓練資料集求出模型(先驗機率和條件機率),然後将要分類資料代入模型,判斷哪種類别其機率更大,則屬于哪一類
- 1、計算先驗機率和條件機率(通過數數方式即極大似然)
- 2、求解後驗機率的分子,判斷哪類的機率更大
9、貝葉斯估計
9.1 估計方法
9.2 為什麼稱作貝葉斯估計
- 當λ=0,是傳統的頻率方法,不再是貝葉斯估計,因為λ=0是假設參數的先驗分布都是均勻分布時得到的
9.3 平滑思想是什麼
- 加入λ的作用是為了防止過拟合,即最終的模型不能完全按照樣本來推導出,因為樣本本身存在各種噪聲。
- 拉普拉斯平滑是λ=1時,此時當樣本數量非常大時,λ=1基本可以忽略