學習筆記
當初在課堂學的時候,雖然有老師解惑,但終究自己基礎不足,上課又有時間限制,是以大概隻能了解一半,通過後面複習,基本将之前還有疑惑的問題解決了,雖然其中一些公式推導的過程還比較難算,而且部分概念容易混淆。這篇學習筆記主要是為了記錄一下自己覺得需要掌握記住的,或者是自己沒有完全了解吃透的
第一章模式識别基本概念
- 模式識别分為“分類”和“回歸”
- 分類輸出量是離散的類别表達,即輸出待識别模式所屬的類别
- 回歸輸出量是連續的信号表達(回歸值),輸出量可以是多個次元
- 回歸是分類的基礎:離散的類别值是由回歸值做判别決策得到的
- 模式是關于已有知識的一種表達方式,即函數f(x)
第二次作業
- 模式識别:根據已有的知識的表達,針對待識别模式,判别決策其所屬的類别或者預測其對應的回歸值。本質上是一種推理過程
- 模式:特征提取+回歸器+判别函數
- 特征提取:從原始輸入資料提取更有效的資訊
- 回歸器:将特征映射到回歸值
- 判别函數有sign:二類分類;max:多類分類,取最大的回歸值所在次元的類别
- 模型通過機器學習方法獲得
- 目标函數,也稱代價函數或損失函數
- 在有無數個解的情況下,需要額外添加一個标準,通過優化該标準來确定一個近似解,即目标函數
- 優化算法:最大化或最小化目标函數的技術
- 學習方式
- 監督式學習
- 訓練樣本和輸出真值都給定的機器學習算法
- 最常見的學習方式
- 通常使用最小化訓練誤差作為目标函數進行優化
- 舉例:
- 無監督式學習
- 隻給定訓練樣本、沒有給輸出真值情況下的機器學習算法
- 無監督式學習算法的難度遠高于監督式算法
- 根據訓練樣本之間的相似程度來進行決策
- 舉例:聚類、圖像分割
- 半監督式學習
- 既有标注的訓練樣本、又有未标注的訓練樣本情況下的學習算法
- 看作有限制條件的無監督式學習問題:标注過的訓練樣本作為限制條件
- 舉例:網絡流資料
- 監督式學習
- 泛化能力,通俗來講就是指學習到的模型對未知資料的預測能力。通常通過測試誤差來評價學習方法的泛化能力
- 過拟合:模型訓練階段表現很好,但是測試階段表現很差,模型過于拟合訓練資料
- 提高泛化能力
- 模型選擇,選取合适的多項式階數M
-
正則化,在目标函數中加入關于參數的正則項,超參數:正則系數λ
\[\frac{1}{2}\sum_{n=1}^N(y(x_n,w)-t_n)^2+\frac{\lambda}{2}||w||_2^2
\]
- 調參:幾乎每個機器學習算法都有超參數,調參需要依據泛化誤差,但不能基于測試集,是以從訓練集中分出一個驗證集,基于驗證集調參
- 評估方法
- 留出法,将資料集随機分成訓練集和測試集
- K折交叉驗證,将訓練集分割成K個子集,從中選取單個子集作為測試集,其他K-1為訓練集,重複K次,每個子集被測試一次,将K次的評估值取平均,作為最終評估結果
- 留一驗證:取資料集中的一個樣本做測試集,每個樣本測試一次,取平均
- 性能名額
- 準确率(正确率)=所有預測正确的樣本/總的樣本 (TP+TN)/總
- 如果陽性和陰性數量失衡,識别不好
- 準确率(正确率)=所有預測正确的樣本/總的樣本 (TP+TN)/總
- 精度= 将正類預測為正類 / 所有預測為正類 TP/(TP+FP)
- 召回率 = 将正類預測為正類 / 所有正真的正類 TP/(TP+FN)
- 混淆矩陣:列是預測值,行是真值,對角線的值越大性能越好
- PR曲線,橫軸召回率,縱軸精度,曲線越往右上凸性能越好
- ROC曲線:接收者操作特征(receiver operating characteristic)
- roc曲線上每個點反映着對同一信号刺激的感受性。
- 縱軸:真正類率(true postive rate TPR),也就是召回率
-
橫軸:假正類率(false postive rate FPR),陰性中被錯誤識别為陽的
理想目标:TPR=1,FPR=0,即圖中(0,1)點,此時ROC曲線越靠攏(0,1)點,越偏離45度對角線越好。
- ROC對各類樣本分布不敏感,PR曲線對各類樣本分布敏感
- AUG曲線:Area Under Curve被定義為ROC曲線下的面積,顯然這個面積的數值不會大于1。
第二章 基于距離的分類器
- MED分類器 最小歐式距離分類器Minimum Euclidean Distance Classifier
- 距離:歐式距離
第二次作業 - 比較方法,那個點到兩個類的歐式距離更小就屬于哪個類
- 最小距離分類法原理簡單,容易了解,計算速度快,但是因為其隻考慮每一類樣本的均值,而不用管類别内部的方差(每一類樣本的分布),也不用考慮類别之間的協方差(類别和類别之間的相關關系),是以分類精度不高,是以,一般不用它作為我們分類對精度有高要求的分類。
- 距離:歐式距離
- 特征白化
-
目的:去除特征之間的相關性:解耦\(W_2\);對特征進行尺度變化:白化\(W_1\),使每維特征的方差相等
\[W=w_2w_1
-
- MICD分類器 最小類内距離分類器Minimum Intra-class Distance Classifier
- 距離:馬氏距離
- 比較方法,那個點到兩個類的馬式距離更小就屬于哪個類
- 缺點,馬氏距離會選擇方差較大的那一個類
第三章貝葉斯決策與學習
- MAP分類器 最大後驗機率分類器Maximum posterior probability Classifier
- 後驗機率 :
第二次作業 - \(P(c_i)\)類的先驗機率
- \(P(x|C_i)\)觀測似然機率
- \(P(x)=\sum_jP(x|c_j)P(c_j)\)所有類樣本x的邊緣機率
- 比較方法,屬于哪個類的後驗機率比較大就屬于哪個
- 後驗機率 :
- 貝葉斯分類器
- 貝葉斯分類器在MAP分類器基礎上,加入決策風險因素
- 選擇方法,選擇決策風險最小的類
- 損失期望\(R(\alpha_i|x)=\sum_{j}\lambda_{ij}P(C_j|x)\)
- \(\lambda_{ij}\)指樣本真值為j,判别為i的損失
- 在決策邊界小于門檻值t的決策都會被拒絕
- 後驗機率需要知道先驗機率和觀測似然機率機率,可通過機器學習算法得到
- 監督式學習,參數化方法
- 最大似然估計
- 待學習的機率密度函數記作\(P(X|\theta) \theta\)是待學習的參數
- 聯合機率密度\(p(x_1,x_2...x_n|\theta)=\prod_{n=1}^N{p(x_n|\theta)}\)該函數稱為似然函數
- 為最大化似然函數,求關于參數p的偏導,令偏導為0
- 先驗機率的最大似然估計就是該訓練樣本出現的頻率
- 高斯分布均值和方差的最大似然估計等于樣本的均值和協方差
- 均值是無偏估計,協方差是有偏估計
- 貝葉斯估計:給定參數𝜃分布的先驗機率以及訓練樣本,估計參數θ分布的後驗機率
- 該機率分布的先驗機率已知:𝑝(𝜃)
第二次作業 第二次作業 - 貝葉斯估計具備不斷學習的能力。
- 它允許最初的、基于少量訓練樣本的、不太準的估計。
- 随着訓練樣本的不斷增加,可以串行的不斷修正參數的估計值,進而達到該參數的期望真值。
對于貝葉斯估計還不是很了解,感覺暈暈的。。。課件的例題可以了解,但是其他理論的就說不上來
- 該機率分布的先驗機率已知:𝑝(𝜃)
- 最大似然估計
- 無參數估計:三個估計機率密度p(x)基于k/NV
- KNN估計
- 給定x,找到其對應的區域R使其包括k個訓練樣本
- 第k個訓練樣本的距離為\(d_k(x)\)則體積為\(2d_k(x)\)
- 機率密度估計表達為\(p(x)\approx \frac {k}{2d_k(x)}\)
- 訓練樣本N越大,k越大,機率估計的越準确
- 優點可以自适應确定x相關的區域R的範圍
- 缺點:不是連續函數,不是真正的機率密度表達,機率密度函數積分是∞而不是1,要存所有樣本,區域R由第k個決定,易受噪聲影響
- 直方圖估計
- R的确定:
- 将特征空間分為m個各自,每個格子為一個R
- 平均分格子大小,每個格子體積設V=h固定
- 相鄰格子不重疊
- 每個格子裡樣本不固定
- 優點,固定格子,減少噪聲污染,不用存樣本
- 缺點,x落在相鄰格子交界處,意味着目前格子不是以模式x為中心,估計不準确;固定區域R,缺乏自适應能力,導緻過于尖銳或平滑
- R的确定:
- 核密度估計
- 區域R:以任意待估計模式x為中心、固定帶寬h,确定一個區域R
- 統計k
第二次作業 - 優點:類似于knn可以自适應;基于所有樣本,不受噪音影響;如果核函數連續,機率密度也連續,核密度比直方圖更平滑
- 缺點,要存所有樣本
- 帶寬h決定了估計機率的平滑程度,選取原則,是有更好的泛化能力
- KNN估計
線性判據
- w的作用:決定了決策邊界的方向,\(w_0\)的作用:決定決策邊界的偏移量,使其能夠滿足兩個類輸出值分别為正負
第二次作業 - 從解域中找到最優解:設計目标函數,加入限制條件
第二次作業 - 感覺機算法
- 預處理:在幾何上,通過在特征空間上增加一個次元,使決策邊界過原點,翻轉\(C_2\)類樣本使所有樣本在平面同一側 -目标函數:思想:被錯誤分類的樣本最少
第二次作業 第二次作業 - 求偏導
第二次作業 - 梯度下降法
第二次作業
- 預處理:在幾何上,通過在特征空間上增加一個次元,使決策邊界過原點,翻轉\(C_2\)類樣本使所有樣本在平面同一側
- 并行感覺機
第二次作業 -
過程:
- 初始化參數,a0,步長,門檻值
- 疊代更新:基于目前梯度更新a,更新集合\(Y_k\)
- 停止疊代:所有訓練樣本的輸出都大于0,或更新值小于門檻值
-
- 串行感覺機:訓練樣本一個一個給出
- 思想:目前樣本被錯誤分類的程度最小
- 目标函數:如果目前訓練樣本被錯誤分類,最小化器輸出值取反
第二次作業 第二次作業 - 收斂性:如果訓練樣本線性可分,感覺機則理論上收斂于一個解
- 當樣本位于決策邊界時,對樣本決策有很大的不确定性
第二次作業
- Fisher線性判據
- 可以看作把原空間各點投影到新的一維空間\(y=w^Tx+w_0\)
- 投影最佳标準:投影後使不同類别樣本分布的類間差距盡可能大,同時使類内樣本分布的離散程度盡快拿小
第二次作業 第二次作業 第二次作業 - 求解:對w求偏導,設偏導為0,\(f_FLD(x)=w^T x+w_0=(\mu_1 -\mu_2)^T S_w ^{-1}(x-\mu)\)
- 完整過程
第二次作業
- 支援向量機
- 思想:使兩個類中與決策邊界孫的訓練樣本到決策邊界之間的間隔最大
- 支援向量:就是兩個離決策邊界最近的訓練樣本
- 目标函數
第二次作業
- 拉格朗日乘數法
- 常用來解決條件優化問題
- 思路
第二次作業 第二次作業 第二次作業
- 拉格朗日對偶問題
-
支援向量機學習算法
待補充