第二次作業

學習筆記

當初在課堂學的時候，雖然有老師解惑，但終究自己基礎不足，上課又有時間限制，是以大概隻能了解一半，通過後面複習，基本将之前還有疑惑的問題解決了，雖然其中一些公式推導的過程還比較難算，而且部分概念容易混淆。這篇學習筆記主要是為了記錄一下自己覺得需要掌握記住的，或者是自己沒有完全了解吃透的

第一章模式識别基本概念

模式識别分為“分類”和“回歸”
- 分類輸出量是離散的類别表達，即輸出待識别模式所屬的類别
- 回歸輸出量是連續的信号表達(回歸值)，輸出量可以是多個次元
- 回歸是分類的基礎：離散的類别值是由回歸值做判别決策得到的
- 模式是關于已有知識的一種表達方式，即函數f(x)
  
  第二次作業
模式識别：根據已有的知識的表達，針對待識别模式，判别決策其所屬的類别或者預測其對應的回歸值。本質上是一種推理過程
- 模式：特征提取+回歸器+判别函數
- 特征提取：從原始輸入資料提取更有效的資訊
- 回歸器：将特征映射到回歸值
- 判别函數有sign：二類分類；max：多類分類，取最大的回歸值所在次元的類别
模型通過機器學習方法獲得
- 目标函數，也稱代價函數或損失函數
- 在有無數個解的情況下，需要額外添加一個标準，通過優化該标準來确定一個近似解，即目标函數
- 優化算法：最大化或最小化目标函數的技術
學習方式
- 監督式學習
  - 訓練樣本和輸出真值都給定的機器學習算法
  - 最常見的學習方式
  - 通常使用最小化訓練誤差作為目标函數進行優化
  - 舉例：
- 無監督式學習
  - 隻給定訓練樣本、沒有給輸出真值情況下的機器學習算法
  - 無監督式學習算法的難度遠高于監督式算法
  - 根據訓練樣本之間的相似程度來進行決策
  - 舉例：聚類、圖像分割
- 半監督式學習
  - 既有标注的訓練樣本、又有未标注的訓練樣本情況下的學習算法
  - 看作有限制條件的無監督式學習問題：标注過的訓練樣本作為限制條件
  - 舉例：網絡流資料
泛化能力，通俗來講就是指學習到的模型對未知資料的預測能力。通常通過測試誤差來評價學習方法的泛化能力
- 過拟合：模型訓練階段表現很好，但是測試階段表現很差，模型過于拟合訓練資料
- 提高泛化能力
  - 模型選擇，選取合适的多項式階數M
  - 正則化，在目标函數中加入關于參數的正則項，超參數：正則系數λ
    
    \[\frac{1}{2}\sum_{n=1}^N(y(x_n,w)-t_n)^2+\frac{\lambda}{2}||w||_2^2
    
    \]
  - 調參：幾乎每個機器學習算法都有超參數，調參需要依據泛化誤差，但不能基于測試集，是以從訓練集中分出一個驗證集，基于驗證集調參
評估方法
- 留出法，将資料集随機分成訓練集和測試集
- K折交叉驗證，将訓練集分割成K個子集，從中選取單個子集作為測試集，其他K-1為訓練集，重複K次，每個子集被測試一次，将K次的評估值取平均，作為最終評估結果
- 留一驗證：取資料集中的一個樣本做測試集，每個樣本測試一次，取平均
性能名額
- 準确率（正确率）=所有預測正确的樣本/總的樣本（TP+TN）/總
  - 如果陽性和陰性數量失衡，識别不好
精度= 将正類預測為正類 / 所有預測為正類 TP/（TP+FP）
召回率 = 将正類預測為正類 / 所有正真的正類 TP/（TP+FN）
混淆矩陣:列是預測值，行是真值，對角線的值越大性能越好
- PR曲線，橫軸召回率，縱軸精度，曲線越往右上凸性能越好
- ROC曲線:接收者操作特征(receiver operating characteristic)
- roc曲線上每個點反映着對同一信号刺激的感受性。
  - 縱軸：真正類率(true postive rate TPR)，也就是召回率
  - 橫軸：假正類率(false postive rate FPR)，陰性中被錯誤識别為陽的
    
    理想目标：TPR=1，FPR=0，即圖中(0,1)點，此時ROC曲線越靠攏(0,1)點，越偏離45度對角線越好。
- ROC對各類樣本分布不敏感，PR曲線對各類樣本分布敏感
AUG曲線:Area Under Curve被定義為ROC曲線下的面積，顯然這個面積的數值不會大于1。

第二章基于距離的分類器

MED分類器最小歐式距離分類器Minimum Euclidean Distance Classifier
- 距離：歐式距離
  
  第二次作業
- 比較方法，那個點到兩個類的歐式距離更小就屬于哪個類
- 最小距離分類法原理簡單，容易了解，計算速度快，但是因為其隻考慮每一類樣本的均值，而不用管類别内部的方差（每一類樣本的分布），也不用考慮類别之間的協方差（類别和類别之間的相關關系），是以分類精度不高，是以，一般不用它作為我們分類對精度有高要求的分類。
特征白化
- 目的：去除特征之間的相關性：解耦\(W_2\)；對特征進行尺度變化：白化\(W_1\)，使每維特征的方差相等
  
  \[W=w_2w_1
MICD分類器最小類内距離分類器Minimum Intra-class Distance Classifier
- 距離：馬氏距離
- 比較方法，那個點到兩個類的馬式距離更小就屬于哪個類
- 缺點，馬氏距離會選擇方差較大的那一個類

第三章貝葉斯決策與學習

MAP分類器最大後驗機率分類器Maximum posterior probability Classifier
- 後驗機率：
  
  第二次作業
- \(P(c_i)\)類的先驗機率
  - \(P(x|C_i)\)觀測似然機率
- \(P(x)=\sum_jP(x|c_j)P(c_j)\)所有類樣本x的邊緣機率
- 比較方法，屬于哪個類的後驗機率比較大就屬于哪個
貝葉斯分類器
- 貝葉斯分類器在MAP分類器基礎上，加入決策風險因素
- 選擇方法，選擇決策風險最小的類
- 損失期望\(R(\alpha_i|x)=\sum_{j}\lambda_{ij}P(C_j|x)\)
- \(\lambda_{ij}\)指樣本真值為j，判别為i的損失
- 在決策邊界小于門檻值t的決策都會被拒絕
後驗機率需要知道先驗機率和觀測似然機率機率，可通過機器學習算法得到
監督式學習，參數化方法
- 最大似然估計
  - 待學習的機率密度函數記作\(P(X|\theta) \theta\)是待學習的參數
  - 聯合機率密度\(p(x_1,x_2...x_n|\theta)=\prod_{n=1}^N{p(x_n|\theta)}\)該函數稱為似然函數
  - 為最大化似然函數，求關于參數p的偏導，令偏導為0
  - 先驗機率的最大似然估計就是該訓練樣本出現的頻率
  - 高斯分布均值和方差的最大似然估計等于樣本的均值和協方差
  - 均值是無偏估計，協方差是有偏估計
- 貝葉斯估計：給定參數𝜃分布的先驗機率以及訓練樣本，估計參數θ分布的後驗機率
  - 該機率分布的先驗機率已知：𝑝(𝜃)
    
    第二次作業
    
    第二次作業
  - 貝葉斯估計具備不斷學習的能力。
  - 它允許最初的、基于少量訓練樣本的、不太準的估計。
  - 随着訓練樣本的不斷增加，可以串行的不斷修正參數的估計值，進而達到該參數的期望真值。
    對于貝葉斯估計還不是很了解，感覺暈暈的。。。課件的例題可以了解，但是其他理論的就說不上來
無參數估計：三個估計機率密度p(x)基于k/NV
- KNN估計
  - 給定x，找到其對應的區域R使其包括k個訓練樣本
  - 第k個訓練樣本的距離為\(d_k(x)\)則體積為\(2d_k(x)\)
  - 機率密度估計表達為\(p(x)\approx \frac {k}{2d_k(x)}\)
  - 訓練樣本N越大，k越大，機率估計的越準确
  - 優點可以自适應确定x相關的區域R的範圍
  - 缺點：不是連續函數，不是真正的機率密度表達，機率密度函數積分是∞而不是1，要存所有樣本，區域R由第k個決定，易受噪聲影響
- 直方圖估計
  - R的确定：
    - 将特征空間分為m個各自，每個格子為一個R
    - 平均分格子大小，每個格子體積設V=h固定
    - 相鄰格子不重疊
    - 每個格子裡樣本不固定
  - 優點，固定格子，減少噪聲污染，不用存樣本
  - 缺點，x落在相鄰格子交界處，意味着目前格子不是以模式x為中心，估計不準确；固定區域R，缺乏自适應能力，導緻過于尖銳或平滑
- 核密度估計
  - 區域R：以任意待估計模式x為中心、固定帶寬h，确定一個區域R
  - 統計k
  第二次作業
  - 優點：類似于knn可以自适應；基于所有樣本，不受噪音影響；如果核函數連續，機率密度也連續，核密度比直方圖更平滑
  - 缺點，要存所有樣本
    - 帶寬h決定了估計機率的平滑程度，選取原則，是有更好的泛化能力

線性判據

w的作用：決定了決策邊界的方向，\(w_0\)的作用：決定決策邊界的偏移量，使其能夠滿足兩個類輸出值分别為正負

第二次作業
從解域中找到最優解：設計目标函數，加入限制條件

第二次作業
感覺機算法
- 預處理：在幾何上，通過在特征空間上增加一個次元，使決策邊界過原點，翻轉\(C_2\)類樣本使所有樣本在平面同一側
  
  第二次作業
  -目标函數：思想：被錯誤分類的樣本最少
  
  第二次作業
- 求偏導
  
  第二次作業
- 梯度下降法
  
  第二次作業
并行感覺機

第二次作業
- 過程：
  
  - 初始化參數，a0，步長，門檻值
  
  - 疊代更新：基于目前梯度更新a，更新集合\(Y_k\)
  
  - 停止疊代：所有訓練樣本的輸出都大于0，或更新值小于門檻值
串行感覺機：訓練樣本一個一個給出
- 思想：目前樣本被錯誤分類的程度最小
- 目标函數：如果目前訓練樣本被錯誤分類，最小化器輸出值取反
  
  第二次作業
  
  第二次作業
- 收斂性：如果訓練樣本線性可分，感覺機則理論上收斂于一個解
- 當樣本位于決策邊界時，對樣本決策有很大的不确定性
  
  第二次作業
Fisher線性判據
- 可以看作把原空間各點投影到新的一維空間\(y=w^Tx+w_0\)
- 投影最佳标準：投影後使不同類别樣本分布的類間差距盡可能大，同時使類内樣本分布的離散程度盡快拿小
  
  第二次作業
  
  第二次作業
  
  第二次作業
- 求解：對w求偏導，設偏導為0，\(f_FLD(x)=w^T x+w_0=(\mu_1 -\mu_2)^T S_w ^{-1}(x-\mu)\)
- 完整過程
  
  第二次作業
支援向量機
- 思想：使兩個類中與決策邊界孫的訓練樣本到決策邊界之間的間隔最大
- 支援向量：就是兩個離決策邊界最近的訓練樣本
- 目标函數
  
  第二次作業
拉格朗日乘數法
- 常用來解決條件優化問題
- 思路
  
  第二次作業
  
  第二次作業
  
  第二次作業

拉格朗日對偶問題
支援向量機學習算法

待補充