天天看點

第二次作業

學習筆記

當初在課堂學的時候,雖然有老師解惑,但終究自己基礎不足,上課又有時間限制,是以大概隻能了解一半,通過後面複習,基本将之前還有疑惑的問題解決了,雖然其中一些公式推導的過程還比較難算,而且部分概念容易混淆。這篇學習筆記主要是為了記錄一下自己覺得需要掌握記住的,或者是自己沒有完全了解吃透的

第一章模式識别基本概念

  • 模式識别分為“分類”和“回歸”
    • 分類輸出量是離散的類别表達,即輸出待識别模式所屬的類别
    • 回歸輸出量是連續的信号表達(回歸值),輸出量可以是多個次元
    • 回歸是分類的基礎:離散的類别值是由回歸值做判别決策得到的
    • 模式是關于已有知識的一種表達方式,即函數f(x)
      第二次作業
  • 模式識别:根據已有的知識的表達,針對待識别模式,判别決策其所屬的類别或者預測其對應的回歸值。本質上是一種推理過程
    • 模式:特征提取+回歸器+判别函數
    • 特征提取:從原始輸入資料提取更有效的資訊
    • 回歸器:将特征映射到回歸值
    • 判别函數有sign:二類分類;max:多類分類,取最大的回歸值所在次元的類别
  • 模型通過機器學習方法獲得
    • 目标函數,也稱代價函數或損失函數
    • 在有無數個解的情況下,需要額外添加一個标準,通過優化該标準來确定一個近似解,即目标函數
    • 優化算法:最大化或最小化目标函數的技術
  • 學習方式
    • 監督式學習
      • 訓練樣本和輸出真值都給定的機器學習算法
      • 最常見的學習方式
      • 通常使用最小化訓練誤差作為目标函數進行優化
      • 舉例:
    • 無監督式學習
      • 隻給定訓練樣本、沒有給輸出真值情況下的機器學習算法
      • 無監督式學習算法的難度遠高于監督式算法
      • 根據訓練樣本之間的相似程度來進行決策
      • 舉例:聚類、圖像分割
    • 半監督式學習
      • 既有标注的訓練樣本、又有未标注的訓練樣本情況下的學習算法
      • 看作有限制條件的無監督式學習問題:标注過的訓練樣本作為限制條件
      • 舉例:網絡流資料
  • 泛化能力,通俗來講就是指學習到的模型對未知資料的預測能力。通常通過測試誤差來評價學習方法的泛化能力
    • 過拟合:模型訓練階段表現很好,但是測試階段表現很差,模型過于拟合訓練資料
    • 提高泛化能力
      • 模型選擇,選取合适的多項式階數M
      • 正則化,在目标函數中加入關于參數的正則項,超參數:正則系數λ

        \[\frac{1}{2}\sum_{n=1}^N(y(x_n,w)-t_n)^2+\frac{\lambda}{2}||w||_2^2

        \]

      • 調參:幾乎每個機器學習算法都有超參數,調參需要依據泛化誤差,但不能基于測試集,是以從訓練集中分出一個驗證集,基于驗證集調參
  • 評估方法
    • 留出法,将資料集随機分成訓練集和測試集
    • K折交叉驗證,将訓練集分割成K個子集,從中選取單個子集作為測試集,其他K-1為訓練集,重複K次,每個子集被測試一次,将K次的評估值取平均,作為最終評估結果
    • 留一驗證:取資料集中的一個樣本做測試集,每個樣本測試一次,取平均
  • 性能名額
    • 準确率(正确率)=所有預測正确的樣本/總的樣本 (TP+TN)/總
      • 如果陽性和陰性數量失衡,識别不好
  • 精度= 将正類預測為正類 / 所有預測為正類 TP/(TP+FP)
  • 召回率 = 将正類預測為正類 / 所有正真的正類 TP/(TP+FN)
  • 混淆矩陣:列是預測值,行是真值,對角線的值越大性能越好
    • PR曲線,橫軸召回率,縱軸精度,曲線越往右上凸性能越好
    • ROC曲線:接收者操作特征(receiver operating characteristic)
    • roc曲線上每個點反映着對同一信号刺激的感受性。
      • 縱軸:真正類率(true postive rate TPR),也就是召回率
      • 橫軸:假正類率(false postive rate FPR),陰性中被錯誤識别為陽的

        理想目标:TPR=1,FPR=0,即圖中(0,1)點,此時ROC曲線越靠攏(0,1)點,越偏離45度對角線越好。

    • ROC對各類樣本分布不敏感,PR曲線對各類樣本分布敏感
  • AUG曲線:Area Under Curve被定義為ROC曲線下的面積,顯然這個面積的數值不會大于1。

第二章 基于距離的分類器

  • MED分類器 最小歐式距離分類器Minimum Euclidean Distance Classifier
    • 距離:歐式距離
      第二次作業
    • 比較方法,那個點到兩個類的歐式距離更小就屬于哪個類
    • 最小距離分類法原理簡單,容易了解,計算速度快,但是因為其隻考慮每一類樣本的均值,而不用管類别内部的方差(每一類樣本的分布),也不用考慮類别之間的協方差(類别和類别之間的相關關系),是以分類精度不高,是以,一般不用它作為我們分類對精度有高要求的分類。
  • 特征白化
    • 目的:去除特征之間的相關性:解耦\(W_2\);對特征進行尺度變化:白化\(W_1\),使每維特征的方差相等

      \[W=w_2w_1

  • MICD分類器 最小類内距離分類器Minimum Intra-class Distance Classifier
    • 距離:馬氏距離
    • 比較方法,那個點到兩個類的馬式距離更小就屬于哪個類
    • 缺點,馬氏距離會選擇方差較大的那一個類

第三章貝葉斯決策與學習

  • MAP分類器 最大後驗機率分類器Maximum posterior probability Classifier
    • 後驗機率 :
      第二次作業
    • \(P(c_i)\)類的先驗機率
      • \(P(x|C_i)\)觀測似然機率
    • \(P(x)=\sum_jP(x|c_j)P(c_j)\)所有類樣本x的邊緣機率
    • 比較方法,屬于哪個類的後驗機率比較大就屬于哪個
  • 貝葉斯分類器
    • 貝葉斯分類器在MAP分類器基礎上,加入決策風險因素
    • 選擇方法,選擇決策風險最小的類
    • 損失期望\(R(\alpha_i|x)=\sum_{j}\lambda_{ij}P(C_j|x)\)
    • \(\lambda_{ij}\)指樣本真值為j,判别為i的損失
    • 在決策邊界小于門檻值t的決策都會被拒絕
  • 後驗機率需要知道先驗機率和觀測似然機率機率,可通過機器學習算法得到
  • 監督式學習,參數化方法
    • 最大似然估計
      • 待學習的機率密度函數記作\(P(X|\theta) \theta\)是待學習的參數
      • 聯合機率密度\(p(x_1,x_2...x_n|\theta)=\prod_{n=1}^N{p(x_n|\theta)}\)該函數稱為似然函數
      • 為最大化似然函數,求關于參數p的偏導,令偏導為0
      • 先驗機率的最大似然估計就是該訓練樣本出現的頻率
      • 高斯分布均值和方差的最大似然估計等于樣本的均值和協方差
      • 均值是無偏估計,協方差是有偏估計
    • 貝葉斯估計:給定參數𝜃分布的先驗機率以及訓練樣本,估計參數θ分布的後驗機率
      • 該機率分布的先驗機率已知:𝑝(𝜃)
        第二次作業
        第二次作業
      • 貝葉斯估計具備不斷學習的能力。
      • 它允許最初的、基于少量訓練樣本的、不太準的估計。
      • 随着訓練樣本的不斷增加,可以串行的不斷修正參數的估計值,進而達到該參數的期望真值。
        對于貝葉斯估計還不是很了解,感覺暈暈的。。。課件的例題可以了解,但是其他理論的就說不上來
  • 無參數估計:三個估計機率密度p(x)基于k/NV
    • KNN估計
      • 給定x,找到其對應的區域R使其包括k個訓練樣本
      • 第k個訓練樣本的距離為\(d_k(x)\)則體積為\(2d_k(x)\)
      • 機率密度估計表達為\(p(x)\approx \frac {k}{2d_k(x)}\)
      • 訓練樣本N越大,k越大,機率估計的越準确
      • 優點可以自适應确定x相關的區域R的範圍
      • 缺點:不是連續函數,不是真正的機率密度表達,機率密度函數積分是∞而不是1,要存所有樣本,區域R由第k個決定,易受噪聲影響
    • 直方圖估計
      • R的确定:
        • 将特征空間分為m個各自,每個格子為一個R
        • 平均分格子大小,每個格子體積設V=h固定
        • 相鄰格子不重疊
        • 每個格子裡樣本不固定
      • 優點,固定格子,減少噪聲污染,不用存樣本
      • 缺點,x落在相鄰格子交界處,意味着目前格子不是以模式x為中心,估計不準确;固定區域R,缺乏自适應能力,導緻過于尖銳或平滑
    • 核密度估計
      • 區域R:以任意待估計模式x為中心、固定帶寬h,确定一個區域R
      • 統計k
      第二次作業
      • 優點:類似于knn可以自适應;基于所有樣本,不受噪音影響;如果核函數連續,機率密度也連續,核密度比直方圖更平滑
      • 缺點,要存所有樣本
        • 帶寬h決定了估計機率的平滑程度,選取原則,是有更好的泛化能力

線性判據

第二次作業
  • w的作用:決定了決策邊界的方向,\(w_0\)的作用:決定決策邊界的偏移量,使其能夠滿足兩個類輸出值分别為正負
    第二次作業
  • 從解域中找到最優解:設計目标函數,加入限制條件
    第二次作業
  • 感覺機算法
    • 預處理:在幾何上,通過在特征空間上增加一個次元,使決策邊界過原點,翻轉\(C_2\)類樣本使所有樣本在平面同一側
      第二次作業
      -目标函數:思想:被錯誤分類的樣本最少
      第二次作業
    • 求偏導
      第二次作業
    • 梯度下降法
      第二次作業
  • 并行感覺機
    第二次作業
    • 過程:

      - 初始化參數,a0,步長,門檻值

      - 疊代更新:基于目前梯度更新a,更新集合\(Y_k\)

      - 停止疊代:所有訓練樣本的輸出都大于0,或更新值小于門檻值

  • 串行感覺機:訓練樣本一個一個給出
    • 思想:目前樣本被錯誤分類的程度最小
    • 目标函數:如果目前訓練樣本被錯誤分類,最小化器輸出值取反
      第二次作業
      第二次作業
    • 收斂性:如果訓練樣本線性可分,感覺機則理論上收斂于一個解
    • 當樣本位于決策邊界時,對樣本決策有很大的不确定性
      第二次作業
  • Fisher線性判據
    • 可以看作把原空間各點投影到新的一維空間\(y=w^Tx+w_0\)
    • 投影最佳标準:投影後使不同類别樣本分布的類間差距盡可能大,同時使類内樣本分布的離散程度盡快拿小
      第二次作業
      第二次作業
      第二次作業
    • 求解:對w求偏導,設偏導為0,\(f_FLD(x)=w^T x+w_0=(\mu_1 -\mu_2)^T S_w ^{-1}(x-\mu)\)
    • 完整過程
      第二次作業
  • 支援向量機
    • 思想:使兩個類中與決策邊界孫的訓練樣本到決策邊界之間的間隔最大
    • 支援向量:就是兩個離決策邊界最近的訓練樣本
    • 目标函數
      第二次作業
  • 拉格朗日乘數法
    • 常用來解決條件優化問題
    • 思路
      第二次作業
      第二次作業
      第二次作業
第二次作業
  • 拉格朗日對偶問題
  • 支援向量機學習算法

    待補充