機器學習第二次作業

第一章節

導圖

知識點總結歸納

第一節
- 模式識别的應用執行個體
- 分類與回歸
  
  分類：輸出量是離散的表達（二類/多類分類）
  
  回歸：輸出量是連續的信号表達（單個/多個次元）
第二節
- 模型
  
  用于回歸特征提取：從原始輸入擷取有效資訊
  
  回歸器：将特征值映射到回歸值
  
  用于分類分類器：回歸器+判别函數
  
  判别函數：sign函數(二分類) max函數(多類分類)
- 特征&特征空間
  
  魯棒性：針對不同的觀測調節，仍能有效表達類别之間的差異性
  
  特征向量：多個特征構成列向量
第三節
- 特征向量相關性
  特征向量點積：
  
  機器學習第二次作業
  
  點積結果是一個标量表達，點積具有對稱性，是一個線性變換，
  
  幾何意義：點積可以表示方向上的相似度，為0說明兩個向量是正交的
  
  機器學習第二次作業
  
  夾角說明兩個向量在方向上的差異性
  
  特征向量投影：
  
  機器學習第二次作業
  
  将向量x垂直投影到向量y方向上的長度
  
  含義：向量x分解到向量y方向上的程度，分解的越多，兩個向量方向越相似
  
  點積可以通過投影表達：向量x y的點積=向量x→y的投影×向量y的模長
  
  如果向量y是一個機關向量，則向量x y之間的點積等于向量x到向量y的投影
  
  殘差向量：向量x分解到向量y方向上得到的投影向量與原向量x的誤差
  歐氏距離：兩個向量間的相似程度
第四節
- 模型得到
  線性模型：
  适用于資料是線性可分/線性表達的資料
  
  非線性模型：（曲面，曲線，超曲面）适用于線性不可分/線性不可表達的資料
  
  目标函數：代價函數損失函數
- 機器學習方式
  
  監督式學習：訓練樣本以及輸出真值都給定情況下機器學習算法
  
  無監督式學習：隻給定訓練樣本，沒有給輸出真值的機器學習算法
  
  半監督學習：既有标注的訓練樣本，又有未标注的訓練樣本情況下的學習算法
  
  強化學習：機器自行探索決策，真值滞後回報的過程
第五節
- 模型泛化能力
  
  訓練集：模型訓練所用的樣本資料
  
  測試集：測試模型所用的樣本資料
  
  泛化能力：訓練得到的模型不僅要對訓練樣本具有決策能力，還要對新的模式具有決策能力
  
  過拟合：模型訓練階段表現很好，測試階段表現很差，模型過于拟合訓練資料
  
  防止過拟合：模型選擇合适的多項式階數
  
  正則化，調節正則系數降低過拟合程度
第六節
- 評估方法
  
  留出法：将資料集随機分為兩組訓練集和測試集
  
  K折交叉驗證：
  
  留一驗證：每次隻取資料集中的一個樣本做測試集，剩餘的做訓練集
- 性能名額度量
  
  準确度：将陽性陰性綜合起來度量識别正确的程度
  
  精度：預測為陽性樣本的準确程度
  
  召回率：敏感度，全部陽性樣本為陽性比例
  
  F-Score：權重平均，綜合精度和召回率
  
  混淆矩陣：矩陣的清單示預測值，行表示真值對角線元素值越大模型性能越好
  
  曲線度量：PR曲線橫軸召回率縱軸精度
  
  ROC曲線橫軸度量所有陰性樣本被識别為陽性的比例縱軸召回率
  
  AUC曲線下方面積 =1完美分類器 <0.5比随機猜測還差 >0.5優于随機猜測

課後總結

模式識别是根據已有知識的表達，針對待識别模式，判别決策其所屬的類别或者預測其對應回歸值。其數學解釋可以看作為一種函數映射f(x)，将待識别模式x從輸入空間映射到輸出空間。

模型防止過拟合，應該提高其泛化能力，選擇合适的模型+正則化，模型可用評估方法評價其。

第二章節

- 基于距離分類
  
  定義：把測試樣本到每個類之間距離作為決策模型，将測試樣本判定為其距離最近的
  
  該類所有訓練均值作為類的原型
  
  原型種類：
  
  最近鄰：從一類的訓練樣本中，選取與測試樣本距離最近的一個訓練樣本，作為該類的原型，類原型取決于測試樣本
  
  距離度量：歐氏距離，曼哈頓距離，權重歐式距離
  
  MED分類器：最小歐式距離，類的原型為均值
- 特征白化
  
  目的：将原始特征映射到一個新的特征空間，使得新空間中特征協方差為機關矩陣，進而去除特征變化的不同及特征之間的相關性
  
  特征轉化：解耦（去除特征相關性），白化（使每維特征方差相等）
- MICD分類器
  
  最小類内距離分類器，基于馬氏距離的分類器
  
  缺陷是選擇方差較大的類

MED分類器采用歐式距離為距離度量，沒考慮特征變化的不同及特征之間的相關性，MICD考慮了特征之間的相關性，但是其缺陷會選擇方差較大的類。

第三章節

- 貝葉斯決策與MAP分類器
  
  後驗機率：表達給定模式x屬于類Ci可能性 P(Ci|x)
  
  貝葉斯規則：
  
  機器學習第二次作業
  MAP分類器：将測試樣本決策分類給後驗機率最大的那個類
- MAP分類器
  
  觀測機率：機關高斯分布
  
  分類器決策偏向于先驗機率高的類，分布較為緊緻的類
- 決策風險與貝葉斯分類器
  
  貝葉斯決策不能排除錯誤判斷的情況，是以帶來決策風險
  
  貝葉斯分類器決策目标：最小化期望損失
  
  樸素貝葉斯分類器，特征次元高，簡化
- 最大似然估計
  
  監督式學習根據機率分布形式可分為：參數化方法，非參數化方法
  
  參數估計方法：最大似然估計，貝葉斯估計
- 最大似然估計偏差
  
  無偏估計：一個參數估計量的數學期望是該參數的真值
  
  高斯分布的均值是無偏估計，協方差是有偏估計
第六節第七節
- 貝葉斯估計
  
  貝葉斯估計：給定參數θ分布的先驗機率以及訓練樣本，估計參數θ分布的後驗機率
  
  貝葉斯估計具有不斷學習的能力，最初少量的訓練樣本，不太準确的估計，随着訓練樣本增加，串行不斷修正參數估計值，進而達到該參數的期望真值
第八節
- KNN估計
  
  K近鄰：給定x，找到其對應區域R使其包含k個訓練樣本，以此計算P(X)
  
  優點：可以自适應的确定相關的區域R範圍
  
  缺點：KNN機率密度估計不是連續函數，不是真正的機率密度表達
第九節
- 直方圖估計
  
  基于無參數機率密度估計的基本原理
  
  直接把特征空間分為m個格子，每個格子一個區域R，區域位置固定，平分格子大小，區域大小固定，k值不用給定得到的機率密度不連續
  
  優點：固定區域R減少由于噪聲造成估計誤差
- 核密度估計
  
  也是基于無參數機率密度估計的基本原理
  
  核函數：高斯分布，均勻分布，三角分布
  
  确定：不提前根據訓練樣本估計每個格子統計值，是以要存儲所有訓練樣本

MAP分類器基于貝葉斯分類器引入決策誤差，MAP分類器決策目标是分類誤差最小化

第四章節

- 生成模型
  給定訓練樣本{Xn}，直接在輸入空間内學習器機率密度函數p(x)
優勢：根據p(X)采樣新的樣本資料，可以檢測較低機率的資料，實作離群點檢測

劣勢：高緯x需要大量訓練樣本才能準确估計p(x)，否則會出現次元災難
- 判别模型
  
  給定訓練樣本{Xn}，直接在輸入空間内估計後驗機率p(Ci|x)
  
  優勢：快速，省去了耗時的高緯度觀測似然機率估計
- 線性判據
  
  如果判别函數f(x)是線性函數，則f(x)為線性判據
  
  優勢：計算量少，适合訓練樣本較小情況
- 線性判據參數
  w權重向量，w0偏置量
  
  機器學習第二次作業
- 參數空間&解域
  
  參數空間：各個參數次元構成的空間
  
  解域：參數空間中，參數的所有可能解所處範圍
- 找最優解
  
  設計目标函數
  
  常見目标函數：誤差(均方差),交叉熵。。。
  
  加入限制條件提高泛化能力
- 感覺機算法
  
  預處理：根據标記過的樣本，學習參數w，w0
  
  梯度下降法：使用目前梯度值疊代更新參數
- 串行感覺機算法
  
  訓練樣本是一個個串行給出的
  
  收斂性：感覺機算法理論收斂于一個解
  
  步長決定收斂速度，以及是否收斂到全局或者局部最優
- Fisher線性判據
  
  找到一個最合适的投影軸，使兩類樣本在該軸上投影的重疊部分最少，使得分類效果最佳
  
  投影後，使得不同類别樣本分布的類間差異盡量大，同時使得各自類内樣本分布離散程度盡量小
- 支援向量機
  給定訓練樣本，使得兩個類中與決策邊界最近的訓練樣本到決策邊界之間的間隔最大
第七節
- 拉格朗日乘數法
  最常用對支援向量機的條件優化問題
- 主問題
  對于不等式限制，主問題難以求解
- 拉格朗日對偶問題
  
  對偶函數自變量為Γ和Λ，與x無關
  
  對偶函數為凹函數，由于木匾函數LD為凹函數，是以對偶問題是凸優化問題
- 建構對偶函數
  
  對偶問題的求解是标準的關于λ的二次規劃問題
  
  可以調用quadprog函數

支援向量機目标是最大化總間隔，拉格朗日乘法解決該問題。