模式識别的基本概念
- 模式識别:根據已有知識的表達,針對待識别模式,判别決策其所屬的類别或者預測其對應的回歸值。模式識别本質上是推理的過程。
第二次作業 - 數學表達:模式識别可以看做一種函數映射f(x),将待識别模式x從輸入空間映射到輸出空間。函數F(x)是關于已有知識的表達。
- 模型:已有知識的表達式y=f(x)。
- 模型的組成:特征提取+回歸器
- 特征: 用于區分不同類别的、可觀測的量,具有辨識能力和魯棒性。
機器學習的基本概念
機器學習使用訓練樣本學習模型的參數和結構。模型結構分為線性結構和非線性結構。機器學習分為,無監督、半監督、監督式學習三種。
模型泛化能力
- 泛化能力指的是器學習方法訓練出來一個模型,對于已知的資料(訓練集)性能表現良好,對于未知的資料(測試集)也應該表現良好的機器能力。泛化能力低會導緻過拟合,即在訓練階段表現良好在測試階段表現很差。是以不要過度訓練,或者引入正則項。
評估方法與性能名額
- 評估方法:留出法,K折交叉驗證,留一驗證。
- 性能名額:準确度:将陽性和陰性綜合起來度量識别正确的程度。精度:預測為陽性樣本的準确程度。召回率:全部陽性樣本中被預測為陽性的比例。
基于距離的分類器
MED分類器
- 定義:把測試樣本到每個類之前的距離作為決策模型,将測試樣本判定為與其距離最近的類。
類的原型
- 概念:用來代表這個類的一個模式或者一組量,便于計算該類和測試樣本之間的距離
\[d(x,Ci)=d(y,Zi)
\]
其中Zi表示類Ci的原型
原型的種類
均值
最近鄰
距離度量
方式:歐氏距離,曼哈頓距離,權重歐氏距離
概念:最小歐氏距離分類器。
- 距離衡量:歐氏距離
- 類的原型:均值
- 決策邊界
第二次作業
特征白化
目的:去除特征變化的不同及特征之間的相關性。
- 特征正交白化
第二次作業 第二次作業 - 特征解耦
第二次作業
MICD分類器
概念:最小類内距離分類器,基于馬氏距離的分類器。
- 判别公式
第二次作業 -
第二次作業
貝葉斯決策與學習
貝葉斯決策與MAP分類器
- 後驗機率:
第二次作業 - 貝葉斯規則:
第二次作業 - MAP分類器:
第二次作業
MAP分類器:高斯觀測機率
- 觀測機率:單維高斯分布
第二次作業 - 決策邊界:
第二次作業
決策風險與貝葉斯分類器
- 決策風險和損失的概念
第二次作業 第二次作業 - 風險評估
第二次作業
貝葉斯分類器
在MAP分類器的基礎上,加入決策風險因素。
- 樸素貝葉斯分類器
第二次作業
最大似然估計
定義
- 目标函數
第二次作業 -
第二次作業 - 協方差
第二次作業
最大似然的估計偏差
- 高斯分布均值的最大似然估計是無偏估計,協方差的最大似然估計是有偏估計。
貝葉斯估計
概念
KNN估計
線性判據與回歸
線性判據基本概念
生成模型
判别模型
線性判據學習概述
- 線性判據
第二次作業 - 學習和識别過程
第二次作業
如何找最優解
-
第二次作業
并行感覺機算法
- 算法流程
第二次作業
串行感覺機算法
-
第二次作業
Fisher線性判據
設計動機:線性判據的模型可以看做把原空間個點 x 投影到新的以為空間y
- 原理
第二次作業
支援向量機基本概念
拉格朗日乘數法
- 等式限制
第二次作業 第二次作業
拉格朗日對偶問題
*對偶函數
支援向量機學習算法
算法過程
- 1建構拉格朗日函數
第二次作業 - 2建構對偶函數
第二次作業