作業2
評估方法
留出法
資料集分成兩部分,一部分訓練,一部分拿來測試。
K 折交叉驗證
資料集分成 K 部分,K-1 部分訓練,一部分拿來測試。輪流進行 K 次。
留一驗證
每次隻取資料集中的一個樣本做測試集,剩餘的做訓練集。
K 等于資料集數量的 K 折交叉驗證
評價名額
基本概念
真陽性(TP),假陽性(FP),真陰性(TN),假陰性(FN)
準确度
\(Accuracy = \frac{TP+TN}{TN+FN+FP+TP}\)
精度
\(precision = \frac{TP}{FP+TP}\)
召回率
\(recall = \frac{TP}{FN+TP}\)
F-Score
\(F = \frac{(a^2+1)*precision*recall}{a^2*precision+recall}\)
分類器
MED 分類器
歐式距離,計算平均歐式距離,平均距離離得近的就是那一類。
缺點:沒有考慮特征變化的不同及特征之間的相關性。
MICD 分類器
馬式距離,計算平均馬式距離,平均距離離得近的就是那一類。
缺點:會選擇方差較大的類。
特征白化
特征轉換分為兩步:先去除特征之間的相關性(解耦),然後再對特征進行尺度變換(白化),使每維特征的方差相等。
解耦:去除相關性。
白化:方差一緻。
貝葉斯規則
\(p(C_i|x)=\frac{p(x|C_i)p(C_i)}{p(x)}\)
\(p(Ci)\) 先驗機率
\(p(x|Ci)\) 觀測似然機率
\(p(x)=∑jp(x|cj)p(cj)\),所有類别樣本x的邊緣機率
MAP 分類器
利用後驗機率作為度量标準,最大後驗機率分類器
最大似然估計
給定的N個訓練樣本都是符合iid條件的,從 \(p(x|θ)\) 采樣
線性判據
若判别模型 \(f(x)\) 是線性函數,則 \(f(x)\) 為線性判據,适合于二分類問題,決策邊界為線性的,多分類問題下任意兩類的決策邊界也是線性。
優勢是計算量少,适用于訓練樣本少的情況。
Fisher 判據
利用一些方法進行降維,然後盡量增大類間距離(類間散度),減小類内距離(類内散度)
支援向量機
選兩類中距離決策邊界最大的訓練樣本,使這兩個向量距離盡可能大,來達到增大類間散度的目的。這兩個向量被稱作支援向量。
拉格朗日乘數法
求解條件下的最優解