天天看點

作業2

作業2

評估方法

留出法

資料集分成兩部分,一部分訓練,一部分拿來測試。

K 折交叉驗證

資料集分成 K 部分,K-1 部分訓練,一部分拿來測試。輪流進行 K 次。

留一驗證

每次隻取資料集中的一個樣本做測試集,剩餘的做訓練集。

K 等于資料集數量的 K 折交叉驗證

評價名額

基本概念

真陽性(TP),假陽性(FP),真陰性(TN),假陰性(FN)

準确度

\(Accuracy = \frac{TP+TN}{TN+FN+FP+TP}\)

精度

\(precision = \frac{TP}{FP+TP}\)

召回率

\(recall = \frac{TP}{FN+TP}\)

F-Score

\(F = \frac{(a^2+1)*precision*recall}{a^2*precision+recall}\)

分類器

MED 分類器

歐式距離,計算平均歐式距離,平均距離離得近的就是那一類。

缺點:沒有考慮特征變化的不同及特征之間的相關性。

MICD 分類器

馬式距離,計算平均馬式距離,平均距離離得近的就是那一類。

缺點:會選擇方差較大的類。

特征白化

特征轉換分為兩步:先去除特征之間的相關性(解耦),然後再對特征進行尺度變換(白化),使每維特征的方差相等。

解耦:去除相關性。

白化:方差一緻。

貝葉斯規則

\(p(C_i|x)=\frac{p(x|C_i)p(C_i)}{p(x)}\)

\(p(Ci)\) 先驗機率

\(p(x|Ci)\) 觀測似然機率

\(p(x)=∑jp(x|cj)p(cj)\),所有類别樣本x的邊緣機率

MAP 分類器

利用後驗機率作為度量标準,最大後驗機率分類器

最大似然估計

給定的N個訓練樣本都是符合iid條件的,從 \(p(x|θ)\) 采樣

線性判據

若判别模型 \(f(x)\) 是線性函數,則 \(f(x)\) 為線性判據,适合于二分類問題,決策邊界為線性的,多分類問題下任意兩類的決策邊界也是線性。

優勢是計算量少,适用于訓練樣本少的情況。

Fisher 判據

利用一些方法進行降維,然後盡量增大類間距離(類間散度),減小類内距離(類内散度)

支援向量機

選兩類中距離決策邊界最大的訓練樣本,使這兩個向量距離盡可能大,來達到增大類間散度的目的。這兩個向量被稱作支援向量。

拉格朗日乘數法

求解條件下的最優解

上一篇: 2020助教總結
下一篇: 作業一