天天看點

分類模型的性能評價名額(Classification Model Performance Evaluation Metric)

二分類模型的預測結果分為四種情況(正類為1,反類為0):

  • TP(True Positive):預測為正類,且預測正确(真實為1,預測也為1)
  • FP(False Positive):預測為正類,但預測錯誤(真實為0,預測為1)
  • TN(True Negative):預測為負類,且預測正确(真實為0,預測也為0)
  • FN(False Negative):預測為負類,但預測錯誤(真實為1,預測為0)
分類模型的性能評價名額(Classification Model Performance Evaluation Metric)

TP+FP+TN+FN=測試集所有樣本數量。

分類模型的性能評價名額(Performance Evaluation Metric)有:

準确率(Accuracy):所有分類正确的樣本數量除以總樣本數量

分類模型的性能評價名額(Classification Model Performance Evaluation Metric)

錯誤率(Error Rate):所有分類錯誤的樣本數量除以總樣本數量

分類模型的性能評價名額(Classification Model Performance Evaluation Metric)

    (其中

分類模型的性能評價名額(Classification Model Performance Evaluation Metric)

為訓示函數,滿足要求則為1,不滿足為0)

錯誤率等于一減準确率:

分類模型的性能評價名額(Classification Model Performance Evaluation Metric)

混淆矩陣(Confusion Matrix):把真實值和預測值相對應的樣本數量列出來的一張交叉表。這樣,所有正确的預測結果都在其對角線上,是以從混淆矩陣中可以很直覺地看出哪裡有錯誤。

分類模型的性能評價名額(Classification Model Performance Evaluation Metric)
分類模型的性能評價名額(Classification Model Performance Evaluation Metric)

準确率或錯誤率是最基本的分類模型性能評價名額。但是有時候各類别樣本數量不均衡,比如說,在一共100個測試樣本中,正類樣本有98個,負類樣本隻有2個,那麼我們隻需要把模型做成把所有樣本都判為正類即可,這樣準确率可以達到98%。但是這樣的模型毫無意義。

即使各類别樣本數量比較均衡,但如果我們更關心其中某個類别,那麼我們就需要選擇我們感興趣的類别的各項名額來評價模型的好壞。是以,人們又發明出了查全率和查準率等名額。

精确度(Precision):在所有預測為正類的樣本中,預測正确的比例,也稱為查準率

分類模型的性能評價名額(Classification Model Performance Evaluation Metric)

召回率(Recall):在所有實際為正類的樣本中,預測正确的比例,也稱為查全率

分類模型的性能評價名額(Classification Model Performance Evaluation Metric)

查準率和查全率是一對沖突的度量。一般來說,查準率高時,查全率往往偏低;而查全率高時,查準率往往偏低。如果對這兩個名額都有要求,那麼可以計算模型的F1值或檢視PR曲線。

F1值(F1 Score):查準率和查全率的調和平均值

分類模型的性能評價名額(Classification Model Performance Evaluation Metric)

P-R曲線(Precision-Recall Curve):以precision為y軸,以recall為x軸,取不同的分類門檻值,在此基礎上畫出來的一條曲線就叫做PR曲線。PR曲線越接近右上角(precision=1, recall=1),代表模型越好。若一個模型的PR曲線被另一個模型的PR曲線完全“包住”,則可斷言後者的性能優于前者;但若二者的曲線發生了交叉,則難以一般性地斷言兩者孰優孰劣,隻能在具體查準率或查全率條件下比較。一般而言,比較 P-R 曲線下面積的大小,可一定程度上表征模型在查準率和查全率上取得相對 “雙高”的比例,但該值不太容易計算。是以其它相對容易計算的性能度量被提出。

分類模型的性能評價名額(Classification Model Performance Evaluation Metric)

真正率(True Positive Rate,TPR):TPR = TP/(TP+FN),TPR越大越好,1為理想狀态

假正率(False Positive Rate,FPR):FPR = FP/(TN+FP),FPR越小越好,0為理想狀态

靈敏性(Sensitivity): True Positive Rate,等同于召回率

特異性(Specificity): True Negative Rate,Specificity = 1- False Positive Rate,SPC = TN/(FP + TN)

這幾個性能名額不受不均衡資料的影響。若要綜合考慮TPR和FPR,那麼可以檢視ROC曲線。

ROC曲線(Receiver Operating Characteristic Curve):全稱“受試者工作特征”曲線。以“真正率”(True Positivate Rate,簡稱 TPR)為y軸,以“假正例”(False Positive Rate,簡稱 FPR)為x軸,取不同的分類門檻值,在此基礎上畫出來的一條曲線就叫做ROC曲線。ROC曲線越接近左上角(true positive rate=1, false positive rate=0),代表模型性能越好。與 P-R 曲線一樣,若一個模型的 ROC 曲線被另一個模型的曲線完全“包住”,則斷言後者的性能優于前者;若有交叉,則難以一般斷言,此時可通過比較ROC曲線下的面積來判斷。

分類模型的性能評價名額(Classification Model Performance Evaluation Metric)

AUC(Area Under Curve):曲線下面積。AUC越大,代表模型性能越好。若AUC=0.5,即ROC曲線與上圖中的虛線重合,表示模型的區分能力與随機猜測沒有差别。

以上說的是二分類的場景。對于多分類問題,有兩種方法計算其性能評價名額:

方法一:将多分類問題拆解成n個一對其餘的二分類問題,這樣可以得到n個混淆矩陣,分别計算出每個類别的precision和recall,再将其平均,即得到”宏查準率“(macro-P),”宏查全率“(macro-R),相應計算出的的F1值稱為”宏F1“(macro-F1)。對每個類别計算出樣本在各個門檻值下的假正率(FPR)和真正率(TPR),進而繪制出一條ROC曲線,這樣總共可以繪制出n條ROC曲線,對n條ROC曲線取平均,即可得到最終的ROC曲線。

分類模型的性能評價名額(Classification Model Performance Evaluation Metric)

方法二:将多分類問題拆解成n個一對其餘的二分類問題,這樣可以得到n個混淆矩陣,把所有混淆矩陣中的TP,NP,FP,FN計算平均值 ,再用這些平均值計算出查準率和查全率,稱為”微查準率“(micro-P),”微查全率“(micro-R),由微查準率和微查全率計算出的F1值稱為 ”微 F1“(micro-F1)。

分類模型的性能評價名額(Classification Model Performance Evaluation Metric)

對于多分類問題,macro-average(宏平均) 要比 micro-average(微平均) 好,因為宏平均受樣本數量少的類别影響較大。

參考:https://www.zhihu.com/question/30643044

繼續閱讀