天天看點

分類之混淆矩陣(Confusion Matrix)

1. 寫在前面

為什麼時隔多年又再做一次混淆矩陣的整理,TMD就是每次用的時候要自己回過頭查一遍,老是記不住,為了打好基礎,再次進行梳理。

2. 為什麼會有混淆矩陣

我們簡單的分類衡量模型的好壞,其實正常使用均方誤差就行了,如下:

其次就是錯誤率:

那麼精度就是1-錯誤率喽:

但是,還有更麻煩的需求,什麼需求?我們後面再說!先看混淆矩陣。

分類之混淆矩陣(Confusion Matrix)
  • TP:預測結果是正例(Positive),而且真實情況是正例,那麼模型預測正确,即預測為True,故用True Positive = TP表示。
  • FN:預測結果是反例(Negative),而且真實情況是正例,那麼模型預測錯誤,即預測為False,故用False Negative = FN表示。
  • FP:預測結果是正例(Positive),而且真實情況是反例,那麼模型預測錯誤,即預測為False,故用False Positive = FN表示。
  • TN:預測結果是反例(Negative),而且真實情況是反例,那麼模型預測正确,即預測為True,故用True Negative = TN表示。

綜上:混淆矩陣的含義終于搞清楚了。

3. 那麼衍生出來什麼需求?

借用周志華老師的西瓜書:

模型預測了10個好瓜,但是其中真正的好瓜有多少?

在此用到了查準率:

有20個好瓜,但是模型隻查出了10個好瓜?

在此則用到的被稱為查全率:

4. 再次衍生出F1

什麼是F1,就是P和R的調和平均,即

分類之混淆矩陣(Confusion Matrix)

繼續閱讀