1. 寫在前面
為什麼時隔多年又再做一次混淆矩陣的整理,TMD就是每次用的時候要自己回過頭查一遍,老是記不住,為了打好基礎,再次進行梳理。
2. 為什麼會有混淆矩陣
我們簡單的分類衡量模型的好壞,其實正常使用均方誤差就行了,如下:
其次就是錯誤率:
那麼精度就是1-錯誤率喽:
但是,還有更麻煩的需求,什麼需求?我們後面再說!先看混淆矩陣。
- TP:預測結果是正例(Positive),而且真實情況是正例,那麼模型預測正确,即預測為True,故用True Positive = TP表示。
- FN:預測結果是反例(Negative),而且真實情況是正例,那麼模型預測錯誤,即預測為False,故用False Negative = FN表示。
- FP:預測結果是正例(Positive),而且真實情況是反例,那麼模型預測錯誤,即預測為False,故用False Positive = FN表示。
- TN:預測結果是反例(Negative),而且真實情況是反例,那麼模型預測正确,即預測為True,故用True Negative = TN表示。
綜上:混淆矩陣的含義終于搞清楚了。
3. 那麼衍生出來什麼需求?
借用周志華老師的西瓜書:
模型預測了10個好瓜,但是其中真正的好瓜有多少?
在此用到了查準率:
有20個好瓜,但是模型隻查出了10個好瓜?
在此則用到的被稱為查全率:
4. 再次衍生出F1
什麼是F1,就是P和R的調和平均,即