圖中表格裡面的資料的看法是:P和N分别加上單元格内的T(true)或者F(false)

舉例:
假設我們有60個正樣本,40個負樣本,我們要找出所有的正樣本。系統預測出50個,其中隻有40個是真正的正樣本,計算上述各名額:
TP:将正類預測為正類數 40
FP:将負類預測為正類數 (60-40)=20
FN:将負類預測為正類數 (50-40)=10
TN:将負類預測為負類數(40-10)=30
準确類:(accuracy)=預測對的/所有=(TP+TN)/P+N=(40+30)/(60+40)=70%
精準率:(precision)=TP/(TP+FN)=40/(40+10)=80%
召回率:(recall)=TP/(TP+FP)=40/(40+20)=2/3
精準率====樣本中預測的的正例數占總預測正例數的比例(精準率是針對我們預測結果而言的)
召回率====樣本中預測的正例數占總樣本中正例數的比例(召回率是針對我們原來的樣本而言的)
左圖中的表: inst#索引号表示該圖中一共有20個樣本 class 測試樣本本屬于的類别号 (p-正類,N-負類) score通過模型預測的為正類的機率。
右圖中(對左邊表的圖形表示):x坐标表示:fp.rate.(FP/N)縱坐标y表示:tp.rate(TP/P)
針對第一條資料:預測為正類得到機率為0.9是以,預測為正類屬于p,預測對了。是以在y軸上走。
第二條:預測為正類得到機率為0.8是以,預測為正類屬于p,預測對了。是以在y軸上走。
第三條:預測為正類得到機率為0.7是以,預測為正類屬于p,預測錯了。是以在x軸上走即水準走。
。。。。
是以最後左圖表就可以轉換成右圖,将其中的點連接配接。可以化成一個曲線 ,該曲線就叫做AUC曲線
如下圖所示:
當曲線在黃色的線之上時,表示預測正确率大于50%(例如紅色的線),在黃色線之下的時候表示預測率小于50%(例如水紅色的線)。但是機器不可能知道曲線是在黃色的線上面還是下面,是以這個時候可以求面積。如果曲線下面的面試小于0.5,則表示該預測的機率大于0.5。其中曲線稱為AUC曲線。曲線下的面試稱為ROC面試
計算曲線下的面積的公式:
M:樣本中的正類數,N樣本中的負類數。
:表示将表格裡面的值按照score升序排序,拿正類樣本所對應的樣本的索引号累加起來得值。