天天看點

人工智能 之 NLP的Precision(查準率,精确率),Recall(查全率,召回率),Accuracy(準确率)以及綜合評價名額(F1-Measure)

目錄

  • ​​〇、推薦​​
  • ​​一、簡述​​
  • ​​二、羅裡吧嗦​​
  • ​​三、精确率、召回率、F1​​
  • ​​四、AP和mAP(mean Average Precision)​​
  • ​​五、ROC和AUC​​
  • ​​六、總結​​

〇、推薦

無意中發現了一個巨牛的人工智能教程,忍不住分享一下給大家。教程不僅是零基礎,通俗易懂,而且非常風趣幽默,像看小說一樣!覺得太牛了,是以分享給大家。​​點這裡可以跳轉到教程。​​

一、簡述

自然語言處理(NLP)在網上的資料還是很少,于是查詢了相關資料整理出如下文章。

二、羅裡吧嗦

機器學習(ML),自然語言處理(NLP),資訊檢索(IR)等領域,評估(Evaluation)是一個必要的 工作,而其評價名額往往有如下幾點:準确率(Accuracy),精确率(Precision),召回率(Recall)和F1-Measure。(注: 相對來說,IR 的 ground truth 很多時候是一個 Ordered List, 而不是一個 Bool 類型的 Unordered Collection,在都找到的情況下,排在第三名還是第四名損失并不是很大,而排在第一名和第一百名,雖然都是“找到了”,但是意義是不一樣的,是以 更多可能适用于 MAP 之類評估名額。)

本文将簡單介紹其中幾個概念。中文中這幾個評價名額翻譯各有不同,是以一般情況下推薦使用英文。

現在我先假定一個具體場景作為例子。

假如某個班級有男生80人,女生20人,共計100人.目标是找出所有女生.
現在某人挑選出50個人,其中20人是女生,另外還錯誤的把30個男生也當作女生挑選出來了.
作為評估者的你需要來評估(evaluation)下他的工作      

首先我們可以計算準确率(accuracy),其定義是: 對于給定的測試資料集,分類器正确分類的樣本數與總樣本數之比。也就是損失函數是0-1損失時測試資料集上的準确率。

這樣說聽起來有點抽象,簡單說就是,前面的場景中,實際情況是那個班級有男的和女的兩類,某人(也就是定義中所說的分類器)他又把班級中的人分為男女兩類。accuracy需要得到的是此君分正确的人占總人數的比例。很容易,我們可以得到:他把其中70(20女+50男)人判定正确了,而總人數是100人,是以它的accuracy就是70 %(70 / 100)。

由準确率,我們的确可以在一些場合,從某種意義上得到一個分類器是否有效,但它并不總是能有效的評價一個分類器的工作。舉個例子,google抓取 了argcv 100個頁面,而它索引中共有10,000,000個頁面,随機抽一個頁面,分類下,這是不是argcv的頁面呢?如果以accuracy來判斷我的工 作,那我會把所有的頁面都判斷為"不是argcv的頁面",因為我這樣效率非常高(return false,一句話),而accuracy已經到了99.999%(9,999,900/10,000,000),完爆其它很多分類器辛辛苦苦算的值,而我這個算法顯然不是需求期待的,那怎麼解決呢?這就是precision,recall和f1-measure出場的時間了。

在說precision,recall和f1-measure之前,我們需要先需要定義TP,FN,FP,TN四種分類情況.

按照前面例子,我們需要從一個班級中的人中尋找所有女生,如果把這個任務當成一個分類器的話,那麼女生就是我們需要的,而男生不是,是以我們稱女生為"正類",而男生為"負類"。

相關(Relevant),正類 無關(NonRelevant),負類
被檢索到(Retrieved) true positives(TP 正類判定為正類,例子中就是正确的判定"這位是女生") false positives(FP 負類判定為正類,“存僞”,例子中就是分明是男生卻判斷為女生,當下僞娘橫行,這個錯常有人犯)
未被檢索到(Not Retrieved) false negatives(FN 正類判定為負類,“去真”,例子中就是,分明是女生,這哥們卻判斷為男生–梁山伯同學犯的錯就是這個) true negatives(TN 負類判定為負類,也就是一個男生被判斷為男生,像我這樣的純爺們一準兒就會在此處)

通過這張表,我們可以很容易得到這幾個值:

TP=20

FP=30

FN=0

TN=50

精确率(precision)的公式是,它計算的是所有"正确被檢索的item(TP)"占所有"實際被檢索到的(TP+FP)"的比例.

在例子中就是希望知道此君得到的所有人中,正确的人(也就是女生)占有的比例.是以其precision也就是40%(20女生/(20女生+30誤判為女生的男生)).

召回率(recall)的公式是,它計算的是所有"正确被檢索的item(TP)"占所有"應該檢索到的item(TP+FN)"的比例。

在例子中就是希望知道此君得到的女生占本班中所有女生的比例,是以其recall也就是100%(20女生/(20女生+ 0 誤判為男生的女生))

F1值就是精确值和召回率的調和均值,也就是

調整下也就是

例子中 F1-measure 也就是約為 57.143%().

需要說明的是,有人列了這樣個公式

将F-measure一般化.

F1-measure認為精确率和召回率的權重是一樣的,但有些場景下,我們可能認為精确率會更加重要,調整參數a,使用Fa-measure可以幫助我們更好的evaluate結果。

話雖然很多,其實實作非常輕松,點選此處可以看到我的一個簡單的實作。

在資訊檢索、分類體系中,有一系列的名額,搞清楚這些名額對于評價檢索和分類性能非常重要,是以最近根據網友的部落格做了一個彙總。

三、精确率、召回率、F1

資訊檢索、分類、識别、翻譯等領域兩個最基本名額是召回率(Recall Rate)和準确率(Precision Rate),召回率也叫查全率,準确率也叫查準率,概念公式:

召回率(Recall)      =  系統檢索到的相關檔案 / 系統所有相關的檔案總數

             精确率(Precision) =  系統檢索到的相關檔案 / 系統所有檢索到的檔案總數      

圖示表示如下:

人工智能 之 NLP的Precision(查準率,精确率),Recall(查全率,召回率),Accuracy(準确率)以及綜合評價名額(F1-Measure)

A:檢索到的,相關的 (搜到的也想要的)

B:檢索到的,但是不相關的 (搜到的但沒用的)

C:未檢索到的,但卻是相關的 (沒搜到,然而實際上想要的)

D:未檢索到的,也不相關的 (沒搜到也沒用的)

注意:準确率和召回率是互相影響的,理想情況下肯定是做到兩者都高。
但是一般情況下準确率高、召回率就低,召回率低、準确率高,當然如果兩者都低,那是什麼地方出問題了。      

一般情況,用不同的閥值,統計出一組,如下圖:

人工智能 之 NLP的Precision(查準率,精确率),Recall(查全率,召回率),Accuracy(準确率)以及綜合評價名額(F1-Measure)

如果是做搜尋,那就是保證召回的情況下提升準确率;如果做疾病監測、反垃圾,則是保準确率的條件下,提升召回。

是以,在兩者都要求高的情況下,可以用F1來衡量。

F1 =  2 * P * R / (P + R)      

公式基本上就是這樣,但是如何算圖1中的A、B、C、D呢?這需要人工标注,人工标注資料需要較多時間且枯燥,如果僅僅是做實驗可以用用現成的語料。當然,還有一個辦法,找個一個比較成熟的算法作為基準,用該算法的結果作為樣本來進行比照,這個方法也有點問題,如果有現成的很好的算法,就不用再研究了。

四、AP和mAP(mean Average Precision)

mAP是為解決P,R,F-measure的單點值局限性的。為了得到 一個能夠反映全局性能的名額,可以看考察下圖,其中兩條曲線(方塊點與圓點)分布對應了兩個檢索系統的準确率-召回率曲線

人工智能 之 NLP的Precision(查準率,精确率),Recall(查全率,召回率),Accuracy(準确率)以及綜合評價名額(F1-Measure)

可以看出,雖然兩個系統的性能曲線有所交疊但是以圓點标示的系統的性能在絕大多數情況下要遠好于用方塊标示的系統。

從中我們可以 發現一點,如果一個系統的性能較好,其曲線應當盡可能的向上突出。

更加具體的,曲線與坐标軸之間的面積應當越大。

最理想的系統, 其包含的面積應當是1,而所有系統的包含的面積都應當大于0。這就是用以評價資訊檢索系統的最常用性能名額,平均準确率mAP其規範的定義如下:(其中P,R分别為準确率與召回率)

人工智能 之 NLP的Precision(查準率,精确率),Recall(查全率,召回率),Accuracy(準确率)以及綜合評價名額(F1-Measure)

五、ROC和AUC

ROC和AUC是評價分類器的名額,上面第一個圖的ABCD仍然使用,隻是需要稍微變換。

人工智能 之 NLP的Precision(查準率,精确率),Recall(查全率,召回率),Accuracy(準确率)以及綜合評價名額(F1-Measure)

回到ROC上來,ROC的全名叫做Receiver Operating Characteristic。

ROC關注兩個名額

True Positive Rate ( TPR ) = TP / [ TP + FN] ,TPR代表能将正例分對的機率

False Positive Rate( FPR ) = FP / [ FP + TN] ,FPR代表将負例錯分為正例的機率

在ROC 空間中,每個點的橫坐标是FPR,縱坐标是TPR,這也就描繪了分類器在TP(真正的正例)和FP(錯誤的正例)間的trade-off。ROC的主要分 析工具是一個畫在ROC空間的曲線——ROC curve。我們知道,對于二值分類問題,執行個體的值往往是連續值,我們通過設定一個門檻值,将執行個體分類到正類或者負類(比如大于門檻值劃分為正類)。是以我們 可以變化門檻值,根據不同的門檻值進行分類,根據分類結果計算得到ROC空間中相應的點,連接配接這些點就形成ROC curve。ROC curve經過(0,0)(1,1),實際上(0, 0)和(1, 1)連線形成的ROC curve實際上代表的是一個随機分類器。一般情況下,這個曲線都應該處于(0, 0)和(1, 1)連線的上方。如圖所示。

人工智能 之 NLP的Precision(查準率,精确率),Recall(查全率,召回率),Accuracy(準确率)以及綜合評價名額(F1-Measure)

用ROC curve來表示分類器的performance很直覺好用。可是,人們總是希望能有一個數值來标志分類器的好壞。

于是Area Under roc Curve(AUC)就出現了。顧名思義,AUC的值就是處于ROC curve下方的那部分面積的大小。通常,AUC的值介于0.5到1.0之間,較大的AUC代表了較好的Performance。

AUC計算工具:

​​http://mark.goadrich.com/programs/AUC/​​

P/R和ROC是兩個不同的評價名額和計算方式,一般情況下,檢索用前者,分類、識别等用後者。

參考連結:

​​http://www.vanjor.org/blog/2010/11/recall-precision/​​

​​http://bubblexc.com/y2011/148/​​

​​http://wenku.baidu.com/view/ef91f011cc7931b765ce15ec.html​​

:Recall,又稱“查全率”——還是查全率好記,也更能展現其實質意義。

準确率

“召回率”與“準确率”雖然沒有必然的關系(從上面公式中可以看到),在實際應用中,是互相制約的。要根據實際需求,找到一個平衡點。

當 我們問檢索系統某一件事的所有細節時(輸入檢索query查詢詞),Recall指:檢索系統能“回憶”起那些事的多少細節,通俗來講就是“回憶的能 力”。“能回憶起來的細節數” 除以 “系統知道這件事的所有細節”,就是“記憶率”,也就是recall——召回率。簡單的,也可以了解為查全率。

在人工智能中,混淆矩陣(confusion matrix)是可視化工具,特别用于監督學習,在無監督學習一般叫做比對矩陣。

如有150個樣本資料,這些資料分成3類,每類50個。分類結束後得到的混淆矩陣為:

人工智能 之 NLP的Precision(查準率,精确率),Recall(查全率,召回率),Accuracy(準确率)以及綜合評價名額(F1-Measure)

每一行之和為50,表示50個樣本,

第一行說明類1的50個樣本有43個分類正确,5個錯分為類2,2個錯分為類3

六、總結

中文的翻譯有點亂,大緻是這樣的:Precision(查準率,精确率),Recall(查全率,召回率),Accuracy(準确率)。下面提到這三個名詞都用英文表示。

  從一個例子入手:我們訓練了一個識貓模型,送一張圖檔給模型,模型就能告訴你該圖檔是否有貓。目标是找出所有有貓圖檔。

  下面送100張有貓的圖檔,和100張無貓的圖檔給模型。假設預測的結果如下:

例子 圖檔有貓 圖檔沒有貓
模型識别有貓(Positive) 90 5
模型識别沒有貓(Negative) 10 95

繼續閱讀