天天看點

文本分類——算法性能評估資料集評估名額

内容提要

  • 資料集
    • 英文語料
    • 中文語料
  • 評估名額
    • 召回率與準确率
    • F1-評測值
    • 微平均與宏平均
    • 混淆矩陣

  優秀的文本分類模型必須經得住真實資料集的驗證,因而分類器必須在通用的資料集上進行測試。用于文本分類的資料集一般稱為語料庫。

  語料庫指經科學取樣和加工的大規模電子文本庫。借助計算機分析工具,研究者可開展相關的語言理論及應用研究。語料庫中存放的是在語言的實際使用中真實出現過的語言材料;語料庫是以電子計算機為載體承載語言知識的基礎資源;真實語料需要經過加工(分析和處理),才能成為有用的資源。

資料集

  機器學習是一個認識事物、擷取知識的過程。其任務是把現有的對客觀事物的認識與了解進行選擇、提取、組織與分類。通過對大量的真實文本的學習來發現和探索自然語言的各種事實與規律。機器學習的所擷取的知識對象一般稱為資料集。自然語言處理領域的資料集一般稱為語料庫。語料庫的建設已經經曆了半個多世紀的發展曆程。從最早的上世紀六十年代初的布朗語料庫和七十年代初的LOB語料庫,一直發展到美國計算機語言協會ACL/DCI語料庫的建設。語料庫語言學目前已經成為自然語言處理領域的熱門科研課題。

  文本分類的主流模型是基于統計學建立,統計機器學習模型的基礎就是要有統計來源或素材,是以語料庫在文本分類研究中的地位非常關鍵。分類器的實作需要建立在一個已經人工标注好的訓練資料集上,訓練集品質的優劣對文本分類的性能有着決定性的意義。語料庫不僅能夠為分類器提供機器學習的素材,而且可以評測分類器的分類性能,指導優化分類效果。

  用于文本分類的語料庫一般分為平衡語料庫和非平衡語料庫。語料庫中每一個類的文本數相等或大緻相等一般稱為平衡語料庫,而每個類别下文本數不相等的語料庫稱為非平衡語料庫。兩種語料庫對文本分類的研究都有重要的意義。

英文語料

  a) 20_Newsgroups 資料集:卡内基梅隆大學的Lang于1995年收集并整理的包含19997篇文檔約平均分布在20個類别中的Usenet新聞討論區語料。Newsgroups已經成為文本分類及聚類中常用的資料集。麻省理工學院(MIT)的 Jason Rennie 對其作了必要的處理,形成 Newsgroups-18828。原始 Newsgroups 屬于平衡語料庫。

  b) Reuters-21578 資料集:路透社人工彙集和分類形成,共包含路透社1987年的21578篇新聞稿,一般作為英文檔案分類領域的基準語料庫。該語料庫為非平衡語料庫。

  c) OHSUMED 資料集:由 William Hersh 等人共同收集并整理,文檔來源于醫藥資訊資料庫MEDLINE10,收集從1987 至1991 年270個醫藥類期刊的标題和(或)摘要,共含有348566篇文檔。

中文語料

  a) TanCorpV1.0 資料集:中國科學院計算技術研究所譚松波收集整理。該語料庫分為兩層,第一層12個類别,第二層60個類别,共包含文本14150篇。該語料庫每個類包含文本數差異較大,為典型的非平衡語料庫。

  b) 搜狗實驗室資料集:經過編輯手工整理與分類的新聞語料,新聞來源于搜狐新聞網站。搜狗實驗室根據需求不同整理了多個版本。一般常用的是SogouC.reduced.20061127語料庫,分為9個大類别,每類包含1990篇文檔,共包含17910篇文檔。另外完整版SogouC語料庫共有10個類,每類包含8000篇文檔,共包含80000篇文檔。該語料庫為平衡語料庫。

  c) 複旦大學資料集:由複旦大學計算機資訊與技術系國際資料庫中心自然語言處理小組李榮陸提供,分為20個類别,包含9833篇測試文檔和9804篇訓練文檔。另外,還提供了一個小規模語料庫,分為10個類别,共2816篇文檔。該語料庫屬于非平衡語料庫。

評估名額

  人們根據不同的文本分類應用背景提出了多種評估分類系統性能的标準。常用的評估标準:召回率(Recall)、準确率(Precision)、F1-評測值(F1-measure)、微平均(Micro-average)和宏平均(Macro-average)。另外一些使用較少的評估方法包括平衡點(break-even point)、11點平均正确率(11-point average precision)等。本文中所涉及到的“精度”(Accuracy)一般指廣義精度,可以代表召回率、精确率、F1-評測值(簡記:F1值)、微平均和宏平均等評價名額。

假設一個文本分類系統針對類别ci 的分類标注結果統計如表所示:

文本分類——算法性能評估資料集評估名額

表1 分類結果鄰接表

或者用等價的集合描述如圖所示:

文本分類——算法性能評估資料集評估名額

分類結果集合示意圖

  圖左側橢圓表示實際測試集類别标注,右側橢圓是經過分類器分類後标注的分類結果。上圖與表的中符号的意義如下:

  1) a表示正确地标注測試集文本為類别ci 的文本數量;

  2) b表示錯誤地标注測試集文本為類别ci 的文本數量;

  3) c表示錯誤地排除測試集文本在類别ci 之外的文本數量;

  4) d表示正确地排除測試集文本在類别ci 之外的文本數量。

召回率與準确率

  a) 分類器在類别ci 上的召回率(又稱查全率)定義如式:

文本分類——算法性能評估資料集評估名額

  b) 分類器在類别ci 上的準确率(又稱查準率)定義如式:

文本分類——算法性能評估資料集評估名額

F1-評測值

  c) 分類器在類别ci 上的F1值定義如式:

文本分類——算法性能評估資料集評估名額

  召回率和準确率分别從兩個方面考察分類器的分類性能。召回率過高可能導緻準确率過低,反之亦然。是以綜合考慮分類結果召回率和準确率的平衡,采用F1-評測值比較合理。

微平均與宏平均

  文本分類系統的分類結果,每個類對應都有一個召回率和準确率,它們評價的是單個類别上的分類精度。是以,可以通過這些單個類别的精度評價整個分類系統的整體性能。

  微平均從分類器的整體角度考慮,不考慮分類體系的小類别上的分類精度。它是利用被正确分類标注的文本總數aall ,被錯誤分類标注的文本總數ball ,以及應當被正确分類标注而實際上卻被錯誤地排除的文本總數call 分别替換上式中的a、b、c得到的微平均召回率、微平均準确率和微平均F1值。 微平均本質講是一項考察分類器整體能夠正确分類标注多少文本。如果每一篇文本必須屬于一個類别的話,則有下式成立:

文本分類——算法性能評估資料集評估名額

那麼微平均召回率、微平均準确率與微平均F1值相等。是以微平均F1值計算如下式所示:

文本分類——算法性能評估資料集評估名額

  宏平均是從分類器小類别的整體考慮,首先計算出每一類别的召回率與準确率,然後對召回率與準确率分别取算術平均得到的宏平均召回率與宏平均準确率。最後根據宏平均召回率與宏平均準确率計算宏平均F1值。

  a) 宏平均召回率

  其計算式如下所示:

文本分類——算法性能評估資料集評估名額

其中 recalli 為類别ci 的準确率,P 為分類體系類别數目。

  b) 宏平均準确率

  其計算式如下所示:

文本分類——算法性能評估資料集評估名額

其中 precisioni 為類别ci 的召回率,P 為分類體系類别數目。

  c) 宏平均F1值

  其計算式如下所示:

文本分類——算法性能評估資料集評估名額

  宏平均考察分類器對不同類别的處理能力。尤其在非平衡資料集上,宏平均能夠更好地衡量分類器處理小樣本類别的分類能力。換句話說,微平均從文本分類标注正确總數角度衡量分類精度,宏平均是從每一類别文本标注正确的角度衡量分類精度。

混淆矩陣

  混淆矩陣(Confusion Matrix):在文本分類中,使用混淆矩陣顯示分類測試标注的統計情況,是一種可視化結果統計顯示工具。其形式如表所示:

文本分類——算法性能評估資料集評估名額

表2 分類結果混淆矩陣示意表

表2中第一行代表實際測試的資料集類别,每一類代表對應第一類實際類别被分類的情況。例如對應類别ci 的表1中的c值與b值分别如下式所示:

文本分類——算法性能評估資料集評估名額

表2中對角線上的值就是每一個類正确分類的文本數(表1中的a)。

知更鳥博文推薦
上一篇 文本分類——常見分類模型
下一篇 特征選擇——Matrix Projection算法研究與實作
推薦篇 基于Kubernetes、Docker的機器學習微服務系統設計——完整版
研究篇 RS中文分詞   |  MP特征選擇   |  NLV文本分類   |  快速kNN
作者簡介
興趣愛好 機器學習、雲計算、自然語言處理、文本分類、深度學習
E-mail [email protected] (歡迎交流)

參考文獻:

[1] Sebastiani,F. Machine learning in automated text categorization [J]. ACM Comput. Surv. 34(1): 1-47.

[2] 靖紅芳,王斌,楊雅輝,徐燕.基于類别分布的特征選擇架構[J].計算機研究與發展,46(9):1586-1593.

[3] Tan,S. B.,Cheng,X. Q.,Ghanem,M. M.,Wang,B.,Xu,H. B. A novel refinement approach for text categorization [C]. In: ACM CIKM

[4] 蘇金樹,張博鋒,徐昕. 基于機器學習的文本分類技術研究進展[J].軟體學報,17(9):1848~1859.

[5] Joachims,T. A probabilistic analysis of the Rocchio algorithm with TFIDF for text categorization [C]. In: Proc. of the ICML’97:143-151.

[6] 譚松波,王月粉.中文文本分類語料庫-TanCorpV1.0 .

[7] Kim,H. J.,Shrestha,J.,Kim,H. N.,et al. User action based adaptive learning with weighted Bayesian classification for filtering spam mail [J]. Lecture Notes in Artificial Intelligence,43(4):790-798.

[8] 中國科學院計算技術研究所自然語言處理研究組. 文本分類評測大綱.

版權聲明:個人原創,請勿抄襲,歡迎引用,未經許可禁止轉載. © 知更鳥

繼續閱讀