天天看點

關鍵詞抽取工具-THUtag 個人使用心得

THUTag是清華大學自然語言處理與社會人文計算實驗室實作的,具有關鍵詞抽取與社會标簽推薦工具包,提供關鍵詞抽取、社會标簽推薦功能,包括TextRank、ExpandRank、Topical PageRank(TPR)、Tag-LDA、Word Trigger Model、Word Alignment Model等算法。

Xinxiong Chen, Deming Ye, Xiance Si, Zhiyuan Liu and Maosong Sun. THUTag: A Package for Keyphrase Extraction and Social Tag Suggestion. 2016.

--------------------------------------------------------------------------------------------------------------------------------------------------------------------

其readme文檔提供的算法準确率如下:

其自帶資料“Douban Post Dataset (M_d=3,select the three tags with the highest value),資料格式:

dataType=DoubanPost :

{"doubanTags":{"tag1":weight,"tag2":weight,"tag3":weight,...},"id":"document id","content":"document content","tags":[empty],"timestamp":0,"resourceKey":"","title":"document title","userId":"","extras":""} (Focus on books)

Example :

{"doubanTags":{"文化":5,"獻給非哲學家的小哲學":6,"哲學":29,"法國":17},"id":"1000047","content":"全球化是必然趨勢?仁者見仁,智者見智。有人驚呼:“狼來了!”有人擔憂:“怎麼辦?”還有人在思考:“對世界來說,經濟可以全球化,甚至貨币也可以一體化,但文化則要鼓勵多元化。”是的,隻有本着文化多元化的精神,在尊重其他民族文化的同時,自身才能獲得不斷的發展與豐富。法國人做出了自己的探索與努力。今天,您面前的這一套“法蘭西書庫·睿哲系列”為您打開了一扇溝通的視窗。他山之石,可以攻玉。我們希望這樣的對話可以走得越來越遠。","tags":[],"timestamp":0,"resourceKey":"","title":"獻給非哲學家的小哲學 睿哲系列","userId":"","extras":""} (Demo file is bookPost70000.dat)”

測試結果如下:

Algorithm Precision Recall F1

PMI 0.38962 0.45730 0.36692

WTM 0.36828 0.45131 0.35410

KNN 0.33910 0.37885 0.31103

TAM 0.30758 0.34045 0.28093

NaiveBayes 0.27064 0.30223 0.24671

NoiseTagLdaModel 0.20956 0.20757 0.18054

TagLdaModel 0.15756 0.16646 0.14054

對于關鍵字抽取算法,其readme文檔中提供的準确率結果如下:

其自帶資料集“Post Dataset ,(M_d=2,select the two keywords with the highest value),資料格式:(之前認為是解析html,後來發現錯了,解析的是json,尴尬)

dataType=KeywordPost :

{"date": "news date","summary":"news summary","source":"news source","id":"document id","content":"document content","title":"news title","resourceKey":"","extras":"","userId":"","tags":["tag1","tag2","tag3",...]} (Focus on news)

Example :

{"date":"2010-6-12 3:39:39","summary":"核心提示:重慶市政府公衆資訊網釋出消息稱,經2010年5月13日市政府第70次常務會議通過,給予文強、陳洪剛二人行政開除處分。","source":"http://news.163.com/10/0612/03/68USU60D000146BD.html","id":"0","content":"重慶晚報6月11日報道 昨日,市政府公衆資訊網釋出消息稱,經2010年5月13日市政府第70次常務會議通過,給予文強、陳洪剛二人行政開除處分。\n今年4月14日,市第五中級人民法院以受賄罪,包庇、縱容黑社會性質組織罪,巨額财産來源不明罪,強奸罪數罪并罰判處文強死刑,剝奪政治權利終身,并處沒收個人全部财産。5月21日,市進階人民法院對文強案二審宣判,依法駁回文強上訴,維持一審的死刑判決。\n2月25日,市警察局交警總隊原總隊長陳洪剛受賄案在市第五中級人民法院一審宣判。陳洪剛因犯受賄,包庇、縱容黑社會性質組織,巨額财産來源不明,僞造居民身份證罪,數罪并罰,被判處有期徒刑20年,沒收個人财産40萬元人民币,追繳贓款326萬餘元及不明來源财産584萬餘元。記者 李偉\n","title":"重慶市政府給予文強行政開除處分","timestamp":0,"resourceKey":"","userId":"","tags":["文強","重慶"],"extras":""} (Demo file is KeywordPost.dat)“

Algorithm Precision Recall F1

WAM 0.30735 0.43726 0.34747

WAMsample 0.29424 0.41814 0.33254

WAMwithtitleInstead 0.26571 0.37286 0.29849

ExpandRankKE 0.22818 0.31578 0.25461

TPR 0.21913 0.3060 0.24551

TFIDF 0.25459 0.20083 0.21876

Textpagerank 0.19833 0.22971 0.20837

--------------------------------------------------------------------------------------------------------------------------------------------------------------------

實際使用效果:(測試了兩個方法)

一、ExpandRank

原文:Single Document Keyphrase Extraction Using Neighborhood Knowledge Xiaojun Wan and Jianguo Xiao

思想:textrank的擴充,試圖解決僅依靠單篇文章結構的共現視窗産生的噪聲問題。對每一篇文章都選取一定數目的鄰居文章作為補充資訊,作為對單篇文章統計的補充。

步驟:

1.鄰居文檔的建構:基于相似文章搜尋技術

2.關鍵字抽取,包括:

1)鄰居級詞語抽取,對鄰居文檔基于圖算法(textrank)建構潛在關鍵詞網絡

   2)文檔級關鍵詞抽取,基于打分函數抽取關鍵詞

對比傳統和方法的優勢:

一定程度上解決解決了對統計方法提取關鍵字的依賴,擴充了隻依靠單篇文章結構的textrank,提高了準确率。

缺點:

由于鄰居文檔選取的不确定性會産生語義漂移問題。

(由于readme中提起的報告位置并未生成報告,而且未能看到最後結果檔案,并且運作時間超過十分鐘仍未結束,是以不知其實際效果如何...)

二.WAM:

原文:Automatic Keyphrase Extraction by Bridging Vocabulary Gap Zhiyuan Liu, Xinxiong Chen, Yabin Zheng, Maosong Sun

思想:将關鍵詞抽取問題看成翻譯問題,原文和關鍵此均描述一個對象,隻是表述成了不同語言,是以采用統計機器翻譯的方法來解決關鍵詞抽取問題。

步驟:

1.抽取标題或者總結,與原文當組成翻譯對

2.訓練翻譯模型:利用詞語對其模型,使用統計機器翻譯的方法(IBM1),計算給定原文詞彙後得道标題中詞彙或者總結中詞彙的後驗機率

3.利用文中提出的公式,實作關鍵詞抽取

對比傳統和方法的優勢:

一定程度上解決解決了對統計方法提取關鍵字的依賴,試圖解決詞彙鴻溝問題(低頻關鍵詞抽取或者未現關鍵詞生成問題),提高了準确率。

缺點:

依賴文章标題或總結資訊,且依賴翻譯模型。

效果:

切分後原文:

衛生部 居民 健康 素養盲目相信 養生 資訊

核心 提示 衛生部 新聞發言人 11 談到 近期 備受 關注 本事 表示 居民 健康 素養 盲目 相信 社會 所謂 養生 保健 資訊

  晚報 12 日報 衛生部 昨天 上午 召開 例行 新聞釋出會 衛生部 新聞 發言人 談到 近期 備受 關注 本事 表示 老百姓 獲得 健康 知識 管道 越來越 權威 科學 準确 健康 知識擷取途徑不通

  分析 去年 衛生部 新聞中心全國 居民 健康 素養調查 48 居民 具有 健康 素養 盲目 相信 社會 所謂 養生 保健 資訊

  多年 衛生部 非常 重視健康教育 健康 促進 工作充分利用 手段 傳播 健康知識知識 倡導 健康 文明生活方式促進 公衆 合理 營養努力提高 群衆 自我 自我防範能力

2009 衛生部 衛生部 通告 形式 社會 推薦 81 衛生 科普 圖書 各方面 專家 衛生 科普 衛生 保健 圖書 進行 平衡 檢查 審查 社會 推薦

  表示 今後 衛生部 進一步加強健康 教育 健康 促進工作有效 傳播 健康 知識積極發揮 大衆 媒體 作用發揮專家 作用 特别是 培養一大批科普 專家

衛生部 醫療 服務 監管司長季度 診療 人次 12 62 人次 同比 增長 出院 人數 同比 增長

關鍵字抽取效果:

衛生部 居民 健康 素養盲目相信 養生 資訊

衛生部 居民 健康 素養盲目相信 養生 資訊

衛生部 居民 健康 素養盲目相信 養生 資訊

衛生部 居民 健康 素養盲目相信 養生 資訊

衛生部 居民 健康 素養盲目相信 養生 資訊

衛生部 居民 健康 素養盲目相信 養生 資訊

衛生部 居民 健康 素養盲目相信 養生 資訊

衛生部 居民 健康 素養盲目相信 養生 資訊

*------------------------------------------------------------------------------------------------------------------------------------------------------------------*

THUTag個人體會:

1.工程開源,實作了十四種關于關鍵詞抽取、标簽推薦的算法。

2.幫助文檔較少,github上有一篇readme,未發現工程性的開發文檔,個人感覺類似于實驗室中口口相傳的内部工具

詳細使用說明可以參見:http://thulac.thunlp.org/

3.使用者活躍度低,遇到了使用問題求助困難

4.readme提到的部分指令無法使用

5.能寫出這個工具的作者們代碼能力還是好強的

6.缺乏文檔,是以需要從頭讀代碼,學習使用很費勁

7.通俗地講,沒用明白,還是使用其他幫助文檔豐富的工具吧.....

本文僅代表個人觀點--O(∩_∩)O~

繼續閱讀