天天看點

清華大學開源了一項神器,已經在GitHub爆了

近日,清華大學在GitHub開源了一款名為萬詞王(WantWrong)的神器,号稱是首個支援中文和跨語言查詢的開源線上反向詞典。

清華大學開源了一項神器,已經在GitHub爆了

什麼是反向詞典?普通詞典告訴你一個詞的定義,而反向詞典恰恰相反,它可以告訴你哪些詞符合你輸入描述的含義。下圖顯示了萬詞王線上反向詞典的頁面截圖,其中示範了反向詞檢查的示例。輸入“山非常高”,系統将傳回一系列模型中表達"山非常高"含義的詞,如高峻、巍峨等。

反向詞典能做什麼?

  • 解決“舌尖現象”(tip-of-the-tongue,又稱話到嘴邊說不出來),即暫時性忘詞的問題
  • 幫助語言學習者學習、鞏固詞彙
  • 改善選詞性失語者患者的生活品質,該病的症狀是可以識别并描述一個物體,但是無法記起該物體的名字

簡單來說,現在的年輕人會有詞窮的時候。當你的詞窮的時候,這個工具就可以派上用場了。比如你心慌意亂拿不定主意的時候,不知道用哪個詞,就可以輸進去,得到100個字,比如猶豫、心慌。而且詞性和韻腳也可以自定義。

清華大學開源了一項神器,已經在GitHub爆了

此外,它還支援漢語、英語、漢英、英漢等不同的轉化方式。

清華大學開源了一項神器,已經在GitHub爆了

整體系統架構也很簡單:

清華大學開源了一項神器,已經在GitHub爆了

萬詞王的核心模型是清華大學計算機系自然語言處理實驗室(THUNLP)發表在AAAI-20上的一篇論文中提出的多通道反向詞典模型:Multi-chanelReversedictionaryModel[論文][代碼],其模型結構如下:

清華大學開源了一項神器,已經在GitHub爆了

關于清華大學自然語言處理與社會人文計算實驗室

清華大學計算機系自然語言處理與社會人文計算實驗室(THUNLP)成立于20世紀70年代末,最初在黃昌甯教授的上司下從事中文資訊處理研究,是中國最早開展自然語言處理研究的科研機關。它也是中國資訊學會(全國一級學會)計算語言學專業委員會的附屬機關。實驗室的學術上司人是孫茂松教授,實驗室教師還包括劉洋教授和劉知遠副教授。實驗室以中文為核心的自然語言處理前沿基礎課題進行系統深入的研究,涵蓋計算語言學的核心問題、社會計算和人文計算。近年來,在973、863、國家自然科學基金等項目的支援下,實驗室師生在IJCAI、AAI、ACL、EMNLP等國際頂.EMNLP等國際頂級會議和期刊上發表了許多高水準的學術論文,并與CMUS.Gogle等國際知名大學畢業生進行了長期的合作。谷歌。微型企業生和其他國際知名大學。

WantWords由THUNLP開發和維護,項目講師為孫茂松教授和劉知遠副教授,開發團隊成員包括豈凡超、張磊、楊延輝。

清華大學開源了一項神器,已經在GitHub爆了

目前,Wantwords已在Github上标明星1K,共分支56個(GitHub 

https://github.com/thunlp/WantWords

繼續閱讀