天天看點

【首發】阿裡巴巴奪中文文法大賽全球冠軍,iDST自然語言處理團隊解讀技術細節

11月24日消息,阿裡巴巴iDST在中文文法錯誤自動診斷大賽(Chinese Grammatical Error Diagnosis,以下簡稱 CGED)三個level中全面奪得冠軍。即便是最難的level,核心名額F1(綜合考慮準确率與召回率)依舊達到了 0.2693,比其他參賽機構高出一倍。

【首發】阿裡巴巴奪中文文法大賽全球冠軍,iDST自然語言處理團隊解讀技術細節

參賽機構比賽成績公布

CGED是自然語言處理領域的權威賽事,由IJCNLP聯辦,今年已是第四屆。比賽的背景是:學習中文的外國人數不斷增加,由于中文的博大精深,外國友人在中文寫作中會出現各式錯誤。主辦方挑選了一些外國友人寫的中文作文片段,希望參賽者用人工智能算法自動識别裡面的文法語義錯誤。

因為文法糾錯任務涉及到很多自然語言的基礎技術,如分詞、句法分析、詞法分析、依存關系以及語義分析等,是對研究機構綜合技術實力的全面考驗。

【首發】阿裡巴巴奪中文文法大賽全球冠軍,iDST自然語言處理團隊解讀技術細節

CGED官網

阿裡巴巴iDST自然語言處理首席科學家司羅介紹,中文文法診斷的挑戰性在于,中文語言知識豐富、文法多樣;人在判斷一句話是否有錯誤的時候,會用到長期積累的知識體系(比如一句話是否通順、兩個詞是否可以搭配、語義上是否成立等)。相比之下,比賽提供的訓練資料非常有限,僅通過訓練資料來識别錯誤是很困難的。

賽題中包含的錯誤分為四種類型:多詞(Redundant)、缺詞(Missing)、錯詞(Selection)和詞序錯誤(Word Order)。系統性能的評估也由易到難分為3個level:detection level(識别句子有沒有錯誤)、identification level(識别錯誤句子的具體錯誤類型)和position level(識别錯誤的位置和對應類型)

【首發】阿裡巴巴奪中文文法大賽全球冠軍,iDST自然語言處理團隊解讀技術細節

比賽要求診斷的四種錯誤類型

比如,“我要送給你一個慶祝禮物。要是兩、三天晚了,請别生氣”這句話,在第3個Level,AI需要明确指出“兩、三天晚了”存在錯誤才能得分(正确用法應該是“晚了兩、三天”)。

根據組委會公開的結果,司羅團隊在所有的3個level的正确率都以較大優勢位居第一,擷取2017 CGED比賽的冠軍。他們通過在深度學習中引入無監督的文法知識,同時結合了內建學習等方法。

技術細節上,IDST團隊在bilstm-crf模型的基礎上,結合了分詞、詞性、依存句法等特征,同時将language model等無監督的知識embedding到神經網絡。依靠RNN結構以及詞性、依存等特征,不光能識别短程的文法錯誤,比如“一頭牛”好于“一隻牛”;也能識别比較長程的文法錯誤,比如“雖然父母很辛苦,而且對孩子照顧得很好”中“雖然”和“而且“不搭配。此外,他們針對比賽的3個不同level,設計了不同的基于神經網絡的snapshot emsembles方法。

【首發】阿裡巴巴奪中文文法大賽全球冠軍,iDST自然語言處理團隊解讀技術細節

具體請見論文:Alibaba at IJCNLP-2017 Task 1: Embedding Grammatical Features into LSTMs for Chinese Grammatical Error Diagnosis Task

透視司羅以及iDST自然語言處理團隊:

【首發】阿裡巴巴奪中文文法大賽全球冠軍,iDST自然語言處理團隊解讀技術細節

司羅是全球權威機器智能學者,曾擔任美國普渡大學計算機系終身教授,主持的20餘個項目得到美國政府、工業界資助,先後獲得美國國家科學基金會成就獎、雅虎、谷歌研究獎等。

在阿裡巴巴,司羅上司了iDST自然語言處理團隊,除了支援阿裡巴巴大生态(新零售、金融、物流、娛樂、旅行等)的自然語言處理需求,也通過阿裡雲技術輸出給開發者。

這場比賽中使用的分詞、詞性标注和句法分析等基礎NLP工具都是由該團隊自主研發的AliNLP 平台。這個平台支援阿裡大生态的每天多達600億次的自然語言處理需求。

司羅團隊橫跨中國(杭州,北京)和美國(矽谷,西雅圖),普遍擁有10年以上自然語言處理研發經驗,30%以上有博士學曆(如CMU,伯克利,普林斯頓,清華,北大等)。 團隊多次在國際自然語言技術競賽中取得冠軍成績。

原文釋出時間為:2017-11-24

本文來自雲栖社群合作夥伴新智元,了解相關資訊可以關注“AI_era”微信公衆号

繼續閱讀