【首發】阿裡巴巴奪中文文法大賽全球冠軍，iDST自然語言處理團隊解讀技術細節

11月24日消息，阿裡巴巴iDST在中文文法錯誤自動診斷大賽（Chinese Grammatical Error Diagnosis，以下簡稱 CGED）三個level中全面奪得冠軍。即便是最難的level，核心名額F1（綜合考慮準确率與召回率）依舊達到了 0.2693，比其他參賽機構高出一倍。

參賽機構比賽成績公布

CGED是自然語言處理領域的權威賽事，由IJCNLP聯辦，今年已是第四屆。比賽的背景是：學習中文的外國人數不斷增加，由于中文的博大精深，外國友人在中文寫作中會出現各式錯誤。主辦方挑選了一些外國友人寫的中文作文片段，希望參賽者用人工智能算法自動識别裡面的文法語義錯誤。

因為文法糾錯任務涉及到很多自然語言的基礎技術，如分詞、句法分析、詞法分析、依存關系以及語義分析等，是對研究機構綜合技術實力的全面考驗。

CGED官網

阿裡巴巴iDST自然語言處理首席科學家司羅介紹，中文文法診斷的挑戰性在于，中文語言知識豐富、文法多樣；人在判斷一句話是否有錯誤的時候，會用到長期積累的知識體系（比如一句話是否通順、兩個詞是否可以搭配、語義上是否成立等）。相比之下，比賽提供的訓練資料非常有限，僅通過訓練資料來識别錯誤是很困難的。

賽題中包含的錯誤分為四種類型：多詞（Redundant）、缺詞（Missing）、錯詞（Selection）和詞序錯誤（Word Order）。系統性能的評估也由易到難分為3個level：detection level(識别句子有沒有錯誤)、identification level（識别錯誤句子的具體錯誤類型）和position level（識别錯誤的位置和對應類型）

比賽要求診斷的四種錯誤類型

比如，“我要送給你一個慶祝禮物。要是兩、三天晚了，請别生氣”這句話，在第3個Level，AI需要明确指出“兩、三天晚了”存在錯誤才能得分（正确用法應該是“晚了兩、三天”）。

根據組委會公開的結果，司羅團隊在所有的3個level的正确率都以較大優勢位居第一，擷取2017 CGED比賽的冠軍。他們通過在深度學習中引入無監督的文法知識，同時結合了內建學習等方法。

技術細節上，IDST團隊在bilstm-crf模型的基礎上，結合了分詞、詞性、依存句法等特征，同時将language model等無監督的知識embedding到神經網絡。依靠RNN結構以及詞性、依存等特征，不光能識别短程的文法錯誤，比如“一頭牛”好于“一隻牛”；也能識别比較長程的文法錯誤，比如“雖然父母很辛苦，而且對孩子照顧得很好”中“雖然”和“而且“不搭配。此外，他們針對比賽的3個不同level，設計了不同的基于神經網絡的snapshot emsembles方法。

具體請見論文：Alibaba at IJCNLP-2017 Task 1: Embedding Grammatical Features into LSTMs for Chinese Grammatical Error Diagnosis Task

透視司羅以及iDST自然語言處理團隊：

司羅是全球權威機器智能學者，曾擔任美國普渡大學計算機系終身教授，主持的20餘個項目得到美國政府、工業界資助，先後獲得美國國家科學基金會成就獎、雅虎、谷歌研究獎等。

在阿裡巴巴，司羅上司了iDST自然語言處理團隊，除了支援阿裡巴巴大生态（新零售、金融、物流、娛樂、旅行等）的自然語言處理需求，也通過阿裡雲技術輸出給開發者。

這場比賽中使用的分詞、詞性标注和句法分析等基礎NLP工具都是由該團隊自主研發的AliNLP 平台。這個平台支援阿裡大生态的每天多達600億次的自然語言處理需求。

司羅團隊橫跨中國(杭州，北京)和美國（矽谷，西雅圖），普遍擁有10年以上自然語言處理研發經驗，30%以上有博士學曆（如CMU，伯克利，普林斯頓，清華，北大等）。團隊多次在國際自然語言技術競賽中取得冠軍成績。

原文釋出時間為：2017-11-24

本文來自雲栖社群合作夥伴新智元，了解相關資訊可以關注“AI_era”微信公衆号

【首發】阿裡巴巴奪中文文法大賽全球冠軍，iDST自然語言處理團隊解讀技術細節

繼續閱讀

傳統的seq2seq模型與seq2seq with attention的模型原理細節解析

torch.nn.Embedding的使用torch.nn.Embedding

nn.Embedding()參數的了解nn.Embedding()

pytorch中nn.RNN()總結

聯考志願填報：人工智能專業怎麼樣？人工智能行業發展前景如何？

【Python學習筆記】- Day6

Windows版本的Google word2vec和Stanford GloVe工具

seq2sqe與attenton實作聊天機器人

奮戰聊天機器人（四）自然語言進行中的文本分類nltk中的貝葉斯分類器

從詞向量衡量标準到全局向量的詞嵌入模型GloVe再到一詞多義的解決方式衡量标準Evaluation引子全局向量的詞嵌入應用對一詞多義的思考Reference

GloVe與word2vec的差別，及GloVe的缺陷

統計學習大作業-BERT模型1 文本處理-BERT模型2 參考資料：

anaconda中科大鏡像

NLP從入門到放棄_IBM Model1IBM Model1

K-近鄰算法以及圖像分類應用

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合