2018自然語言研究報告

1 概述篇 3

1.1 自然語言處理概念 3

1.2 自然語言處理發展曆程 4

1.3 我國自然語言處理現狀 5

1.4 自然語言處理業界發展 6

2 技術篇 11

2.1 自然語言處理基礎技術 11

2.1.1 詞法、句法及語義分析 11

2.1.2 知識圖譜 12

2.2 自然語言處理應用技術 14

2.2.1 機器翻譯 14

2.2.2 資訊檢索 15

2.2.3 情感分析 16

2.2.4 自動問答 16

2.2.5 自動文摘 17

2.2.6 社會計算 18

2.2.7 資訊抽取 18

3 人才篇 21

3.1 國外實驗室及人才介紹 21

3.2 國内實驗室及人才介紹 28

3.2 ACL2018 獎項介紹 46

4 應用篇 51

5 趨勢篇 57

1 概述篇

1.1 自然語言處理概念

自然語言是指漢語、英語、法語等人們日常使用的語言，是自然而然的随着人類社會發展演變而來的語言，而不是人造的語言，它是人類學習生活的重要工具。概括說來，自然語言是指人類社會約定俗成的，差別于人工語言，如程式設計的語言。在整個人類曆史上以語言文字形式記載和流傳的知識占到知識總量的80%以上。就計算機應用而言，據統計，用于數學計算的僅占10%，用于過程控制的不到 5%，其餘 85%左右都是用于語言文字的資訊處理。

處理包含了解、轉化、生成等過程。自然語言處理，是指用計算機對自然語言的形、音、義等資訊進行處理，即對字、詞、句、篇章的輸入、輸出、識别、分析、了解、生成等的操作和加工。實作人機間的資訊交流，是人工智能界、計算機科學和語言學界所共同關注的重要問題。自然語言處理的具體表現形式包括機器翻譯、文本摘要、文本分類、文本校對、資訊抽取、語音合成、語音識别等。可以說，自然語言處理就是要計算機了解自然語言，自然語言處理機制涉及兩個流程，包括自然語言了解和自然語言生成。自然語言了解是指計算機

能夠了解自然語言文本的意義，自然語言生成則是指能以自然語言文本來表達給定的意圖。

自然語言的了解和分析是一個階層化的過程，許多語言學家把這一過程分為五個層次，可以更好地展現語言本身的構成，五個層次分别是語音分析、詞法分析、句法分析、語義分析和語用分析。

語音分析是要根據音位規則，從語音流中區分出一個個獨立的音素，再根據音位形态規則找出音節及其對應的詞素或詞。

詞法分析是找出詞彙的各個詞素，從中獲得語言學的資訊。

句法分析是對句子和短語的結構進行分析，目的是要找出詞、短語等的互相關系以及各自在句中的作用。

語義分析是找出詞義、結構意義及其結合意義，進而确定語言所表達的真正含義或概念。

語用分析是研究語言所存在的外界環境對語言使用者所産生的影響。

在人工智能領域或者是語音資訊處理領域中，學者們普遍認為采用圖靈試驗可以判斷計算機是否了解了某種自然語言，具體的判别标準有以下幾條：第一，問答，機器人能正确回答輸入文本中的有關問題；第二，文摘生成，機器有能力生成輸入文本的摘要；

第三，釋義，機器能用不同的詞語和句型來複述其輸入的文本；第四，翻譯，機器具有把一種語言翻譯成另一種語言的能力。

1.2 自然語言處理發展曆程

自然語言處理是包括了計算機科學、語言學心理認知學等一系列學科的一門交叉學科，這些學科性質不同但又彼此互相交叉。是以，梳理自然語言處理的發展曆程對于我們更好地了解自然語言處理這一學科有着重要的意義。

1950 年圖靈提出了著名的“圖靈測試”，這一般被認為是自然語言處理思想的開端，20 世紀 50年代到 70 年代自然語言處理主要采用基于規則的方法，研究人員們認為自然語言處理的過程和人類學習認知一門語言的過程是類似的，是以大量的研究員基于這個觀點來進行研究，這時的自然語言處理停留在理性主義思潮階段，以基于規則的方法為代表。但是基于規則的方法具有不可避免的缺點，首先規則不可能覆寫所有語句，其次這種方法對開發者的要求極高，開發者不僅要精通計算機還要精通語言學，是以，這一階段雖然解決了一些簡單的問題，但是無法從根本上将自然語言了解實用化。

70 年代以後随着網際網路的高速發展，豐富的語料庫成為現實以及硬體不斷更新完善，自然語言處理思潮由理性主義向經驗主義過渡，基于統計的方法逐漸代替了基于規則的方法。賈裡尼克和他上司的IBM 華生實驗室是推動這一轉變的關鍵，他們采用基于統計的方法，将當時的語音識别率從70%提升到 90%。在這一階段，自然語言處理基于數學模型和統計的方法取得了實質性的突破，從實驗室走向實際應用。

從 2008年到現在，在圖像識别和語音識别領域的成果激勵下，人們也逐漸開始引入深度學習來做自然語言處理研究，由最初的詞向量到2013 年 word2vec，将深度學習與自然語言處理的結合推向了高潮，并在機器翻譯、問答系統、閱讀了解等領域取得了一定成功。深度學習是一個多層的神經網絡，從輸入層開始經過逐層非線性的變化得到輸出。從輸入到輸出做端到端的訓練。把輸入到輸出對的資料準備好，設計并訓練一個神經網絡，即可執行預想的任務。RNN已經是自然語言護理最常用的方法之一，GRU、LSTM 等模型相繼引發了一輪又一輪的熱潮。

1.3 我國自然語言處理現狀

20世紀 90 年代以來，中國自然語言處理研究進入了高速發展期，一系列系統開始了大規模的商品化程序，自然語言處理在研究内容和應用領域上不斷創新。目前自然語言處理的研究可以分為基礎性研究和應用性研究兩部分，語音和文本是兩類研究的重點。基礎性研究主要涉及語言學、數學、計算機學科等領域，相對應的技術有消除歧義、文法形式化等。應用性研究則主要集中在一些應用自然語言處理的領域，例如資訊檢索、文本分類、機器翻譯等。由于我國基礎理論即機器翻譯的研究起步較早，且基礎理論研究是任何應用的理論基礎，是以文法、句法、語義分析等基礎性研究曆來是研究的重點，而且随着網際網路網絡技術的發展，智能檢索類研究近年來也逐漸升溫。

從研究周期來看，除語言資源庫建設以外，自然語言處理技術的開發周期普遍較短，基

本為 1-3年，由于涉及到自然語言文本的采集、存儲、檢索、統計等，語言資源庫的建設較為困難，搭建周期較長，一般在10 年左右，例如北京大學計算語言所完成的《現代漢語文法資訊詞典》以及《人民日報》的标注語料庫，都經曆了10 年左右的時間才研制成功。

自然語言處理的快速發展離不開國家的支援，這些支援包括各種扶持政策和資金資助。國家的資金資助包括國家自然科學基金、社會科學基金、863項目、973 項目等，其中國家自然科學基金是國家投入資金最多、資助項目最多的一項。國家自然科學基金在基礎理論研究方面的投入較大，對中文的詞彙、巨大、篇章分析方面的研究都給予了資助，同時在技術方面也給予了大力支援，例如機器翻譯、資訊檢索、自動文摘等。除了國家的資金資助外，一些企業也進行了資助，但是企業資助項目一般集中在應用領域，針對性強，往往這些項目

開發周期較短，更容易推向市場，實作由理論成果向産品的轉化。

1.4 自然語言處理業界發展

l 微軟亞洲研究院

微軟亞洲研究院 1998年成立自然語言計算組，研究内容包括多國語言文本分析、機器翻譯、跨語言資訊檢索和自動問答系統等。這些研究項目研發了一系列實用成果，如IME、對聯遊戲、Bing詞典、Bing 翻譯器、語音翻譯、搜尋引擎等，為微軟産品做出了重大的貢

獻，并且在自然語言處理頂級會議，例如 ACL（Association for ComputationalLinguistics）、

COLING（InternationalConference on Computational Linguistics）等會議上發表了許多論文。

2017 年微軟在語音翻譯上全面采用了神經網絡機器翻譯，并新擴充了 Microsoft Translator Live Feature，可以在演講和開會時，實時同步在手機端和桌面端，同時把講話者的話翻譯成多種語言。其中最重要的技術是對于源語言的編碼以及引進的語言知識，微軟将句法知識引入到神經網絡的編碼、解碼中，得到了更好的翻譯。同時，微軟還表示，将來要将知識圖譜納入神經網絡機器翻譯中規劃語言了解的過程中。

在人機對話方面微軟也取得了極大的進展，如小娜現在已經擁有超過 1.4億使用者，在數以十億計的裝置上與人們進行交流，并且覆寫了十幾種語言。還有聊天機器人小冰，正在試圖把各國語言的知識融合在一起，實作一個開放語言自由聊天的過程，目前小冰實作了中文、日文和英文的覆寫，有上億使用者。

l Google

Google是最早開始研究自然語言處理技術的團隊之一，作為一個以搜尋為核心的公司， Google 對自然語言處理更為重視。Google 擁有着海量資料，可以搭建豐富龐大的資料庫，可以為其研究提供強大的資料支撐。Google對自然語言處理的研究側重于應用規模、跨語言和跨領域的算法，其成果在 Google的許多方面都被使用，提升了使用者在搜尋、移動、應用、廣告、翻譯等方面的體驗。

機器翻譯方面，2016年 Google 釋出 GNMT 使用最先進的訓練技術，能夠實作機器翻譯品質的最大提升，2017 年宣布其機器翻譯實作了完全基于 attention 的 transformer機器翻譯網絡架構，實作了新的最佳水準。

Google的知識圖譜更是遙遙領先，例如自動挖掘新知識的準确程度、文本中命名實體的識别、純文字搜尋詞條到在知識圖譜上的結構化搜尋詞條的轉換等，效果都領先于其他公司，而且很多技術都實作了産品化。

語音識别方面，Google一直緻力于投資語音搜尋技術和蘋果公司的 siri競争，2011 年收購語言資訊平台 SayNow，把語音通信、點對點對話、以及群組通話和社交應用融合在一起，2014 年收購了 SR Tech Group 的多項語音識别相關專利，自 2012 年以來将神經網絡應用于這一領域，使語音識别錯誤率極大降低。

l Facebook

Facebook 涉獵自然語言處理較晚，Facebook 在 2013 年收購了語音對語音翻譯（speechto-speech translation）研發公司 Mobile Technologies，開始組建語言技術組。該團隊很快就投入到其第一個項目——翻譯工具——的研發，到2015 年 12月，Facebook 用的翻譯工具已經完全轉變為自主開發。Facebook 語言技術小組不斷改進自然語言處理技術以改善使用者體驗，緻力于機器翻譯、語音識别和會話了解。2016年，Facebook 首次将 29 層深度卷積神經網絡用于自然語言處理，2017 年，Facebook 團隊使用全新的卷積神經網絡進行翻譯，以往循環神經網絡9 倍的速度實作了當時最高的準确率。

2015 年，Facebook 相繼建立語音識别和對話了解工具，開始了語音識别的研發之路。

2016 年 Facebook 開發了一個響應“HeyOculus”的語音識别系統，并且在 2018 年初開發了 wav2letter，這是一個簡單高效的端到端自動語音識别（ASR）系統。Facebook 針對文本處理還開發了有效的方法和輕量級工具，這些都基于 2016年釋出的 FastText 即預訓練單詞向量模型。

l 百度

百度自然語言處理部是百度最早成立的部門之一，研究涉及深度問答、閱讀了解、智能寫作、對話系統、機器翻譯、語義計算、語言分析、知識挖掘、個性化、回報學習等。其中，百度自然語言處理在深度問答方向經過多年打磨，積累了問句了解、答案抽取、觀點分析與聚合等方面的一整套技術方案，目前已經在搜尋、度秘等多個産品中實作應用。篇章了解通過篇章結構分析、主體分析、内容标簽、情感分析等關鍵技術實作對文本内容的了解，目前，篇章了解的關鍵技術已經在搜尋、資訊流、糯米等産品中實作應用。百度翻譯目前支援全球28 種語言，覆寫 756個翻譯方向，支援文本、語音、圖像等翻譯功能，并提供精準人工翻譯服務，滿足不同場景下的翻譯需求，在多項翻譯技術取得重大突破，釋出了世界上首個線上神經網絡翻譯系統，并獲得2015 年度國家科技進步獎。

對百度自然語言處理部做出重要貢獻的人物不可不提王海峰、吳華等人。王海峰是百度現任副總裁，負責百度搜尋引擎、手機百度、百度資訊流、百度新聞、百度手機浏覽器、百度翻譯、自然語言處理、語音搜尋、圖像搜尋、網際網路資料挖掘、知識圖譜、小度機器人等業務。是ACL 50 多年曆史上唯一出任過主席（President）的華人，也是迄今為止最年輕的 ACL Fellow。同時，王海峰博士還在多個國際學術組織、國際會議、國際期刊兼任各類職務。吳華是百度自然語言處理部技術負責人，她所上司的團隊在自然語言處理和機器翻譯方面取得重大突破，同時她主持研發的多項NLP 核心技術應用于搜尋、Feed、Duer OS 等百度産品。吳華署名的專利達 40 餘件、重要學術論文 50 餘篇，在 IJCAI、ACL等國際會議上多次發聲。

l 阿裡巴巴

阿裡自然語言處理為其産品服務，在電商平台中建構知識圖譜實作智能導購，同時進行全網使用者興趣挖掘，在客服場景中也運用自然語言處理技術打造機器人客服，例如螞蟻金融智能小寶、淘寶賣家的輔助工具千牛插件等，同時進行語音識别以及後續分析。阿裡的機器翻譯主要與其國家化電商的規劃相聯系，可以進行商品資訊翻譯、廣告關鍵詞翻譯、買家采購需求以及即時通信翻譯等，語種覆寫中文、荷蘭語、希伯來語等語種，2017年初阿裡正式上線了自主開發的神經網絡翻譯系統，進一步提升了其翻譯品質。

l 騰訊

AI Lab 是騰訊的人工智能實驗室，研究領域包括計算機視覺、語音識别、自然語言處理、機器學習等。其研發的騰訊文智自然語言處理基于并行計算、分布式爬蟲系統，結合獨特的語義分析技術，可滿足自然語言處理、轉碼、抽取、資料抓取等需求，同時，基于文智API 還可以實作搜尋、推薦、輿情、挖掘等功能。在機器翻譯方面，2017年騰訊宣布翻譯君上線“同聲傳譯”新功能，使用者邊說邊翻的需求得到滿足，語音識别+NMT 等技術的應用保證了邊說邊翻的速度與精準性。

l 京東

京東在人工智能的浪潮中也不甘落後。京東 AI 開放平台基本上由模型定制化平台和線上服務子產品構成，其中線上服務子產品包括計算機視覺、語音互動、自然語言處理和機器學習等。京東AI 開放平台計劃通過建立算法技術、應用場景、資料鍊間的連接配接，建構京東AI 發展全價值鍊，實作 AI能力平台化。

按照京東的規劃，NeuHub 平台将作為普惠性開放平台，不同角色均可找到适合自己的場景，例如用簡單代碼即可實作對圖像品質的分析評估。從業務上說，平台可以支撐科研人員、算法工程師不斷設計新的AI 能力以滿足使用者需求，并深耕電商、供應鍊、物流、金融、廣告等多個領域應用，探索試驗醫療、扶貧、政務、養老、教育、文化、體育等多領域應用，聚焦于新技術和行業趨勢研究，孵化行業最新落地項目。同時，京東人工智能研究院與南京大學、斯坦福大學等院校均有合作。

l 科大訊飛

科大訊飛股份有限公司成立于 1999 年，是一家專業從事智能語音及語言技術、人工智能技術研究、軟體及晶片産品開發、語音資訊服務及電子政務系統內建的國家級骨幹軟體企業。科大訊飛作為中國智能語音與人工智能産業上司者，在語音合成、語音識别、口語評測、自然語言處理等多項技術上擁有國際領先的成果。是我國以語音技術為産業化方向的“國家

863 計劃成果産業化基地”、“國家規劃布局内重點軟體企業”、“國家高技術産業化示範工程”，

并被原資訊産業部确定為中文語音互動技術标準工作組組長機關，牽頭制定中文語音技術标準。

科大訊飛成立之時就開始在語言和翻譯領域布局項目。基于深度神經網絡算法上的創新和突破，科大訊飛在2014 年國際口語翻譯大賽 IWSLT上獲得中英和英中兩個翻譯方向的全球第一名；2015年在由美國國家标準技術研究院組織的機器翻譯大賽中取得全球第一的成績。2017年科大訊飛還推出了多款硬體翻譯産品，其中曉譯翻譯機 1.0plus将神經網絡翻譯系統由線上系統轉化為離線系統，實作在沒有網絡的情況下提供基本的翻譯服務。

2018自然語言研究報告

1 概述篇

1.1 自然語言處理概念

1.2 自然語言處理發展曆程

1.3 我國自然語言處理現狀

1.4 自然語言處理業界發展

繼續閱讀

科研神器推薦之那些年你用過的工具

語音識别，語義了解一站式解決（android平台&olami sdk）

Android語音識别SDK語義了解與解析方法

語音識别之HTK重了解

聯考志願填報：人工智能專業怎麼樣？人工智能行業發展前景如何？

【Python學習筆記】- Day6

Windows版本的Google word2vec和Stanford GloVe工具

seq2sqe與attenton實作聊天機器人

奮戰聊天機器人（四）自然語言進行中的文本分類nltk中的貝葉斯分類器

從詞向量衡量标準到全局向量的詞嵌入模型GloVe再到一詞多義的解決方式衡量标準Evaluation引子全局向量的詞嵌入應用對一詞多義的思考Reference

GloVe與word2vec的差別，及GloVe的缺陷

統計學習大作業-BERT模型1 文本處理-BERT模型2 參考資料：

電話機器人API接口-空号識别-座席WEBAPI

anaconda中科大鏡像

NLP從入門到放棄_IBM Model1IBM Model1

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合