天天看點

自然語言處理NLP技術裡程碑、知識結構、研究方向和機構導師(公号回複“NLP總結”下載下傳彩标PDF典藏版資料)

自然語言處理NLP技術裡程碑、知識結構、研究方向和機構導師(公号回複“NLP總結”下載下傳彩标PDF典藏版資料)

原創: 秦隴紀 資料簡化DataSimp 今天

資料簡化DataSimp導讀:自然語言處理發展史上的十大裡程碑、NLP知識結構,以及NLP國内研究方向、機構、導師。祝大家學習愉快~要推進人類文明,不可止步于敲門呐喊;設計空想太多,無法實作就虛度一生;工程能力至關重要,秦隴紀與君共勉之。

自然語言處理NLP技術裡程碑、知識結構、研究方向和機構導師(29847字)

目錄

A自然語言處理技術發展史十大裡程碑(21585字)

一、NLP研究傳統問題

二、NLP十大裡程碑

B自然語言處理NLP知識結構(6990字)

一、NLP知識結構概述

二、NLP知識十大結構

三、中文NLP知識目錄

C自然語言處理NLP國内研究方向機構導師(1111字)

文字語言VS數字資訊

基礎研究

應用研究

參考文獻(4747字)Appx(845字).資料簡化DataSimp社群簡介

自然語言處理NLP技術裡程碑、知識結構、研究方向和機構導師(公号回複“NLP總結”下載下傳彩标PDF典藏版資料)

A自然語言處理技術發展史十大裡程碑(21585字)

自然語言處理技術發展史十大裡程碑

文|秦隴紀,參考|黃昌甯、張小鳳、Sebatian Ruder,資料簡化DataSimp20181013Sat22Mon

摘要:自然語言處理(NaturalLanguage Processing,NLP)是計算機科學、人工智能、語言學領域的學科分支、交叉學科,關注計算機和人類(自然)語言之間的互相,研究實作人與計算機之間使用自然語言進行有效通信的各種理論和方法的領域。本文從兩個NLP傳統研究問題出發,總結以下十大技術裡程碑:複雜特征集、詞彙主義、統計語言模型、神經語言模型、多任務學習、詞嵌入、RNN/CNN用于NLP的神經網絡、序列到序列模型、注意力機制網絡、預訓練語言模型。

關鍵詞:自然語言處理; NLP; 中文分詞; 文本分類; 資訊抽取; 語義了解; 問答系統; 自然語言對話系統; 複雜特征集; 詞彙主義; 語料庫方法; 統計語言模型。

Title: Ten milestonesin the history of natural language processing technology

Author: Qin Longji,data simplification Community, 20181013Sat20Sat {[email protected]}

Abstract: Natural Language Processing (NLP) is a branch ofinterdisciplinary and interdisciplinary fields in the fields of computerscience, artificial intelligence, and linguistics. It focuses on the mutualrelationship between computers and human (natural) languages, and studies theuse of natural language between humans and computers. The field of varioustheories and methods for effective communication. Based on two NLP traditionalresearch questions, this paper summarizes the following ten major milestones:complex feature set, lexicalism, statistical language model, neural languagemodels, .

Keywords: Natural Language Processing, NLP; Chinese WordSegmentation; Text Classification; Information Extraction; SemanticUnderstanding; Question Answering System; Natural Language Dialogue System;Complex Feature Set; Lexicalism; Corpus-Based Approaches, Statistical LanguageModels.

自然語言是人類獨有的智慧結晶。自然語言處理(NaturalLanguage Processing,NLP)是計算機科學領域與人工智能領域中的一個重要方向,旨在研究能實作人與計算機之間用自然語言進行有效通信的各種理論和方法。用自然語言與計算機進行通信,有着十分重要的實際應用意義,也有着革命性的理論意義。由于了解自然語言,需要關于外在世界的廣泛知識以及運用操作這些知識的能力,是以自然語言處理,也被視為解決人工智能完備(AI-complete)的核心問題之一。對自然語言處理的研究也是充滿魅力和挑戰的。

微軟亞洲研究院黃昌甯、張小鳳在2013年發表論文,就過去50年以來自然語言處理(NLP)研究領域中的發現和發展要點進行闡述,其中包括兩個事實和三大重要成果。近年來,自然語言處理的語料庫調查顯示如下兩個事實:(1)對于句法分析來說,基于單一标記的短語結構規則是不充分的;單個标記的PSG規則不足以進行自然語言描述;(2)PSG規則在文本語料庫中具有偏差分布,即PSG規則的總數似乎不能夠涵蓋大型語料庫中發現的語言現象,這不符合語言學家的期望。短語結構規則在真實文本中的分布呈現嚴重扭曲。換言之,有限數目的短語結構規則不能覆寫大規模語料中的文法現象。這與原先人們的預期大相徑庭。

NLP技術發展曆程在很大程度上受到以上兩個事實的影響,在該領域中可以稱得上裡程碑式的成果有如下三個:(1)複雜特征集和合一文法;(2)語言學研究中的詞彙主義;(3)語料庫方法和統計語言模型。業内人士普遍認為,大規模語言知識的開發和自動擷取是NLP技術的瓶頸問題。是以,語料庫建設和統計學習理論将成為該領域中的關鍵課題。

Naturallanguage is the unique wisdom of mankind. Natural Language Processing (NLP) isan important direction in the field of computer science and artificialintelligence. It aims to study various theories and methods that can realizeeffective communication between human and computer in natural language.Communicating with computers in natural language has very important practicalapplication significance and revolutionary theoretical significance. Because ofthe understanding of natural language, the need for extensive knowledge of theexternal world and the ability to manipulate it, natural language processing isalso seen as one of the core issues in solving AI-complete. The study of naturallanguage processing is also full of charm and challenge.

HuangChangning and Zhang Xiaofeng in Microsoft Asia Research Institute published a paper in 2013, elaboratedon the major findings and developments points in theresearch field of Natural Language Processing (NLP) in the past50 year, including two facts and three important achievements. In recent yearsthe corpus investigation of NaturalLanguage Processing as shown the following two facts:(1) Forsyntactic analysis, the rule structure of phrase based on single mark is notsufficient; Single labeled PSGrules are not sufficient for naturallanguage description, and (2) PSGrules have skew distribution in text corpora,i.e. the total number of PSGrules does not seem to be able to cover thelanguage phenomena found in a large corpus, which is out of most linguistsexpectation. The distribution of phrase structure rules in real textis seriously distorted. In other words, a limited number of phrase structurerules cannot cover grammatical phenomena in large-scale corpus. This is verydifferent from the expectations of the original people.

The developmentof NLP technology has been under the influence of the two facts mentionedabove.There have been three major breakthroughs and milestonesin this field: (1) multiple features and unification-based grammars, (2)lexicalism in linguistics research, (3) Statistical Language Modeling (SLM) andcorpus-based approaches. The latest investigations reveal that the bottleneckproblem in the NLP technology is the problem of obtaining and developing largescale linguistic knowledge; therefore, the corpus construction and statisticallearning theory become key issues in NLPresearch and application.

一、NLP研究傳統問題

自然語言處理(NLP)是計算機科學、資訊工程和人工智能的子領域,涉及計算機和人類(自然)語言之間的互動。,尤其是程式設計實作計算機處理和分析大量自然語言資料。自然語言處理的挑戰包括語音識别,自然語言了解和自然語言生成。Naturallanguage processing (NLP) is a subfield of computer science, informationengineering, and artificial intelligence concerned with the interactionsbetween computers and human (natural) languages, in particular how to programcomputers to process and analyze large amounts of natural language data.Challenges in natural language processing frequently involve speechrecognition, natural language understanding, and natural language generation.

資訊輸入、檢索、人機對話等需求增多,使自然語言處理(NLP)成為21世紀初的熱門學科。從50年代機器翻譯和人工智能研究算起,NLP至今有長達半個世紀的曆史了。近年來這一領域中裡程碑式的理論和方法貢獻有如下三個:(1)複雜特征集和合一文法;(2)語言學研究中的詞彙主義;(3)語料庫方法和統計語言模型。這三個成果将繼續對語言學、計算語言學和NLP的研究産生深遠影響。[21]為了了解這些成果的意義,先介紹一下兩個相關事實。

句法分析的全過程:自然語言進行中識别句子的句法結構,要把句子中的詞一個一個地切分出來:然後去查詞典,給句子中的每個詞指派一個合适的詞性(part of speech);之後再用句法規則把句子裡包含的句法成分,如名詞短語、動詞短語、小句等,逐個地識别出來。進而判斷每個短語的句法功能,如主語、謂語、賓語等,及其語義角色,最終得到句子的意義表示,如邏輯語義表達式。

1.1 事實一:語言的結構歧義問題

第一個事實(黃昌甯,張小鳳,2013)是:短語結構文法(PhraseStructure Grammar,簡稱PSG)不能有效地描寫自然語言。PSG在Chomsky的語言學理論[1]中占有重要地位,并且在自然語言的句法描寫中擔當着舉足輕重的角色。但是它有一些根本性的弱點,主要表現為它使用的是像詞類和短語類那樣的單一标記,是以不能有效地指明和解釋自然語言中的結構歧義問題。

讓我們先來看一看漢語中“V+N”組合。假如我們把“打擊,委托,調查”等詞指派為動詞(V);把“力度,方式,盜版,甲方”等詞視為名詞(N)。而且同意“打擊力度”、“委托方式”是名詞短語(NP),“打擊盜版”、“委托甲方”是動詞短語(VP)。那麼就會産生如下兩條有歧義的句法規則:

(1) NP → V N

(2) VP → V N

換句話講,當計算機觀察到文本中相鄰出現的“V+N”詞類序列時,仍不能确定它們組成的究竟是NP還是VP。我們把這樣的歧義叫做“短語類型歧義”。例如:

• 該公司正在招聘[銷售V人員N]NP。

• 地球在不斷[改變V形狀N]VP。

下面再來看“N+V”的組合,也同樣會産生帶有短語類型歧義的規則對,如:

(3) NP → N V 例:市場調查;政治影響。

(4) S → N V 例:價格攀升;局勢穩定。

其中标記S代表小句。

不僅如此,有時當機器觀察到相鄰出現的“N+V”詞類序列時,甚至不能判斷它們是不是在同一個短語中。也就是說,“N+V”詞類序列可能組成名詞短語NP或小句S,也有可能根本就不在同一個短語裡。後面這種歧義稱為“短語邊界歧義”。下面是兩個相關的例句:

• 中國的[鐵路N建設V]NP發展很快。

• [中國的鐵路N]NP建設V得很快。

前一個例句中,“鐵路建設”組成一個NP;而在後一個例句中,這兩個相鄰的詞卻分屬于兩個不同的短語。這足以說明,基于單一标記的PSG不能充分地描述自然語言中的句法歧義現象。下面讓我們再來看一些這樣的例子。

(5)NP → V N1de N2

(6)VP → V N1de N2

其中de代表結構助詞“的”。例如,“[削蘋果]VP的刀”是NP; 而“削[蘋果的皮]NP”則是VP。這裡既有短語類型歧義,又有短語邊界歧義。比如,“削V蘋果N”這兩個相鄰的詞,可能構成一個VP,也可能分處于兩個相鄰的短語中。

(7)NP → P N1de N2

(8)PP → P N1de N2

規則中P和PP分别表示介詞和介詞短語。例如,“[對上海]PP的印象”是NP; 而“對[上海的學生]NP”則是PP。相鄰詞“對P 上海N”可能組成一個PP,也可能分處于兩個短語中。

(9)NP → NumPN1 de N2

其中NumP 表示數量短語。規則(9)雖然表示的是一個NP,但可分别代表兩種結構意義:

(9a)NumP [N1de N2]NP 如:五個[公司的職員]NP

(9b)[NumPN1]NP de N2 如:[五個公司]NP 的職員

(10)NP → N1 N2N3

規則(10)表示的也是一個NP,但“N1+ N2”先結合,還是“N2 +N3”先結合,會出現兩種不同的結構方式和意義,即:

(10a)[N1 N2]NPN3 如:[現代漢語]NP 詞典

(10b)N1 [N2N3]NP 如:新版[漢語詞典]NP

以上讨論的第一個事實說明:

! 由于限制力不夠,單一标記的PSG規則不能充分消解短語類型和短語邊界的歧義。用數學的語言來講,PSG規則是必要的,卻不是充分的。是以機器僅僅根據規則右邊的一個詞類序列來判斷它是不是一個短語,或者是什麼短語,其實都有某種不确定性。

! 采用複雜特征集和詞彙主義方法來重建自然語言的文法系統,是近二十年來全球語言學界就此作出的最重要的努力。

1.2 事實二:詞頻統計的齊夫律

通過大規模語料的調查,人們發現一種語言的短語規則的分布也符合所謂的齊夫率(Zipf’s Law)。Zipf是一個統計學家和語言學家。他提出,如果對某個語言機關(不論是英語的字母或詞)進行統計,把這個語言機關在一個語料庫裡出現的頻度(frequency)記作F,而且根據頻度的降序對每個單元指派一個整數的階次(rank) R。結果發現R和F的乘積近似為一個常數。即

F*R ≈ const (常數)

被觀察的語言單元的階次R與其頻度F成反比關系。詞頻統計方面齊夫律顯示,不管被考察的語料僅僅一本長篇小說,還是一個大規模的語料庫,最常出現的100個詞的出現次數會占到語料庫總詞次數(tokens)的近一半。假如語料庫的規模是100萬詞次,那麼其中頻度最高的100個詞的累計出現次數大概是50萬詞次。如果整個語料庫含有5萬詞型(types),那麼其中的一半(也就是2.5萬條左右)在該語料庫中隻出現過一次。即使把語料庫的規模加大十倍,變成1000萬詞次,統計規律大體不變。

有趣的是,80年代英國人Sampson對英語語料庫中的PSG規則進行統計,發現它們的分布同樣是扭曲的,大體表現為齊夫率[4]。也就是說,一方面經常遇到的文法規則隻有幾十條左右,它們的出現頻度非常非常高;另一方面,規則庫中大約一半左右的規則在語料庫中隻出現過一次。随着語料庫規模的擴大,新的規則仍不斷呈現。Noam Chomsky曾提出過這樣的假設,認為對一種自然語言來說,其文法規則的數目總是有限的,但據此生成的句子數目卻是無限的。但語料庫調查的結果不是這個樣子。這個發現至少說明,單純依靠語言學家的語感來編寫文法規則不可能勝任大規模真實文本處理的需求,必須尋找可以從語料庫中直接擷取大規模語言知識的新方法。

幾十年來,NLP學界曾發表過許多燦爛成果,有詞法學、文法學、語義學的,有句法分析算法的,還有衆多著名的自然語言應用系統。那麼究竟什麼是對該領域影響最大的、裡程碑式的成果呢?

二、NLP十大裡程碑

2.1 裡程碑一:1985複雜特征集

複雜特征集(complex feature set)又叫做多重屬性(multiple features)描寫。語言學裡,這種描寫方法最早出現在語音學中。美國計算語言學家Martin Kay于1985年在“功能合一文法”(FunctionalUnification Grammar,簡稱FUG)新文法理論中,提出“複雜特征集”(complex feature set)概念。後來被Chomsky學派采用來擴充PSG的描寫能力。

自然語言處理NLP技術裡程碑、知識結構、研究方向和機構導師(公号回複“NLP總結”下載下傳彩标PDF典藏版資料)

圖1 美國計算語言學家Martin Kay

現在在語言學界、計算語言學界,文法系統在詞彙層的描寫中常采用複雜特征集,利用這些屬性來強化句法規則的限制力。一個複雜特征集F包含任意多個特征名fi和特征值vi對。其形式如:

F = {…, fi=vi, …}, i=1,…,n

特征值vi既可以是一個簡單的數字或符号,也可以是另外一個複雜特征集。這種遞歸式的定義使複雜特征集獲得了強大的表現能力。舉例來說,北京大學俞士汶開發的《現代漢語文法資訊詞典》[10],對一個動詞定義了約40項屬性描寫,對一個名詞定義了約27項屬性描寫。

一條含有詞彙和短語屬性限制的句法規則具有如下的一般形式:

: <屬性限制>

: <屬性傳遞>

一般來說,PSG規則包括右部(條件:符号序列的比對模式)和左部(動作:短語歸并結果)。詞語的“屬性限制”直接來自系統的詞庫,而短語的“屬性限制”則是在自底向上的短語歸并過程中從其構成成分的中心語(head)那裡繼承過來的。在Chomsky的理論中這叫做X-bar理論。X-bar代表某個詞類X所構成的、仍具有該詞類屬性的一個成分。如果X=N,就是一個具有名詞特性的N-bar。當一條PSG規則的右部比對成功,且“屬性限制”部分得到滿足,這條規則才能被執行。此時,規則左部所命名的的短語被生成,該短語的複雜特征集通過“屬性傳遞”部分動态生成。

80年代末、90年代初學術界提出了一系列新的文法,如廣義短語結構文法(GPSG)、中心語驅動的短語結構文法(HPSG)、詞彙功能文法(LFG)等等。這些形式文法其實都是在詞彙和短語的複雜特征集描寫背景下産生的。合一(unification)算法則是針對複雜特征集的運算而提出來的。“合一”是實作屬性比對和指派的一種算法,是以上述這些新文法又統稱為“基于合一的文法”。

2.2 裡程碑二:1966詞彙主義

NLP領域第二個裡程碑式貢獻是詞彙主義(lexicalism)。1966年,韓禮德(Halliday)提出詞彙不是用來填充文法确定的一套“空位”(slots),而是一個獨立的語言學層面;詞彙研究可以作為對文法理論的補充,卻不是文法理論的一部分,他主張把詞彙從文法研究中獨立地分離出來。語言學家Hudson宣稱,詞彙主義是當今語言學理論頭号發展傾向[5]。出現原因也同上節兩事實有關。詞彙主義方法不僅提出一種顆粒度更細的語言知識表示形式,而且展現一語言知識遞增式開發和積累的新思路。

首先解釋一個背景沖突。一方面,語言學界一向認為,不劃分詞類就無法講文法,如前面介紹的短語結構文法,文法“不可能”根據個别單獨的詞來寫規則。但是另一方面,人們近來又注意到,任何歸類其實都會丢失個體的某些重要資訊。是以從前文提到的第一個事實出發,要想強化文法限制能力,詞彙的描寫應當深入到比詞類更細微的詞語本身上來。換句話講,語言學呼喚在詞彙層采用顆粒度更小的描寫單元。從本質上來說,詞彙主義傾向反映了語言描寫的主體已經從句法層轉移到了詞彙層;這也就是所謂的“小文法,大詞庫”的思想。下面讓我們來看與詞彙主義有關的一些工作。

2.2.1 詞彙文法學(Lexicon-grammar)

法國巴黎大學Gross教授60年代創立研究中心LADL(http://www.ladl.jussieu.fr/),提出了詞彙文法的概念。

• 把12,000個主要動詞分成50個子類。

• 每個動詞都有一個特定的論元集。

• 每一類動詞都有一個特定的矩陣, 其中每個動詞都用400個不同句式來逐一描寫(“+”代表可進入該句式;“-”表示不能)。

• 已開發英、法、德、西等歐洲語言的大規模描寫。

• INTEX是一個适用于大規模語料分析的工具,已先後被世界五十多個研究中心采用。

2.2.2 架構語義學(Frame Semantics)

Fillmore是格文法(Case Grammar)創始人,前幾年主持美國自然科學基金的一個名為架構語義學的項目(http://www.icsi.berkeley.edu/~framenet)。該項目從WordNet上選取了2000個動詞,從中得到75個語義架構。例如,動詞”categorize”的架構被定義為:

一個人(Cognizer)把某個對象(Item)視為某個類(Category)。

同原先的格架構相比,原來一般化的動作主體被具體化為認知者Cognizer,動作客體被具體化為事物Item,并根據特定體動詞的性質增加了一個作為分類結果的語義角色Category。

項目組還從英國國家語料庫中挑出50,000個相關句子,通過人工給每個句子标注了相應的語義角色。例句:

Kimcategorized the book as fiction.

(Cog) (Itm)(Cat)

2.2.3 WordNet

WordNet是一個描寫英語詞彙層語義關系的詞庫(http://www.cogsci.princeton.edu:80/~wn/),1990年由普林斯頓大學Miller開發。至今有很多版本,全部公布在網際網路上,供研究人員自由下載下傳。歐洲有一個Euro-WordNet,以類似的格式來表現各種歐洲語言的詞彙層語義關系。WordNet刻意描寫的是詞語之間的各種語義關系,如同義關系(synonymy)、反義關系(antonymy)、上下位關系(hyponymy),部分-整體關系(part-of)等等。這種詞彙語義學又叫做關系語義學。這一學派同傳統的語義場理論和和語義屬性描寫理論相比,其最大的優勢在于第一次在一種語言的整個詞彙表上實作了詞彙層的語義描寫。這是其他學派從來沒有做到的。其他理論迄今僅僅停留在教科書或某些學術論文中,從來就沒有得到工程規模的應用。下面是WordNet的概況:

• 95,600條實詞詞型(動詞、名詞、形容詞)

• 被劃分成70,100個同義詞集(synsets)

2.2.4 知網網(How-Net)

知網是董振東和董強[9]設計的一個漢語語義知識網(http://www.keenage.com),通路隻有首頁。

• 自下而上地依據概念對漢語實詞進行了窮盡的分類。

• 15,000個動詞被劃分成810類。

• 定義了300個名詞類,100個形容詞類。

• 全部概念用400個語義元語來定義。

知網特點是既有WordNet所描寫的同一類詞間語義關系(如:同義、反義、上下位、部分-整體等),又描寫不同類詞之間的論旨關系和語義角色。

3.2.5 MindNet

MindNet是微軟研究院NLP組設計的詞彙語義網(http://research.microsoft.com/nlp/),用三元組(triple)作為全部知識的表示基元。一個三元組由兩個節點和一條連接配接邊組成。每個節點代表一個概念,連接配接兩個概念節點的邊表示概念之間的語義依存關系。全部三元組通過句法分析器自動擷取。

具體通過對兩部英語詞典(Longman Dictionaryof Contemporary English,AmericanHeritage Dictionary)和一部百科全書(Encarta)中的全部句子進行分析,獲得每個句子的邏輯語義表示(logical form,簡稱LF)。而LF本來就是由三元組構成的,如(W1, V-Obj,W2)表示:W1是一個動詞,W2是其賓語中的中心詞,是以W2從屬于W1,它們之間的關系是V-Obj。比如(play, V-Obj,basketball)便是一個具體的三元組。又如(W1, H-Mod,W2),W1代表一個偏正短語中的中心詞(head word),W2是其修飾語(modifier),是以W2從屬于W1,它們之間的關系是H-Mod。

這種資源是完全自動做出來的,所得三元組不可能沒有錯誤。但是那些出現頻度很高的三元組一般來說正确。MindNet已經應用到像文法檢查、句法結構排歧、詞義排歧、機器翻譯等許多場合。

2.3 裡程碑三:1976統計語言模型

第三大貢獻是語料庫方法,或叫統計語言模型。首先成功利用數學方法解決自然語言處理問題的是語音和語言處理大師弗雷德·賈裡尼克(Fred Jelinek)。1968年始在IBM研究中心兼職1974年全職加入,他上司一批傑出科學家利用大型計算機處理人類語言問題。學術休假(SabbaticalLeave)時(約1972-1976年間)提出統計語言模型。1990s李開複用統計語言模型把997個詞的語音識别問題簡化成了20詞識别問題,實作了有史以來第一次大詞彙量非特定人連續語言的識别。常用統計語言模型,包括N元文法模型(N-gram Model)、隐馬爾科夫模型(Hidden MarkovModel,簡稱HMM)、最大熵模型(MaximumEntropy Model)等。

自然語言處理NLP技術裡程碑、知識結構、研究方向和機構導師(公号回複“NLP總結”下載下傳彩标PDF典藏版資料)

圖2 現代語音識别和自然語言處理研究的先驅、美國工程院院士Frederick Jelinek

如果用變量W代表一個文本中順序排列的n個詞,即W = w1w2…wn,則統計語言模型的任務是給出任意一個詞序列W在文本中出現的機率P(W)。利用機率的乘積公式,P(W)可展開為:

P(W) =P(w1)P(w2/w1)P(w3/ w1 w2)…P(wn/w1 w2…wn-1) (1)

式中P(w1)表示第一個詞w1的出現機率,P(w2/w1)表示在w1出現的情況下第二個詞w2出現的條件機率,依此類推。不難看出,為了預測詞wn的出現機率,必須已知它前面所有詞的出現機率。從計算上來看,這太複雜了。如果近似認為任意一個詞wi的出現機率隻同它緊鄰的前一個詞有關,那麼計算就得以大大簡化。這就是所謂的二進制模型(bigram),由(1)式得:

P(W) ≈ P(w1)∏i=2,…,nP(wi/ wi-1 ) (2)

式中∏i=2,…,nP(wi/ wi-1 )表示多個機率的連乘。

需要着重指出的是:這些機率參數都可以通過大規模語料庫來估值。比如二進制機率

P(wi/ wi-1) ≈count(wi-1 wi) / count(wi-1) (3)

式中count(…)表示一個特定詞序列在整個語料庫中出現的累計次數。若語料庫的總詞次數為N,則任意詞wi在該語料庫中的出現機率可估計如下:

P(wi) ≈count(wi) / N (4)

同理,如果近似認為任意詞wi的出現隻同它緊鄰前兩個詞有關,就得到一個三元模型(trigram):

P(W) ≈P(w1)P(w2/w1) ∏i=3,…,nP(wi/wi-2 w-1 ) (5)

統計語言模型的方法有點像天氣預報。用來估計機率參數的大規模語料庫好比是一個地區曆年積累起來的氣象記錄,而用三元模型來做天氣預報,就像是根據前兩天的天氣情況來預測當天的天氣。天氣預報當然不可能百分之百正确。這也算是機率統計方法的一個特點。

2.3.1 語音識别

語音識别作為計算機漢字鍵盤輸入的一種圖代方式,越來越受到資訊界人士的青睐。所謂聽寫機就是這樣的商品。據報道中國的行動電話使用者已超過一億,随着行動電話和個人數字助理(PDA)的普及,尤其是當這些随身攜帶的器件都可以無線上網的時候,廣大使用者更迫切期望通過語音識别或手寫闆而不是小鍵盤來輸入簡短的文字資訊。

其實,語音識别任務可視為計算以下條件機率的極大值問題:

W*= argmaxWP(W/speech signal)

= argmaxWP(speech signal/W) P(W) / P(speech signal)

= argmaxWP(speech signal/W) P(W) (6)

式中數學符号argmaxW表示對不同的候選詞序列W計算條件機率P(W/speech signal)的值,進而使W*成為其中條件機率值最大的那個詞序列,這也就是計算機標明的識别結果。換句話講,通過式(6)的計算,計算機找到了最适合目前輸入語音信号speech signal的詞串W*。

式(6)第二行是利用貝葉斯定律轉寫的結果,因為條件機率P(speech signal/W)比較容易估值。公式的分母P(speech signa)對給定的語音信号是一個常數,不影響極大值的計算,故可以從公式中删除。在第三行所示的結果中,P(W)就是前面所講得統計語言模型,一般采用式(5)所示的三元模型;P(speechsignal/W)叫做聲學模型。

講到這兒,細心的讀者可能已經明白,漢語拼音輸入法中的拼音-漢字轉換任務其實也是用同樣方法實作的,而且兩者所用的漢語語言模型(即二進制或三元模型)是同一個模型。

據筆者所知,目前市場上的聽寫機産品和微軟拼音輸入法(3.0版)都是用詞的三元模型實作的,幾乎完全不用句法-語義分析手段。為什麼會出現這樣的局面呢?這是優勝劣汰的客觀規律所決定的。可比的評測結果表明,用三元模型實作的拼音-漢字轉換系統,其出錯率比其它産品減少約50%。

2.3.2 詞性标注

一個詞庫中大約14%的詞型具有不隻一個詞性。而在一個語料庫中,占總詞次數約30%的詞具有不止一個詞性。是以對一個文本中的每一個詞進行詞性标注,就是通過上下文的限制,實作詞性歧義的消解。曆史上曾經先後出現過兩個自動詞性标注系統。一個采用上下文相關的規則,叫做TAGGIT(1971),另一個應用詞類的二進制模型,叫做CLAWS(1987)[2]。兩個系統都分别對100萬詞次的英語非受限文本實施了詞性标注。結果顯示,采用統計語言模型的CLAWS系統的标注正确率大大高于基于規則方法的TAGGIT系統。請看下表的對比:

系統名 TAGGIT(1971) CLAWS(1987)
标記數 86 133
方法 3000條CSG
規則 隐馬爾科夫模型
标注精度 77% 96%
測試語料 布朗LOB

令C和W分别代表詞類标記序列和詞序列,則詞性标注問題可視為計算以下條件機率的極大值:

C*= argmaxCP(C/W)

= argmaxCP(W/C)P(C) / P(W)

≈ argmaxC∏i=1,…,nP(wi/ci )P(ci /ci-1 ) (7)

式中P(C/W)是已知輸入詞序列W的情況下,出現詞類标記序列C的條件機率。數學符号argmaxC表示通過考察不同的候選詞類标記序列C,來尋找使條件機率取最大值的那個詞類标記序列C*。後者應當就是對W的詞性标注結果。

公式第二行是利用貝葉斯定律轉寫的結果,由于分母P(W)對給定的W是一個常數,不影響極大值的計算,可以從公式中删除。接着對公式進行近似。首先,引入獨立性假設,認為任意一個詞wi的出現機率近似隻同目前詞的詞類标記ci有關,而與周圍(上下文)的詞類标記無關。于是詞彙機率可計算如下:

P(W/C) ≈∏i=1,…,n P(wi/ci ) (8)

其次,采用二進制假設,即近似認為任意一個詞類标記ci的出現機率隻同它緊鄰的前一個詞類标記ci-1有關。有

P(C) ≈ P(c1)∏i=2,…,n P(ci /ci-1 ) (9)

P(ci /ci-1 )是詞類标記的轉移機率,也叫做基于詞類的二進制模型。

上述這兩個機率參數都可以通過帶詞性标記的語料庫來分别估計:

P(wi/ci ) ≈count(wi,ci) / count(ci) (10)

P(ci /ci-1 ) ≈count(ci-1ci) / count(ci-1) (11)

據文獻報道,采用統計語言模型方法漢語和英語的次性标注正确率都可以達到96%左右[6]。

2.3.3 介詞短語PP的依附歧義

英語中介詞短語究竟依附于前面的名詞還是前面的動詞,是句法分析中常見的結構歧義問題。下例用語料庫方法來解決這個問題,以及這種方法究竟能達到多高的正确率。

例句:Pierre Vinken,61 years old, joined the board as a nonexecutive director.

令A=1表示名詞依附,A=0為動詞依附,則上述例句的PP依附問題可表為:

(A=0,V=joined, N1=board, P=as, N2=director)

令V, N1, N2分别代表句中動詞短語、賓語短語、介賓短語的中心詞,并在一個帶有句法标注的語料庫(又稱樹庫)中統計如下四元組的機率Pr:

Pr = (A=1 /V=v, N1=n1, P=p, N2=n2) (10)

對輸入句子進行PP 依附判斷的算法如下:

若Pr = (1 / v, n1, p, n2) ≥ 0.5,

則判定PP依附于n1,

否則判定PP依附于v。

Collins和Brooks[8]實驗使用的語料庫是賓夕法尼亞大學标注的華爾街日報(WSJ)樹庫,包括:訓練集20,801個四元組,測試集3,097個四元組。他們對PP依附自動判定精度的上下限作了如下分析:

一律視為名詞依附(即A≡1) 59.0%

隻考慮介詞p的最常見附加72.2%

三位專家隻根據四個中心詞判斷88.2%

三位專家根據全句判斷93.2%

很明顯,自動判斷精确率的下限是72.2%,因為機器不會比隻考慮句中介詞p的最常見依附做得更差了;上限是88.2%,因為機器不可能比三位專家根據四個中心詞作出的判斷更高明。

論文報告,在被測試的3,097個四元組中,系統正确判斷的四元組為2,606個,是以平均精确率為84.1%。這與上面提到的上限值88.2%相比,應該說是相當不錯的結果。

傳統三大技術裡程碑小結

語言學家在不論是複雜特征集和合一文法,還是詞彙主義方法,都是原先所謂的理性主義架構下做出的重大貢獻。詞彙主義方法提出了一種顆粒度更細的語言知識表示形式,而且展現了一種語言知識遞增式開發和積累的新思路,值得特别推崇。尤其值得重視的是,在衆多詞彙資源的開發過程中,語料庫和統計學習方法發揮了很大的作用。這是經驗主義方法和理性主義方法互相融合的可喜開端,也是國内知名語言學者馮志偉等人認可的研究範式。

語料庫方法和統計語言模型,國内同行中實際上存在不同評價。有種觀點認為NLP必須建立在語言了解基礎上,他們不大相信統計語言模型在語音識别、詞性标注、資訊檢索等應用領域中所取得的進展。這些争論不能澄清,是因為同行間缺少統一評測。有評測才會有鑒别。

評判某方法優劣應公開、公平、互相可比的評測标準,而非研究員設計“自評”。黃昌甯、張小鳳2013年論文表示,語料庫方法和統計語言模型是目前自然語言處理技術的主流,其實用價值已在很多應用系統中得到充分證明。統計語言模型研究在結構化對象的統計模組化方面,仍有廣闊發展空間。自然語言處理領域業界知名部落客Sebatian Ruder在2018年文章[22]從神經網絡技術角度,總結NLP領域近15年重大進展、8大裡程碑事件,提及很多神經網絡模型。這些模型建立在同一時期非神經網絡技術之上,如上述三大裡程碑。下面接着看後續NLP技術的發展。

2.4 裡程碑四:2001神經語言模型(Neural language models)

語言模型解決的是在給定已出現詞語的文本中,預測下一個單詞的任務。這是最簡單的語言處理任務,有許多具體實際應用,如智能鍵盤、電子郵件回複建議等。語言模型曆史由來已久,經典方法基于n-grams模型(利用前面n個詞語預測下一個單詞),并利用平滑操作處理不可見的n-grams。

第一個神經語言模型,前饋神經網絡(feed-forward neural network),是Bengio等人于2001年提出的。模型以某詞語之前出現的n個詞語作為輸入向量,也就是現在大家說的詞嵌入(word embeddings)向量。這些詞嵌入在級聯後進入一個隐藏層,該層的輸出然後通過一個softmax層。如圖3所示。

自然語言處理NLP技術裡程碑、知識結構、研究方向和機構導師(公号回複“NLP總結”下載下傳彩标PDF典藏版資料)

圖3 前饋神經網絡語言模型(Bengio et al., 2001;2003)

而現在建構語言模型的前饋神經網絡,已被循環神經網絡(RNNs)和長短期記憶神經網絡(LSTMs)取代。雖然後來提出許多新模型在經典LSTM上進行了擴充,但它仍然是強有力的基礎模型。甚至Bengio等人的經典前饋神經網絡在某些設定下也和更複雜的模型效果相當,因為這些任務隻需要考慮鄰近的詞語。了解這些語言模型究竟捕捉了哪些資訊,也是當今一個活躍的研究領域。

語言模型的建立是一種無監督學習(unsupervisedlearning),Yann LeCun稱之為預測學習(predictivelearning),是獲得世界如何運作常識的先決條件。關于語言模型最引人注目的是,盡管它很簡單,但卻與後文許多核心進展息息相關。反過來,這也意味着NLP領域許多重要進展都可以簡化為某種形式的語言模型建構。但要實作對自然語言真正意義上的了解,僅僅從原始文本中進行學習是不夠的,我們需要新的方法和模型。

2.5 裡程碑五:2008多任務學習(Multi-task learning)

多任務學習是在多個任務下訓練的模型之間共享參數的方法,在神經網絡中通過捆綁不同層的權重輕松實作。多任務學習思想1993年Rich Caruana首次提出,并應用于道路追蹤和肺炎預測。多任務學習鼓勵模型學習對多個任務有效的表征描述。這對于學習一般的、低級的描述形式、集中模型的注意力或在訓練資料有限的環境中特别有用。

多任務學習2008年被Collobert和Weston等人首次在自然語言處理領域應用于神經網絡。在他們的模型中,詞嵌入矩陣被兩個在不同任務下訓練的模型共享,如圖4所示。

自然語言處理NLP技術裡程碑、知識結構、研究方向和機構導師(公号回複“NLP總結”下載下傳彩标PDF典藏版資料)

圖4 詞嵌入矩陣共享(Collobert & Weston,2008; Collobert et al., 2011)

共享的詞嵌入矩陣使模型可以互相協作,共享矩陣中的低層級資訊,而詞嵌入矩陣往往構成了模型中需要訓練的絕大部分參數。Collobert和Weston發表于2008年的論文,影響遠遠超過了它在多任務學習中的應用。它開創的諸如預訓練詞嵌入和使用卷積神經網絡處理文本的方法,在接下來的幾年被廣泛應用。他們也是以獲得2018年機器學習國際會議(ICML)的test-of-time獎。

如今,多任務學習在自然語言處理領域廣泛使用,而利用現有或“人工”任務已經成為NLP指令庫中的一個有用工具。雖然參數的共享是預先定義好的,但在優化的過程中卻可以學習不同的共享模式。當模型越來越多地在多個任務上進行測評以評估其泛化能力時,多任務學習就變得愈加重要,近年來也湧現出更多針對多任務學習的評估基準。

2.6 裡程碑六:2013詞嵌入

稀疏向量對文本進行表示的詞袋模型,在自然語言處理領域有很長曆史。而用稠密的向量對詞語進行描述,也就是詞嵌入,則在2001年首次出現。2013年Mikolov等人工作主要創新之處在于,通過去除隐藏層和近似計算目标使詞嵌入模型的訓練更為高效。盡管這些改變本質上十分簡單,但它們與高效的word2vec(wordto vector用來産生詞向量的相關模型)組合在一起,使得大規模的詞嵌入模型訓練成為可能。

Word2vec有兩種不同的實作方法:CBOW(continuousbag-of-words)和skip-gram。它們在預測目标上有所不同:一個是根據周圍的詞語預測中心詞語,另一個則恰恰相反。如圖5所示。

自然語言處理NLP技術裡程碑、知識結構、研究方向和機構導師(公号回複“NLP總結”下載下傳彩标PDF典藏版資料)

圖5 CBOW和skip-gram架構(Mikolov et al., 2013a; 2013b)

雖然這些嵌入與使用前饋神經網絡學習的嵌入在概念上沒有差別,但是在一個非常大語料庫上的訓練使它們能夠擷取諸如性别、動詞時态和國際事務等單詞之間的特定關系。如下圖 4 所示。

自然語言處理NLP技術裡程碑、知識結構、研究方向和機構導師(公号回複“NLP總結”下載下傳彩标PDF典藏版資料)

圖6 word2vec捕獲的聯系(Mikolov et al., 2013a; 2013b)

這些關系和它們背後的意義激起了人們對詞嵌入的興趣,許多研究都在關注這些線性關系的來源。然而,使詞嵌入成為目前自然語言處理領域中流砥柱的,是将預訓練的詞嵌入矩陣用于初始化可以提高大量下遊任務性能的事實。

雖然word2vec捕捉到的關系具有直覺且幾乎不可思議的特性,但後來的研究表明,word2vec本身并沒有什麼特殊之處:詞嵌入也可以通過矩陣分解來學習,經過适當的調試,經典的矩陣分解方法SVD和LSA都可以獲得相似的結果。從那時起,大量的工作開始探索詞嵌入的不同方面。盡管有很多發展,word2vec仍是目前應用最為廣泛的選擇。Word2vec應用範圍也超出了詞語級别:帶有負采樣的skip-gram——一個基于上下文學習詞嵌入的友善目标,已經被用于學習句子的表征。它甚至超越了自然語言處理的範圍,被應用于網絡和生物序列等領域。

一個激動人心的研究方向是在同一空間中建構不同語言的詞嵌入模型,以達到(零樣本)跨語言轉換的目的。通過無監督學習建構這樣的映射變得越來越有希望(至少對于相似的語言來說),這也為語料資源較少的語言和無監督機器翻譯的應用程式創造可能。

2.7 裡程碑七:2013RNN/CNN用于NLP的神經網絡

2013和2014年是自然語言處理領域神經網絡時代的開始。其中三種類型的神經網絡應用最為廣泛:循環神經網絡(recurrentneural networks)、卷積神經網絡(convolutionalneural networks)和結構遞歸神經網絡(recursiveneural networks)。

循環神經網絡是NLP領域處理動态輸入序列最自然的選擇。Vanilla循環神經網絡很快被經典的長短期記憶網絡(long-shorttermmemory networks,LSTM)代替,該模型能更好地解決梯度消失和梯度爆炸問題。在2013年之前,人們仍認為循環神經網絡很難訓練,直到Ilya Sutskever博士的論文改變了循環神經網絡這一名聲。雙向的長短期記憶記憶網絡通常被用于同時處理出現在左側和右側的文本内容。LSTM 結構如圖7所示。

自然語言處理NLP技術裡程碑、知識結構、研究方向和機構導師(公号回複“NLP總結”下載下傳彩标PDF典藏版資料)

圖7 LSTM網絡(來源:ChrisOlah)

應用于文本的卷積神經網絡隻在兩個次元上進行操作,卷積層隻需要在時序次元上移動即可。圖8展示了應用于自然語言處理的卷積神經網絡的典型結構。

自然語言處理NLP技術裡程碑、知識結構、研究方向和機構導師(公号回複“NLP總結”下載下傳彩标PDF典藏版資料)

圖8 卷積神經網絡(Kim,2014)

與循環神經網絡相比,卷積神經網絡的一個優點是具有更好的并行性。因為卷積操作中每個時間步的狀态隻依賴于局部上下文,而不是循環神經網絡中那樣依賴于所有過去的狀态。卷積神經網絡可以使用更大的卷積層涵蓋更廣泛的上下文内容。卷積神經網絡也可以和長短期記憶網絡進行組合和堆疊,還可以用來加速長短期記憶網絡的訓練。

循環神經網絡和卷積神經網絡都将語言視為一個序列。但從語言學的角度來看,語言是具有層級結構的:詞語組成高階的短語和小句,它們本身可以根據一定的産生規則遞歸地組合。這激發了利用結構遞歸神經網絡,以樹形結構取代序列來表示語言的想法,如圖9所示。

自然語言處理NLP技術裡程碑、知識結構、研究方向和機構導師(公号回複“NLP總結”下載下傳彩标PDF典藏版資料)

圖9 結構遞歸神經網絡(Socher et al., 2013)

結構遞歸神經網絡自下而上建構序列的表示,與從左至右或從右至左對序列進行處理的循環神經網絡形成鮮明的對比。樹中的每個節點是通過子節點的表征計算得到的。一個樹也可以視為在循環神經網絡上施加不同的處理順序,是以長短期記憶網絡則可以很容易地被擴充為一棵樹。

不隻是循環神經網絡和長短期記憶網絡可以擴充到使用層次結構,詞嵌入也可以在文法語境中學習,語言模型可以基于句法堆棧生成詞彙,圖形卷積神經網絡可以樹狀結構運作。

2.8 裡程碑八:2014序列到序列模型(Sequence-to-sequencemodels)

2014年,Sutskever等人提出序列到序列學習,即使用神經網絡将一個序列映射到另一個序列的一般化架構。在這個架構中,一個作為編碼器的神經網絡對句子符号進行處理,并将其壓縮成向量表示;然後,一個作為解碼器的神經網絡根據編碼器的狀态逐個預測輸出符号,并将前一個預測得到的輸出符号作為預測下一個輸出符号的輸入。如圖10所示。

自然語言處理NLP技術裡程碑、知識結構、研究方向和機構導師(公号回複“NLP總結”下載下傳彩标PDF典藏版資料)

圖10 序列到序列模型(Sutskever et al., 2014)

機器翻譯是這一架構的殺手級應用。2016年,谷歌宣布他們将用神經機器翻譯模型取代基于短語的整句機器翻譯模型。谷歌大腦負責人Jeff Dean表示,這意味着用500行神經網絡模型代碼取代50萬行基于短語的機器翻譯代碼。

由于其靈活性,該架構在自然語言生成任務上被廣泛應用,其編碼器和解碼器分别由不同的模型來擔任。更重要的是,解碼器不僅可以适用于序列,在任意表示上均可以應用。比如基于圖檔生成描述(如圖11)、基于表格生成文本、根據源代碼改變生成描述,以及衆多其他應用。

自然語言處理NLP技術裡程碑、知識結構、研究方向和機構導師(公号回複“NLP總結”下載下傳彩标PDF典藏版資料)

圖11 基于圖像生成标題(Vinyalset al., 2015)

序列到序列的學習甚至可以應用到自然語言處理領域常見的結構化預測任務中,也就是輸出具有特定的結構。為簡單起見,輸出就像選區解析一樣被線性化(如圖12)。在給定足夠多訓練資料用于文法解析的情況下,神經網絡已經被證明具有産生線性輸出和識别命名實體的能力。

自然語言處理NLP技術裡程碑、知識結構、研究方向和機構導師(公号回複“NLP總結”下載下傳彩标PDF典藏版資料)

圖12 線性化選區解析樹(Vinyalset al., 2015)

序列的編碼器和解碼器通常都是基于循環神經網絡,但也可以使用其他模型。新的結構主要都從機器翻譯的工作中誕生,它已經成了序列到序列模型的培養基。近期提出的模型有深度長短期記憶網絡、卷積編碼器、Transformer(一個基于自注意力機制的全新神經網絡架構)以及長短期記憶依賴網絡和的 Transformer 結合體等。

2.9 裡程碑九:2015注意力機制和基于記憶的神經網絡

注意力機制是神經網絡機器翻譯(NMT)的核心創新之一,也是使神經網絡機器翻譯優于經典的基于短語的機器翻譯的關鍵。序列到序列學習的主要瓶頸是,需要将源序列的全部内容壓縮為固定大小的向量。注意力機制通過讓解碼器回顧源序列的隐藏狀态,以此為解碼器提供權重平均值的輸入來緩解這一問題,如圖13所示。

自然語言處理NLP技術裡程碑、知識結構、研究方向和機構導師(公号回複“NLP總結”下載下傳彩标PDF典藏版資料)

圖13 注意力機制(Bahdanau et al., 2015)

之後,各種形式的注意力機制湧現而出。注意力機制被廣泛接受,在各種需要根據輸入的特定部分做出決策的任務上都有潛在的應用。它已經被應用于句法分析、閱讀了解、單樣本學習等任務中。它的輸入甚至不需要是一個序列,而可以包含其他表示,比如圖像的描述(圖14)。

注意力機制一個有用的附帶作用是它通過注意力權重來檢測輸入的哪一部分與特定的輸出相關,進而提供了一種罕見的雖然還是比較淺層次的,對模型内部運作機制的窺探。

自然語言處理NLP技術裡程碑、知識結構、研究方向和機構導師(公号回複“NLP總結”下載下傳彩标PDF典藏版資料)

圖14 圖像描述模型中的視覺注意力機制訓示在生成”飛盤”時所關注的内容(Xu etal., 2015)

注意力機制不僅僅局限于輸入序列。自注意力機制可用來觀察句子或文檔中周圍的單詞,獲得包含更多上下文資訊的詞語表示。多層的自注意力機制是神經機器翻譯前沿模型Transformer的核心。

注意力機制可以視為模糊記憶的一種形式,其記憶的内容包括模型之前的隐藏狀态,由模型選擇從記憶中檢索哪些内容。與此同時,更多具有明确記憶單元的模型被提出。他們有很多不同的變化形式,比如神經圖靈機(NeuralTuring Machines)、記憶網絡(MemoryNetwork)、端到端的記憶網絡(End-to-endMemory Newtorks)、動态記憶網絡(DynamicMemoryNetworks)、神經可微計算機(NeuralDifferentiable Computer)、循環實體網絡(RecurrentEntityNetwork)。

記憶的存取通常與注意力機制相似,基于與目前狀态且可以讀取和寫入。這些模型之間的差異展現在它們如何實作和利用存儲子產品。比如說,端到端的記憶網絡對輸入進行多次處理并更新記憶體,以實行多次推理。神經圖靈機也有一個基于位置的尋址方式,使它們可以學習簡單的計算機程式,比如排序。基于記憶的模型通常用于需要長時間保留資訊的任務中,例如語言模型建構和閱讀了解。記憶子產品的概念非常通用,知識庫和表格都可以作為記憶子產品,記憶子產品也可以基于輸入的全部或部分内容進行填充。

2.10裡程碑十:2018預訓練語言模型

預訓練的詞嵌入與上下文無關,僅用于初始化模型中的第一層。近幾個月以來,許多有監督的任務被用來預訓練神經網絡。相比之下,語言模型隻需要未标記的文本,是以其訓練可以擴充到數十億單詞的語料、新的領域、新的語言。預訓練的語言模型于 2015年被首次提出,但直到最近它才被證明在大量不同類型的任務中均十分有效。語言模型嵌入可以作為目标模型中的特征,或者根據具體任務進行調整。如下圖所示,語言模型嵌入為許多任務的效果帶來了巨大的改進。

自然語言處理NLP技術裡程碑、知識結構、研究方向和機構導師(公号回複“NLP總結”下載下傳彩标PDF典藏版資料)

圖13 改進的語言模型嵌入(Peterset al., 2018)

使用預訓練的語言模型可以在資料量十分少的情況下有效學習。由于語言模型的訓練隻需要無标簽的資料,是以他們對于資料稀缺的低資源語言特别有利。2018年10月,谷歌AI語言組釋出BERT語言模型預訓練,已被證明可有效改進許多自然語言處理任務(Dai and Le, 2015; Peters et al., 2017, 2018; Radford etal., 2018; Howard and Ruder, 2018)。這些任務包括句子級任務,如自然語言推理inference(Bowman et al., 2015; Williams et al., 2018)和釋義paraphrasing(Dolan and Brockett, 2005),旨在通過整體分析來預測句子之間的關系;以及詞塊級任務,如命名實體識别(Tjong KimSang and De Meulder, 2003)和SQuAD問題回答(Rajpurkar et al., 2016),其中模型需要在詞塊級别生成細粒度輸出。

近年七大技術裡程碑小結

除了上述七大技術裡程碑,一些其他進展雖不如上面提到的那樣流行,但仍産生了廣泛的影響。

基于字元的描述(Character-based representations),在字元層級上使用卷積神經網絡和長短期記憶網絡,以獲得一個基于字元的詞語描述,目前已經相當常見了,特别是對于那些語言形态豐富的語種或那些形态資訊十分重要、包含許多未知單詞的任務。據目前所知,基于字元的描述最初用于序列标注,現在,基于字元的描述方法,減輕了必須以增加計算成本為代價建立固定詞彙表的問題,并使完全基于字元的機器翻譯的應用成為可能。

對抗學習(Adversarial learning),在機器學習領域已經取得了廣泛應用,在自然語言處理領域也被應用于不同的任務中。對抗樣例的應用也日益廣泛,他們不僅僅是探測模型弱點的工具,更能使模型更具魯棒性(robust)。(虛拟的)對抗性訓練,也就是最壞情況的擾動,和域對抗性損失(domain-adversariallosses)都是可以使模型更具魯棒性的有效正則化方式。生成對抗網絡(GANs)目前在自然語言生成任務上還不太有效,但在比對分布上十分有用。

強化學習(Reinforcement learning),在具有時間依賴性任務上證明有效,比如在訓練期間選擇資料和對話模組化。在機器翻譯和概括任務中,強化學習可以有效地直接優化“紅色”和“藍色”這樣不可微的度量,不必去優化像交叉熵這樣的代理損失函數。同樣,逆向強化學習(inversereinforcement learning)在類似視訊故事描述這樣的獎勵機制非常複雜且難以具體化的任務中,也非常有用。

B自然語言處理NLP知識結構(6990字)

自然語言處理NLP知識結構

文|秦隴紀,資料簡化DataSimp20181013Sat

自然語言處理(計算機語言學、自然語言了解)涉及:字處理,詞處理,語句處理,篇章處理詞處理分詞、詞性标注、實體識别、詞義消歧語句處理句法分析(SyntacticAnalysis)、語義分析(SenmanticAnalysis)等。其中,重點有:1.句法語義分析:分詞,詞性标記,命名實體識别。2.資訊抽取3.文本挖掘:文本聚類,情感分析。基于統計。4.機器翻譯:基于規則,基于統計,基于神經網絡。5.資訊檢索6.問答系統7.對話系統建議...本文總結的自然語言處理曆史、模型、知識體系結構内容,涉及NLP的語言理論、算法和工程實踐各方面,内容繁雜。參考黃志洪老師自然語言處理課程、宗成慶老師《統計自然語言處理》,鄭捷2017年電子工業出版社出版的圖書《NLP漢語自然語言處理原理與實踐》,以及國外著名NLP書籍的英文資料、漢譯版資料。

一、NLP知識結構概述

1)自然語言處理:利用計算機為工具,對書面實行或者口頭形式進行各種各樣的處理和加工的技術,是研究人與人交際中以及人與計算機交際中的演員問題的一門學科,是人工智能的主要内容。

2)自然語言處理是研究語言能力和語言應用的模型,建立計算機(算法)架構來實作這樣的語言模型,并完善、評測、最終用于設計各種實用系統。

3)研究問題(主要):

資訊檢索

機器翻譯

文檔分類

問答系統

資訊過濾

自動文摘

資訊抽取

文本挖掘

輿情分析

機器寫作

語音識别

研究模式:自然語言場景問題,數學算法,算法如何應用到解決這些問題,預料訓練,相關實際應用

自然語言的困難:

場景的困難:語言的多樣性、多變性、歧義性

學習的困難:艱難的數學模型(hmm,crf,EM,深度學習等)

語料的困難:什麼的語料?語料的作用?如何擷取語料?

二、NLP知識十大結構

2.1形式語言與自動機

語言:按照一定規律構成的句子或者字元串的有限或者無限的集合。

描述語言的三種途徑:

窮舉法

文法(産生式系統)描述

自動機

自然語言不是人為設計而是自然進化的,形式語言比如:運算符号、化學分子式、程式設計語言

形式語言理論朱啊喲研究的是内部結構模式這類語言的純粹的文法領域,從語言學而來,作為一種了解自然語言的句法規律,在計算機科學中,形式語言通常作為定義程式設計和文法結構的基礎

形式語言與自動機基礎知識:

集合論

圖論

自動機的應用:

1,單詞自動查錯糾正

2,詞性消歧(什麼是詞性?什麼的詞性标注?為什麼需要标注?如何标注?)

形式語言的缺陷:

1、對于像漢語,英語這樣的大型自然語言系統,難以構造精确的文法

2、不符合人類學習語言的習慣

3、有些句子文法正确,但在語義上卻不可能,形式語言無法排出這些句子

4、解決方向:基于大量語料,采用統計學手段建立模型

2.2 語言模型

1)語言模型(重要):通過語料計算某個句子出現的機率(機率表示),常用的有2-元模型,3-元模型

2)語言模型應用:

語音識别歧義消除例如,給定拼音串:ta shi yan yan jiu saun fa de

可能的漢字串:踏實煙酒算法的他是研究酸法的他是研究算法的,顯然,最後一句才符合。

3)語言模型的啟示:

1、開啟自然語言處理的統計方法

2、統計方法的一般步驟:

收集大量語料

對語料進行統計分析,得出知識

針對場景建立算法模型

解釋和應用結果

4)語言模型性能評價,包括評價目标,評價的難點,常用名額(交叉熵,困惑度)

5)資料平滑:

資料平滑的概念,為什麼需要平滑

平滑的方法,加一法,加法平滑法,古德-圖靈法,J-M法,Katz平滑法等

6)語言模型的缺陷:

語料來自不同的領域,而語言模型對文本類型、主題等十分敏感

n與相鄰的n-1個詞相關,假設不是很成立。

2.3機率圖模型,生成模型與判别模型,貝葉斯網絡,馬爾科夫鍊與隐馬爾科夫模型(HMM)

1)機率圖模型概述(什麼的機率圖模型,參考清華大學教材《機率圖模型》)

2)馬爾科夫過程(定義,了解)

3)隐馬爾科夫過程(定義,了解)

HMM的三個基本問題(定義,解法,應用)

注:第一個問題,涉及最大似然估計法,第二個問題涉及EM算法,第三個問題涉及維特比算法,内容很多,要重點了解,(參考書李航《統計學習方法》,網上部落格,筆者github)

2.4 馬爾科夫網,最大熵模型,條件随機場(CRF)

1)HMM的三個基本問題的參數估計與計算

2)什麼是熵

3)EM算法(應用十分廣泛,好好了解)

4)HMM的應用

5)階層化馬爾科夫模型與馬爾科夫網絡

提出原因,HMM存在兩個問題

6)最大熵馬爾科夫模型

優點:與HMM相比,允許使用特征刻畫觀察序列,訓練高效

缺點:存在标記偏置問題

7)條件随機場及其應用(概念,模型過程,與HMM關系)

參數估計方法(GIS算法,改進IIS算法)

CRF基本問題:特征選取(特征模闆)、機率計算、參數訓練、解碼(維特比)

應用場景:

詞性标注類問題(現在一般用RNN+CRF)

中文分詞(發展過程,經典算法,了解開源工具jieba分詞)

中文人名,地名識别

8)CRF++

2.5 命名實體 識别,詞性标注,内容挖掘、語義分析與篇章分析(大量用到前面的算法)

1)命名實體識别問題

相關機率,定義

相關任務類型

方法(基于規程->基于大規模語料庫)

2)未登入詞的解決方法(搜尋引擎,基于語料)

3)CRF解決命名實體識别(NER)流程總結:

訓練階段:确定特征模闆,不同場景(人名,地名等)所使用的特征模闆不同,對現有語料進行分詞,在分詞結果基礎上進行詞性标注(可能手工),NER對應的标注問題是基于詞的,然後訓練CRF模型,得到對應權值參數值

識别過程:将待識别文檔分詞,然後送入CRF模型進行識别計算(維特比算法),得到标注序列,然後根據标注劃分出命名實體

4)詞性标注(了解含義,意義)及其一緻性檢查方法(位置屬性向量,詞性标注序列向量,聚類或者分類算法)

2.6句法分析

1)句法分析了解以及意義

1、句法結構分析

完全句法分析

淺層分析(這裡有很多方法。。。)

2、依存關系分析

2)句法分析方法

1、基于規則的句法結構分析

2、基于統計的文法結構分析

2.7 文本分類,情感分析

1)文本分類,文本排重

文本分類:在預定義的分類體系下,根據文本的特征,将給定的文本與一個或者多個類别相關聯

典型應用:垃圾郵件判定,網頁自動分類

2)文本表示,特征選取與權重計算,詞向量

文本特征選擇常用方法:

1、基于本文頻率的特征提取法

2、資訊增量法

3、X2(卡方)統計量

4、互資訊法

3)分類器設計

SVM,貝葉斯,決策樹等

4)分類器性能評測

1、召回率

2、正确率

3、F1值

5)主題模型(LDA)與PLSA

LDA模型十分強大,基于貝葉斯改進了PLSA,可以提取出本章的主題詞和關鍵詞,模組化過程複雜,難以了解。

6)情感分析

借助計算機幫助使用者快速擷取,整理和分析相關評論資訊,對帶有感情色彩的主觀文本進行分析,處理和歸納例如,評論自動分析,水軍識别。

某種意義上看,情感分析也是一種特殊的分類問題

7)應用案例

2.8資訊檢索,搜尋引擎及其原理

1)資訊檢索起源于圖書館資料查詢檢索,引入計算機技術後,從單純的文本查詢擴充到包含圖檔,音視訊等多媒體資訊檢索,檢索對象由資料庫擴充到網際網路。

1、點對點檢索

2、精确比對模型與相關比對模型

3、檢索系統關鍵技術:标引,相關度計算

2)常見模型:布爾模型,向量空間模型,機率模型

3)常用技術:反向索引,隐語義分析(LDA等)

4)評測名額 

2.9 自動文摘與資訊抽取,機器翻譯,問答系統

1)統計機器翻譯的的思路,過程,難點,以及解決

2)問答系統

基本組成:問題分析,資訊檢索,答案抽取

類型:基于問題-答案,基于自由文本

典型的解決思路

3)自動文摘的意義,常用方法

4)資訊抽取模型(LDA等)

2.10深度學習在自然語言中的應用

1)單詞表示,比如詞向量的訓練(wordvoc)

2)自動寫文本

寫新聞等

3)機器翻譯

4)基于CNN、RNN的文本分類

5)深度學習與CRF結合用于詞性标注

...............

更多深度學習内容,可參考我之前的文章。

自然語言處理(NLP)入門

本文簡要介紹Python自然語言處理(NLP),使用Python的NLTK庫。NLTK是Python的自然語言處理工具包,在NLP領域中,最常使用的一個Python庫。什麼是NLP?簡單來說,自然語言...

三、中文NLP知識目錄

選自鄭捷2017年電子工業出版社出版的圖書《NLP漢語自然語言處理原理與實踐》[29]。

第1章 中文語言的機器處理 1

1.1 曆史回顧 2

1.1.1 從科幻到現實 2

1.1.2 早期的探索 3

1.1.3 規則派還是統計派 3

1.1.4 從機器學習到認知計算 5

1.2 現代自然語言系統簡介 6

1.2.1 NLP流程與開源架構 6

1.2.2 哈工大NLP平台及其示範環境 9

1.2.3 StanfordNLP團隊及其示範環境 11

1.2.4 NLTK開發環境 13

1.3 整合中文分詞子產品 16

1.3.1 安裝Ltp Python元件 17

1.3.2 使用Ltp 3.3進行中文分詞 18

1.3.3 使用結巴分詞子產品 20

1.4 整合詞性标注子產品 22

1.4.1 Ltp 3.3詞性标注 23

1.4.2 安裝StanfordNLP并編寫Python接口類 24

1.4.3 執行Stanford詞性标注 28

1.5 整合命名實體識别子產品 29

1.5.1 Ltp 3.3命名實體識别 29

1.5.2 Stanford命名實體識别 30

1.6 整合句法解析子產品 32

1.6.1 Ltp 3.3句法依存樹 33

1.6.2 StanfordParser類 35

1.6.3 Stanford短語結構樹 36

1.6.4 Stanford依存句法樹 37

1.7 整合語義角色标注子產品 38

1.8 結語 40

第2章 漢語語言學研究回顧 42

2.1 文字元号的起源 42

2.1.1 從記事談起 43

2.1.2 古文字的形成 47

2.2 六書及其他 48

2.2.1 象形 48

2.2.2 指事 50

2.2.3 會意 51

2.2.4 形聲 53

2.2.5 轉注 54

2.2.6 假借 55

2.3 字形的流變 56

2.3.1 筆與墨的形成與變革 56

2.3.2 隸變的方式 58

2.3.3 漢字的符号化與結構 61

2.4 漢語的發展 67

2.4.1 完整語義的基本形式——句子 68

2.4.2 語言的初始形态與文言文 71

2.4.3 白話文與複音詞 73

2.4.4 白話文與句法研究 78

2.5 三個平面中的語義研究 80

2.5.1 詞彙與本體論 81

2.5.2 格文法及其架構 84

2.6 結語 86

第3章 詞彙與分詞技術 88

3.1 中文分詞 89

3.1.1 什麼是詞與分詞規範 90

3.1.2 兩種分詞标準 93

3.1.3 歧義、機械分詞、語言模型 94

3.1.4 詞彙的構成與未登入詞 97

3.2 系統總體流程與詞典結構 98

3.2.1 概述 98

3.2.2 中文分詞流程 99

3.2.3 分詞詞典結構 103

3.2.4 命名實體的詞典結構 105

3.2.5 詞典的存儲結構 108

3.3 算法部分源碼解析 111

3.3.1 系統配置 112

3.3.2 Main方法與例句 113

3.3.3 句子切分 113

3.3.4 分詞流程 117

3.3.5 一進制詞網 118

3.3.6 二進制詞圖 125

3.3.7 NShort算法原理 130

3.3.8 後處理規則集 136

3.3.9 命名實體識别 137

3.3.10 細分階段與最短路徑 140

3.4 結語 142

第4章 NLP中的機率圖模型 143

4.1 機率論回顧 143

4.1.1 多元機率論的幾個基本概念 144

4.1.2 貝葉斯與樸素貝葉斯算法 146

4.1.3 文本分類 148

4.1.4 文本分類的實作 151

4.2 資訊熵 154

4.2.1 資訊量與資訊熵 154

4.2.2 互資訊、聯合熵、條件熵 156

4.2.3 交叉熵和KL散度 158

4.2.4 資訊熵的NLP的意義 159

4.3 NLP與機率圖模型 160

4.3.1 機率圖模型的幾個基本問題 161

4.3.2 産生式模型和判别式模型 162

4.3.3 統計語言模型與NLP算法設計 164

4.3.4 極大似然估計 167

4.4 隐馬爾科夫模型簡介 169

4.4.1 馬爾科夫鍊 169

4.4.2 隐馬爾科夫模型 170

4.4.3 HMMs的一個執行個體 171

4.4.4 Viterbi算法的實作 176

4.5 最大熵模型 179

4.5.1 從詞性标注談起 179

4.5.2 特征和限制 181

4.5.3 最大熵原理 183

4.5.4 公式推導 185

4.5.5 對偶問題的極大似然估計 186

4.5.6 GIS實作 188

4.6 條件随機場模型 193

4.6.1 随機場 193

4.6.2 無向圖的團(Clique)與因子分解 194

4.6.3 線性鍊條件随機場 195

4.6.4 CRF的機率計算 198

4.6.5 CRF的參數學習 199

4.6.6 CRF預測标簽 200

4.7 結語 201

第5章 詞性、語塊與命名實體識别 202

5.1 漢語詞性标注 203

5.1.1 漢語的詞性 203

5.1.2 賓州樹庫的詞性标注規範 205

5.1.3stanfordNLP标注詞性 210

5.1.4 訓練模型檔案 213

5.2 語義組塊标注 219

5.2.1 語義組塊的種類 220

5.2.2 細說NP 221

5.2.3 細說VP 223

5.2.4 其他語義塊 227

5.2.5 語義塊的抽取 229

5.2.6 CRF的使用 232

5.3 命名實體識别 240

5.3.1 命名實體 241

5.3.2 分詞架構與專名詞典 243

5.3.3 算法的政策——詞典與統計相結合 245

5.3.4 算法的政策——層疊式架構 252

5.4 結語 259

第6章 句法理論與自動分析 260

6.1 轉換生成文法 261

6.1.1 喬姆斯基的語言觀 261

6.1.2 短語結構文法 263

6.1.3 漢語句類 269

6.1.4 謂詞論元與空範疇 274

6.1.5 輕動詞分析理論 279

6.1.6 NLTK操作句法樹 280

6.2 依存句法理論 283

6.2.1 配價理論 283

6.2.2 配價詞典 285

6.2.3 依存理論概述 287

6.2.4 Ltp依存分析介紹 290

6.2.5 Stanford依存轉換、解析 293

6.3 PCFG短語結構句法分析 298

6.3.1 PCFG短語結構 298

6.3.2 内向算法和外向算法 301

6.3.3 Viterbi算法 303

6.3.4 參數估計 304

6.3.5 Stanford的PCFG算法訓練 305

6.4 結語 310

第7章 建設語言資源庫 311

7.1 語料庫概述 311

7.1.1 語料庫的簡史 312

7.1.2 語言資源庫的分類 314

7.1.3 語料庫的設計執行個體:國家語委語料庫 315

7.1.4 語料庫的層次加工 321

7.2 文法語料庫 323

7.2.1 中文分詞語料庫 323

7.2.2 中文分詞的測評 326

7.2.3 賓州大學CTB簡介 327

7.3 語義知識庫 333

7.3.1 知識庫與HowNet簡介 333

7.3.2 發掘義原 334

7.3.3 語義角色 336

7.3.4 分類原則與事件分類 344

7.3.5 實體分類 347

7.3.6 屬性與分類 352

7.3.7 相似度計算與執行個體 353

7.4 語義網與百科知識庫 360

7.4.1 語義網理論介紹 360

7.4.2 維基百科知識庫 364

7.4.3 DBpedia抽取原理 365

7.5 結語 368

第8章 語義與認知 370

8.1 回顧現代語義學 371

8.1.1 語義三角論 371

8.1.2 語義場論 373

8.1.3 基于邏輯的語義學 376

8.2 認知語言學概述 377

8.2.1 象似性原理 379

8.2.2 順序象似性 380

8.2.3 距離象似性 380

8.2.4 重疊象似性 381

8.3 意象圖式的構成 383

8.3.1 主觀性與焦點 383

8.3.2 範疇化:概念的認知 385

8.3.3 主體與背景 390

8.3.4 意象圖式 392

8.3.5 社交中的圖式 396

8.3.6 完形:壓縮與省略 398

8.4 隐喻與轉喻 401

8.4.1 隐喻的結構 402

8.4.2 隐喻的認知本質 403

8.4.3 隐喻計算的系統架構 405

8.4.4 隐喻計算的實作 408

8.5 構式文法 412

8.5.1 構式的概念 413

8.5.2 句法與構式 415

8.5.3 構式知識庫 417

8.6 結語 420

第9章 NLP中的深度學習 422

9.1 神經網絡回顧 422

9.1.1 神經網絡架構 423

9.1.2 梯度下降法推導 425

9.1.3 梯度下降法的實作 427

9.1.4 BP神經網絡介紹和推導 430

9.2 Word2Vec簡介 433

9.2.1 詞向量及其表達 434

9.2.2 Word2Vec的算法原理 436

9.2.3 訓練詞向量 439

9.2.4 大規模上下位關系的自動識别 443

9.3 NLP與RNN 448

9.3.1Simple-RNN 449

9.3.2 LSTM原理 454

9.3.3 LSTM的Python實作 460

9.4 深度學習架構與應用 467

9.4.1 Keras架構介紹 467

9.4.2 Keras序列标注 471

9.4.3 依存句法的算法原理 478

9.4.4 Stanford依存解析的訓練過程 483

9.5 結語 488

第10章 語義計算的架構 490

10.1 句子的語義和文法預處理 490

10.1.1 長句切分和融合 491

10.1.2 共指消解 496

10.2 語義角色 502

10.2.1 謂詞論元與語義角色 502

10.2.2PropBank簡介 505

10.2.3 CPB中的特殊句式 506

10.2.4 名詞性謂詞的語義角色 509

10.2.5PropBank展開 512

10.3 句子的語義解析 517

10.3.1 語義依存 517

10.3.2 完整架構 524

10.3.3 實體關系抽取 527

10.4 結語 531 [29]

C自然語言處理NLP國内研究方向機構導師(1111字)

自然語言處理NLP國内研究方向機構導師

文|中文資訊協會《中文資訊處理發展報告2016》,資料簡化DataSimp20181021Sun

文字語言VS數字資訊

數字、文字和自然語言一樣,都是資訊的載體,他們之間原本有着天然的聯系。語言和數學的産生都是為了交流,從文字、數字和語言的發展曆史,可以了解到語言、文字和數字有着内在的聯系。自然語言處理NLP主要涉及三種文本,自由文本、結構化文本、半結構化文本。自然語言了解Natural Language Understanding(NLU),實作人機間自然語言通信,意味着要使計算機既能了解自然語言文本的意義,也能以自然語言文本表達給定的意圖、思想等。自然語言生成NLG,是人工或機器生成語言。斯坦福自然語言處理NLP工具資料收集、斯坦福分詞、Stanford中文實體識别,最早做自然語言處理的網址https://nlp.stanford.edu/software/segmenter.shtml。哈爾濱工業大學智能技術與自然語言處理研究室(IntelligentTechnology & Natural Language Processing Lab, ITNLPLab)是國内較早從事自然語言處理和語言智能技術的研究室。除了新興的文本資料簡化領域:秦隴紀(資料簡化技術中心籌),自然語言處理NaturalLanguage Processing領域主要包括基礎研究和應用研究。[30]

基礎研究

詞法與句法分析:李正華、陳文亮、張民(蘇州大學)

語義分析:周國棟、李軍輝(蘇州大學)

篇章分析:王厚峰、李素建(北京大學)

語言認知模型:王少楠,宗成慶(中科院自動化研究所)

語言表示與深度學習:黃萱菁、邱錫鵬(複旦大學)

知識圖譜與計算:李涓子、候磊(清華大學)

應用研究

文本分類與聚類:塗存超,劉知遠(清華大學)

資訊抽取:孫樂、韓先培(中國科學院軟體研究所)

情感分析:黃民烈(清華大學)

自動文摘:萬小軍、姚金戈(北京大學)

資訊檢索:劉奕群、馬少平(清華大學)

資訊推薦與過濾:王斌(中科院信工所),魯骁(國家計算機網絡應急中心)

自動問答:趙軍、劉康,何世柱(中科院自動化研究所)

機器翻譯:張家俊、宗成慶(中科院自動化研究所)

社會媒體處理:劉挺、丁效(哈爾濱工業大學)

語音技術:說話人識别——鄭方(清華大學),王仁宇(江蘇師範大學)

語音合成——陶建華(中科院自動化研究所)

語音識别——王東(清華大學)

文字識别:劉成林(中科院自動化研究所)

多模态資訊處理:陳曉鷗(北京大學)

醫療健康資訊處理:陳清财、湯步洲(哈爾濱工業大學)

少數民族語言資訊處理:吾守爾•斯拉木(新疆大學)

-End-

參考文獻(4747字)

1. Chomskyanlinguistics encourages the investigation of "corner cases" thatstress the limits of its theoretical models (comparable to pathologicalphenomena in mathematics), typically created using thought experiments, ratherthan the systematic investigation of typical phenomena that occur in real-worlddata, as is the case in corpus linguistics. The creation and use of suchcorpora of real-world data is a fundamental part of machine-learning algorithmsfor natural language processing. In addition, theoretical underpinnings ofChomskyan linguistics such as the so-called "poverty of the stimulus"argument entail that general learning algorithms, as are typically used inmachine learning, cannot be successful in language processing. As a result, theChomskyan paradigm discouraged the application of such models to languageprocessing.

2. Jelinek, Frederick(1976). "Continuous speech recognition by statistical methods".Proceedings of the IEEE 64(4):532–556. doi:10.1109/PROC.1976.10159.

3. Garside, R., Leech,G. and Sampson, G. (eds.). The Computational Analysis of English: ACorpus-Based Approach. London: Longman, 1989.

4. David M. W. Powersand Christopher C. R. Turk (1989). Machine Learning of Natural Language.Springer-Verlag. ISBN 978-0-387-19557-5.

5. Jan Aarts, WillenMeijs (eds.). Corpus Linguistics: Theory and Practice. Amsterdam: Rodopi, 1990.

6. Hudson, R. A.English Word Grammar. Cambridge, Mass.: Basil Blackwell, 1991.

7. 白拴虎:《漢語詞性自動标注系統研究》,清華大學計算機科學與技術系碩士學位論文,1992.

8. Bates, M (1995)."Models of natural language understanding". Proceedings of theNational Academy of Sciences of the United States of America. 92 (22):9977–9982. doi:10.1073/pnas.92.22.9977. PMC 40721.

9. M. Collins and J.Brooks. Preposition phrase attachment through a backed-off model. InProceedings of the 3rd Workshop of Very Large Coepora, Cambridge, MA, 1995.

10. 董振東、董強:知網.《語言文字應用》1997(3) .

11. 俞士汶等:《現代漢語文法資訊詞典詳解》.北京:清華大學出版社,1998.

12. Christopher D.Manning and Hinrich Schütze (1999). Foundations of Statistical Natural LanguageProcessing. The MIT Press. ISBN 978-0-262-13360-9.

13. Hutchins, J.(2005). "The history of machine translation in anutshell".[self-published source] .

14. Daniel Jurafsky andJames H. Martin (2008). Speech and Language Processing, 2nd edition. PearsonPrentice Hall. ISBN 978-0-13-187321-6.

15. Christopher D.Manning, Prabhakar Raghavan, and Hinrich Schütze (2008). Introduction toInformation Retrieval. Cambridge University Press. ISBN 978-0-521-86571-5.Official html and pdf versions available without charge.

16. Steven Bird, EwanKlein, and Edward Loper (2009). Natural Language Processing with Python.O'Reilly Media. ISBN 978-0-596-51649-9.

17. Implementing anonline help desk system based on conversational agent Authors: Alisa Kongthon,Chatchawal Sangkeettrakarn, Sarawoot Kongyoung and Choochart Haruechaiyasak.Published by ACM 2009 Article, Bibliometrics Data Bibliometrics. Published in:Proceeding, MEDES '09 Proceedings of the International Conference on Managementof Emergent Digital EcoSystems, ACM New York, NY, USA. ISBN 978-1-60558-829-2,doi:10.1145/1643823.1643908.

18. Goldberg, Yoav(2016). A Primer on Neural Network Models for Natural Language Processing.Journal of Artificial Intelligence Research 57 (2016) 345–420.

19. Mohamed ZakariaKurdi (2016). Natural Language Processing and Computational Linguistics:speech, morphology, and syntax, Volume 1. ISTE-Wiley. ISBN 978-1848218482.

20. Mohamed ZakariaKurdi (2017). Natural Language Processing and Computational Linguistics:semantics, discourse, and applications, Volume 2. ISTE-Wiley. ISBN978-1848219212.

21. Wikipedia.Natural language processing.[EB/OL];Wikipedia,https://en.wikipedia.org/wiki/Natural_language_processing,2018-10-17.

22. 黃昌甯,張小鳳,微軟亞洲研究院.自然語言處理技術的三個裡程碑.[EB/OL];CSDN,https://blog.csdn.net/nuoline/article/details/8610661,2013-02-25.

23. Sebastian Ruder.A Review of the Neural History ofNatural Language Processing.[EB/OL];aylie,http://blog.aylien.com/a-review-of-the-recent-history-of-natural-language-processing/,2018-10-01.

24. 編輯:維尼,責編:王新凱.15年來,自然語言處理發展史上的8大裡程碑.[EB/OL];搜狐科技,http://www.sohu.com/a/260525664_354973,2018-10-20.

25. 秦隴紀,資料簡化DataSimp社群.了解和使用自然語言處理之終極指南(Python編碼)(經典收藏版12k字,附資料簡化籌員2月17日Fri新聞).[EB/OL];CSDN,來源:資料簡化DataSimp(微信公衆号),https://blog.csdn.net/qq_28260611/article/details/58320374,2017-02-27.

26. 小郭.自然語言處理(NLP)知識結構總結.[EB/OL];CSDN,https://blog.csdn.net/weixin_42137700/article/details/81983608,2018-08-23.

27. meihao5.自然語言處理(NLP)知識結構總結.[EB/OL];CSDN,https://blog.csdn.net/meihao5/article/details/79592667,2018-03-17.

28. 建立詞條:五巷7号(2017-11-18 10:48),最近更新:小愛_四季私語(2018-05-15).NLP漢語自然語言處理原理與實踐.[EB/OL];百度百科,https://baike.baidu.com/item/NLP%E6%B1%89%E8%AF%AD%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86%E5%8E%9F%E7%90%86%E4%B8%8E%E5%AE%9E%E8%B7%B5/22211226,2018-05-15.

29. 鄭捷.NLP漢語自然語言處理原理與實踐[C];ISBN:9787121307652.千字數:816,頁數:544,開本:16開,出版時間:2017-01.

30. 中文資訊協會.中文資訊處理發展報告2016[C];國内關于自然語言處理的研究方向細分.[EB/OL];https://blog.csdn.net/yeziand01/article/details/80525672,2016.

x.秦隴紀.資料簡化社群Python官網Web架構概述;資料簡化社群2018年全球資料庫總結及18種主流資料庫介紹;資料科學與大資料技術專業概論;人工智能研究現狀及教育應用;資訊社會的資料資源概論;純文字資料溯源與簡化之神經網絡訓練;大資料簡化之技術體系.[EB/OL];資料簡化DataSimp(微信公衆号),http://www.datasimp.org,2017-06-06.

自然語言處理NLP技術裡程碑、知識結構、研究方向和機構導師(29847字)

秦隴紀

簡介:自然語言處理NLP技術裡程碑、知識結構、研究方向和機構導師。(公号回複“NLP總結”,文末“閱讀原文”可下載下傳16圖1表36k字29頁PDF資料)藍色連結“資料簡化DataSimp”關注後下方菜單有文章分類頁。作者:秦隴紀。來源:知網、谷歌、百科、知乎等,資料簡化社群秦隴紀微信群聊公衆号,引文出處附參考文獻。主編譯者:秦隴紀,資料簡化、科學Sciences、知識簡化新媒體創立者,資料簡化社群創始人OS架構師/C/Java/Python/Prolog程式員,IT教師。每天大量中英文閱讀/設計開發調試/文章彙譯編簡化,時間精力人力有限,歡迎轉發/贊賞/加入支援社群。版權聲明:科普文章僅供學習研究,公開資料©版權歸原作者,請勿用于商業非法目的。秦隴紀2018資料簡化DataSimp綜合彙譯編,投稿合作、轉載授權、侵權錯誤(包括原文錯誤)等請聯系[email protected]溝通。歡迎轉發:“資料簡化DataSimp、科學Sciences、知識簡化”新媒體聚集專業領域一線研究員;研究技術時也傳播知識、專業視角解釋和普及科學現象和原理,展現自然社會生活之科學面。秦隴紀發起期待您參與各領域~~ 強烈譴責超市銀行、學校醫院、政府公司肆意收集、濫用、倒賣公民姓名、身份證号手機号、機關家庭住址、生物資訊等隐私資料!

Appx(845字).資料簡化DataSimp社群簡介

資訊社會之資料、資訊、知識、理論持續累積,遠超個人認知學習的時間、精力和能力。應對大資料時代的資料爆炸、資訊爆炸、知識爆炸,解決之道重在資料簡化(Data Simplification):簡化減少知識、媒體、社交資料,使資訊、資料、知識越來越簡單,符合人與裝置的負荷。資料簡化2018年會議(DS2018)聚焦資料簡化技術(Data Simplification techniques):對各類資料從采集、處理、存儲、閱讀、分析、邏輯、形式等方ose 做簡化,應用于資訊及資料系統、知識工程、各類Python Web架構、實體空間表征、生物醫學資料,數學統計、自然語言處理、機器學習技術、人工智能等領域。歡迎投稿資料科學技術、簡化執行個體相關論文送出電子版(最好有PDF格式)。填寫申請表加入資料簡化DataSimp社群成員,應至少一篇資料智能、程式設計開發IT文章:①高品質原創或翻譯美歐資料科技論文;②社群網站義工或完善S圈型黑白靜态和三彩色動态社群LOGO圖示。論文投稿、加入資料簡化社群,詳情通路www.datasimp.org社群網站,網站維護請投會員郵箱[email protected]。請關注公衆号“資料簡化DataSimp”留言,或加微信QinlongGEcai(備注:姓名/機關-職務/學校-專業/手機号),免費加入投稿群或”科學Sciences學術文獻”讀者微信群等。長按下圖“識别圖中二維碼”關注三個公衆号(搜名稱也行,關注後底部菜單有文章分類頁連結):

資料技術公衆号“資料簡化DataSimp”:

自然語言處理NLP技術裡程碑、知識結構、研究方向和機構導師(公号回複“NLP總結”下載下傳彩标PDF典藏版資料)

科普公衆号“科學Sciences”:

自然語言處理NLP技術裡程碑、知識結構、研究方向和機構導師(公号回複“NLP總結”下載下傳彩标PDF典藏版資料)

社會教育知識公衆号“知識簡化”:

自然語言處理NLP技術裡程碑、知識結構、研究方向和機構導師(公号回複“NLP總結”下載下傳彩标PDF典藏版資料)

(轉載請寫出處:©秦隴紀2010-2018彙譯編,歡迎技術、傳媒夥伴投稿、加入資料簡化社群!“資料簡化DataSimp、科學Sciences、知識簡化”投稿回報郵箱[email protected]。)

普及科學知識,分享到朋友圈

自然語言處理NLP技術裡程碑、知識結構、研究方向和機構導師(公号回複“NLP總結”下載下傳彩标PDF典藏版資料)

轉發/留言/打賞後“閱讀原文”下載下傳PDF

閱讀原文

自然語言處理NLP技術裡程碑、知識結構、研究方向和機構導師(公号回複“NLP總結”下載下傳彩标PDF典藏版資料)

微信掃一掃

關注該公衆号

繼續閱讀