人工智能的研究熱點:自然語言處理

人工智能(Artificial Intelligence，簡稱AI)作為新一輪科技革命和産業變革的重要驅動力量，正在深刻地影響世界、改變世界。而自然語言處理(Natural Language Processing，簡稱NLP)已成為AI領域的研究熱點，它推動着語言智能的持續發展和突破，并越來越多地應用于各個行業。正如國際知名學者周海中先生曾經所言：“自然語言處理是極有吸引力的研究領域，它具有重大的理論意義和實用價值。”

NLP主要研究能實作人與計算機之間用自然語言進行有效通信的各種理論和方法。而用自然語言與計算機進行通信，有着十分重要的實際應用意義，也有着革命性的理論意義。實作人機間自然語言通信意味着要使計算機既能了解自然語言文本的意義，也能以自然語言文本來表達給定的意圖、思想等;前者稱為自然語言了解(Natural Language Understanding，簡稱NLU)，後者稱為自然語言生成(Natural Language Generation，簡稱NLG)。是以，NLP大體包括了NLU和NLG兩個部分。因為處理自然語言的關鍵是要讓計算機”了解“自然語言，是以通常把NLU視為NLP，也稱為計算語言學。

NLP融計算機科學、語言學、自動化、數學等為一體，是一門綜合性的科學。是以，這一領域的研究将涉及自然語言，即人們日常使用的語言，是以它與語言學的研究有着密切的聯系，但又有重要的差別。NLP并不是一般地研究自然語言，而是研制能有效地實作自然語言通信的計算機系統，特别是其中的軟體系統;因而它是計算機科學的一部分。可以說，NLP是計算機科學、語言學、AI等關注計算機和自然語言之間的互相作用的領域。目前，人們對AI的需求也從計算智能、感覺智能到了以NLP為代表的認知智能的層面。沒有成功的NLP，就不會有真正的認知智能。是以，NLP被視為AI極具吸引力的研究領域以及AI必須優先解決的核心問題之一，也被喻為AI皇冠上的明珠。

由于AI包括感覺智能(比如圖像識别、語言識别和手勢識别等)和認知智能(主要是語言了解知識和推理)，而語言在認知智能起到最核心的作用。如果能把語言問題解決了，AI最難的部分也就基本解決了。美國微軟公司創始人比爾·蓋茨先生曾經表示，”語言了解是人工智能領域皇冠上的明珠“。前微軟公司全球執行副總裁沈向洋先生也在公開演講時說：“懂語言者得天下……下一個十年，人工智能的突破在自然語言的了解……人工智能對人類影響最為深刻的就是自然語言方面”。由于了解自然語言需要關于外在世界的廣泛知識以及運用操作這些知識的能力，是以NLP也被視為解決AI完備(AI-complete)的核心問題之一。可以說，NLP目前是AI領域的關鍵核心技術，對它的研究也是充滿魅力和挑戰的。

NLP涉及的領域較多，主要包括機器翻譯、語義了解和對話系統等。它目前面臨四大挑戰：一是在詞法、句法、語義、語用和語音等不同層面存在不确定性;二是新的詞彙、術語、語義和文法導緻未知語言現象的不可預測性;三是資料資源的不充分使其難以覆寫複雜的語言現象;四是語義知識的模糊性和錯綜複雜的關聯性難以用簡單的數學模型描述，語義計算需要參數龐大的非線性計算。例如在對話系統中，深度學習目前已成為對話系統的一項基本技術;神經網絡被應用于傳統任務導向型對話系統的不同組成部分。近年來，端到端的架構不僅在非面向任務的聊天對話系統中流行，在面向任務的對話系統中也逐漸流行起來，但是仍遠非完美。又如在語義識别方面，需要對句法進行剖析，是以剖析在對話系統、資訊抽取、文法檢查中都起着非常重要的作用。

最早的NLP研究工作是機器翻譯。1949年，美國知名科學家沃倫·韋弗先生首先提出了機器翻譯設計方案。1954年，基于韋弗“翻譯即解碼”的機譯思想，喬治敦大學進行了著名的“喬治敦實驗”——利用IBM-701型計算機首次完成了英俄文本的自動翻譯;這一實驗的成功标志着機器翻譯正式登上曆史舞台。20世紀60年代，許多科學家對機器翻譯曾有大規模的研究工作，耗費了巨額費用;但他們顯然是低估了自然語言的複雜性，語言處理的理論和技術均不成熟，是以進展不大。當時的主要做法是存儲兩種語言的單詞、短語對應譯法的大辭典，翻譯時一一對應，技術上隻是調整語言的同條順序。但日常生活中語言的翻譯遠不是如此簡單，很多時候還要參考某句話前後的意思，需要上下文聯系起來才能正确翻譯——這就是機譯技術難度高之所在。

大約20世紀90年代開始，NLP領域發生了巨大的變化。這種變化有兩個明顯的特征：(1)對系統的輸入，要求研制的NLP系統能處理大規模的真實文本，而不是如以前的研究性系統那樣，隻能處理很少的詞條和典型句子。隻有這樣，研制的系統才有真正的實用價值。(2)對系統的輸出，鑒于真實地了解自然語言是十分困難的，對系統并不要求能對自然語言文本進行深層的了解，但要能從中抽取有用的資訊。同時，由于強調了“大規模”和“真實文本”，是以下面兩方面的基礎性工作也得到了重視和加強：(1)大規模真實語料庫的研制。大規模的經過不同深度加工的真實文本的語料庫，是研究自然語言統計性質的基礎;如果沒有這樣的語料庫，統計方法隻能是無源之水。(2)大規模、資訊豐富的詞典的編制工作。是以規模為幾萬，十幾萬，甚至幾十萬詞，含有豐富的資訊(如包含詞的搭配資訊)的計算機可用詞典對NLP的重要性是很明顯的。

系統的輸入與輸出這兩個特征在NLP的諸多領域都有所展現，其發展直接促進了計算機自動檢索技術的出現和興起。實際上，随着計算機技術的不斷發展，以海量計算為基礎的機器學習、資料挖掘、資料模組化等技術的表現也愈發優異。NLP之是以能夠度過“寒冬”，再次發展，也是因為計算機科學與統計科學的不斷結合，才讓人類甚至機器能夠不斷從大量資料中發現“特征”并加以學習。不過要實作對自然語言真正意義上的了解，僅僅從原始文本中進行學習是不夠的，我們還需要新的方法和模型。

目前存在的問題主要有兩個方面：一方面，迄今為止的文法都限于分析一個孤立的句子，上下文關系和談話環境對本句的限制和影響還缺乏系統的研究，是以分析歧義、詞語省略、代詞所指、同一句話在不同場合或由不同的人說出來所具有的不同含義等問題，尚無明确規律可循，需要加強語義學和語用學的研究才能逐漸解決。另一方面，人了解一個句子不是單憑文法，還運用了大量的有關知識，包括生活知識和專門知識，這些知識無法全部貯存在計算機裡。是以一個書面了解系統隻能建立在有限的詞彙、句型和特定的主題範圍内;計算機的貯存量和運轉速度大大提高之後，才有可能适當擴大範圍。

由于語言工程、認知科學等主要局限于實驗室，目前來看資料處理可能是NLP應用場景最多的一個發展方向。實際上，自從進入大資料時代，各大平台就沒有停止過對使用者資料的深度挖掘。要想提取出有用的資訊，僅提取關鍵詞、統計詞頻等是遠遠不夠的，必須對使用者資料(尤其是發言、評論等)進行語義上的了解。另外，利用離線大資料統計分析的方法進行NLP任務的研究是目前非常有潛力的一種研究範式，尤其是谷歌、推特、百度等大公司在這類應用上的成功經驗，引領了目前大資料研究的浪潮。

NLP是為各類企業及開發者提供的用于文本分析及挖掘的核心工具，已經廣泛應用在電商、金融、物流、醫療、文化娛樂等行業客戶的多項業務中。它可幫助使用者搭建内容搜尋、内容推薦、輿情識别及分析、文本結構化、對話機器人等智能産品，也能夠通過合作，定制個性化的解決方案。由于了解自然語言，需要關于外在世界的廣泛知識以及運用操作這些知識的能力，是以NLP也被視為解決強AI的核心問題之一，其未來一般也是以密切結合AI發展，尤其是設計一個模仿人腦的神經網絡。

訓練NLP文本解析AI系統需要采集大量多源頭資料集，對科學家來說是一項持續的挑戰：需要使用最新的深度學習模型，模仿人類大腦中神經元的行為，在數百萬甚至數十億的注釋示例中進行訓練來持續改進。當下一種流行的NLP解決方案是預訓練，它改進了對未标記文本進行訓練的通用語言模型，以執行特定任務;它的思想就是，該模型的參數不再是随機初始化，而是先有一個任務進行訓練得到一套模型參數，然後用這套參數對模型進行初始化，再進行訓練，以獲得更好的預測性見解。

我們目前已進入一個以網際網路為主要标志的海量資訊時代，而這些海量資訊大部分是以自然語言表示的。一方面，有關的海量資訊可為計算機學習自然語言提供更多的“素材”;另一方面，這也為NLP提供更加寬廣的應用舞台。例如，作為NLP的重要應用，搜尋引擎逐漸成為人們擷取資訊的重要工具，出現了以谷歌、百度等為代表的搜尋引擎巨頭;機器翻譯也從實驗室走入尋常百姓家;基于自然語言處理的中文輸入法(如搜狗、微軟、谷歌等輸入法)成為計算機使用者的必備工具;帶有語音識别的計算機和手機也正大行其道，協助使用者更有效地生活、工作和學習。

現在，NLP領域已經有了大量的人工标注知識，而深度學習可以通過有監督學習得到相關的語義知識，這種知識和人類總結的知識應該存在某種對應關系，尤其是在一些淺層語義方面。因為人工标注，本質上已經給深度學習提供了學習的目标;隻是深度學習可以不眠不休地學習，這種逐漸靠攏學習目标的過程，可能遠比人類總結過程來得更快、更好。這一點，從谷歌公司旗下DeepMind研究團隊開發的圍棋軟體AlphaGo短時間内連勝兩位人類圍棋高手的事實，似乎能夠得到驗證。

深度學習在NLP中的應用非常廣泛，可以說橫掃NLP的各個應用，從底層的分詞、語言模型、句法分析、詞性标注、語音識别等到高層的語義了解、語用闡釋、對話管理、知識問答等方面都幾乎都有深度學習的模型，并且取得了不錯的效果。有關研究已從傳統的機器學習算法轉變成更有表現力的深度學習模型，如卷積神經網絡和回歸神經網絡。不過，目前的深度學習技術還不具備了解和使用自然語言所必需的概念抽象和邏輯推理能力，這方面還有待今後進一步的研究。

網際網路搜尋引擎已經有一段時間讓人們使用會話語言和術語來線上搜尋事物。現在，谷歌公司的雲端硬碟使用者已經可以使用這一功能。使用者可以搜尋存儲在谷歌雲端硬碟中的檔案和内容，就像使用谷歌搜尋提供的對雲端硬碟内置NLP的新支援一樣。該功能使使用者可以使用通常用詞組表達的查詢以及在實際對話中将要使用的查詢來更輕松地找到所需的内容。谷歌公司在線上和移動搜尋、移動應用程式以及GoogleTranslate等服務中廣泛使用NLP;該公司在這一領域的研究是為提高機器閱讀和了解人類語言能力所做的更廣泛努力的一部分。随着谷歌調整其算法，NLP應該會随着時間的推移變得更好。

英國劍橋量子計算公司(CQC)最近宣布，他們利用自然語言的“固有量子”結構，開辟了一個全新的可能應用領域。其通過将文法句子翻譯成量子線路，然後在量子計算機上實作生成的程式，并實際執行問答。這是第一次在量子計算機上執行NLP。通過使用CQC的一流的、平台無關的可重定目标編譯器t|ket??，這些程式在IBM量子計算機上成功執行并得到結果，整個突破朝着實作“意義感覺”和“文法知悉”的NLP方向邁出了有意義的一大步--這是計算機時代早期以來計算機科學家及計算語言學家追尋的夢想。

美國哈佛大學醫學院的研究人員借助NLP技術日前開發出一種工具，可以評估新冠肺炎(COVID-19)患者的病例、社交媒體和健康衛生資料。他們率先努力通過使用機器學習技術檢視來自各種來源的資料和資訊(包括患者記錄、社交媒體和公共衛生資料)來尋找新冠肺炎病毒的解決方案。借助NLP工具，他們還可以搜尋有關新冠肺炎病毒的線上資訊，并了解爆發的目前位置。另外，研究人員還利用NLP技術對新冠肺炎、藥物和疫苗等密集展開研究，同時包括臨床診斷與治療以及流行病學研究等。

中國阿裡達摩院的NLP研究團隊最近提出優化模型Struct BERT，能讓機器更好地掌握人類文法，加深對自然語言的了解。使用該模型好比給機器内置一個“文法識别器”，使機器在面對語序錯亂或不符合文法習慣的詞句時，仍能準确了解并給出正确的表達和回應，大大提高機器對詞語、句子以及語言整體的了解力。這一技術已廣泛使用于阿裡旗下阿裡小蜜、螞蟻金服、優酷等業務。阿裡達摩院的語言模型和閱讀了解技術也被用于行業賦能，推進AI技術在醫療、電力、金融等行業的落地。據悉，StructBERT模型最近被評為全球性能最強的NLP系統。

根據市場分析機構Mordor Intelligence的一份報告，2019年全球NLP市場價值為109億美元，預計到2025年将達到348億美元，複合年增長率為21.5%。該報告指出，在過去的幾年中，深度學習架構和算法在市場格局中取得了令人矚目的進步，而語音分析解決方案正在主導着這一市場，因為傳統的基于文本的分析已不足以處理複雜的業務問題。

總之，随着網際網路的普及和海量資訊的湧現，作為AI領域的研究熱點和關鍵核心技術，NLP正在人們的生活、工作、學習中扮演着越來越重要的角色，并将在科技進步與社會發展的過程中發揮越來越重要的作用。

原文連結：

https://ai.51cto.com/art/202009/626830.htm

本文轉載自51CTO，本文一切觀點和機器智能技術圈子無關

人工智能的研究熱點:自然語言處理

繼續閱讀

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

9.spark Core 進階2--Cashe

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

淺談企業活動中進行資料分析的重要性

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

Ambari介紹和架構原理

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark

hdu7108哈希