天天看點

突破語義了解瓶頸,探析人工智能和語言的極限

作者:人民中科Cognitive

掌握獨特而複雜的人類語言,是人工智能面臨的最艱巨挑戰之一。

自人類社會進入資訊時代以來,發展速度最快,最引人矚目就是人工智能技術。

依托于計算機技術的先天優勢,學習知識對于人工智能而言可以說隻是時間和存儲空間的問題。自動化技術的發展,讓人工智能擁有了移動與操作物體的能力。智能算法的發展,讓人工智能在一定程度上也擁有了推理與交流的能力。但人工智能發展仍面臨着瓶頸。

突破語義了解瓶頸,探析人工智能和語言的極限

掌握獨特而複雜的人類語言,是人工智能面臨的最艱巨挑戰之一。

01

自然語言了解

自然語言了解長期以來一直是人工智能研究的主要目标。

自然語言處理技術(即natural language processing,簡稱NLP)是人工智能的一個重要分支,其目的是利用計算機對自然語言進行智能化處理。

基礎的自然語言處理技術主要圍繞語言的不同層級展開,包括音位(語言的發音模式)、形态(字、字母如何構成單詞、單詞的形态變化)、詞彙(單詞之間的關系)、句法(單詞如何形成句子)、語義(語言表述對應的意思)、語用(不同語境中的語義解釋)、篇章(句子如何組合成段落)7個層級。這些基本的自然語言處理技術經常被運用到下遊的多種自然語言處理任務中,如機器翻譯、對話、問答、文檔摘要等。

AI時代,我們希望計算機擁有視覺、聽覺、語言和行動的能力,其中語言是人類差別于動物的最重要特征之一,語言是人類思維的載體,也是知識凝練和傳承的載體。

突破語義了解瓶頸,探析人工智能和語言的極限

科學家研究自然語言處理技術(NLP)的目的是讓機器能夠了解人類語言,用自然語言的方式與人類交流,最終擁有“智能”。

02

語義:自然語言處理的方向

自然語言處理的早期研究主要是采用人機對話的模拟來實作機器翻譯。喬姆斯基的轉換生成文法出現後,自然語言處理實作廣泛發展和應用,在喬姆斯基的基礎上,通過語形分析和識别來實作自然語言的處理。

随後統計方法也加入進來。現階段的語義分析大都是從統計方法出發,分析的程度和準确度很大程度上依賴資料體量的支撐,這種方法沒辦法實作語義分析能力的突破和進展,更無法解決語義分析理論的建構問題。

突破語義了解瓶頸,探析人工智能和語言的極限

語義分析的突破口應該在于建構詞語級别的語義詞庫,并且盡可能地實作大腦對于語義的階層化分析結構,否則就無法突破語義障礙在理論與實踐中面對的瓶頸。随着人工智能領域的進展,自然語言處理也确實朝着語義詞庫的方向努力。

基于統計方法的局限性,自然語言處理打算換一種思路。擺脫對資料的依賴,選擇建構語義網絡,從語境分析和識别的思路來進行突破。然而此種思路依然要面對句法規則的限制,無法滿足對自然語言處理的多樣化需求。

突破語義了解瓶頸,探析人工智能和語言的極限

由此看來,語義障礙的核心問題在于基于句法規則的語形分析和複雜語義分析之間并不是一對多的邏輯關系,而是存在着複雜的多對多的條件關系,這就造成了語言的模糊性問題。是以,建構詞彙一級的語義詞庫就成了迫在眉睫的任務。

突破語義了解瓶頸,探析人工智能和語言的極限

自然語言處理要想實作對語義障礙的跨越,就必須完成語言形式分析到語義以及語用分析的更疊。

人類社會不斷變革發展,人類語言也與之相應地開始了适應性的改變。推動語言發生改變的核心動力是人類對于語言的應用需要,而應用的客觀基礎就是語義的實作。早在17世紀就有一些理性主義思想家,如笛卡爾和萊布尼茨就有過關于語義原詞的思考與論述;近些年來語言學領域也出現了關于自然語義的元語言理論。

元語言理論的基礎是語義原詞,語義原詞是類似于原子的概念,最小的單元且不可再分,比如“你”“我”“他”這樣的詞語。語義原詞應該明确劃定範圍,這種設定是為了避免語義陷入不确定性的麻煩。在語義原詞的基礎上建構相應的文法規則,進而實作元語言理論的語義能力。

03

語境:語言之外的進展突破

相比起視覺問題,語言似乎要複雜得多——據我們所知,人類是目前唯一使用複雜語言交流的物種。

十年前,如果要了解文本是什麼,人工智能算法隻會計算特定單詞出現的頻率。但這種方法顯然忽略了一個事實 : 單詞有同義詞,而且隻有在特定的上下文中才有意義。

2013年,Tomas Mikolov和他在谷歌的團隊發現了如何建立一個能夠學習單詞含義的結構:

他們的word2vec算法可以将同義詞之間彼此映射,并且能夠對同義詞的大小、性别、速度進行模組化,甚至還可以學習到諸如國家和首都等函數的關系。

突破語義了解瓶頸,探析人工智能和語言的極限

然而,仍有很重要的一部分沒有得到處理——語境(上下文關系)。

這一領域的真正突破出現在2018年,當時,谷歌重磅引入了BERT模型:

Jacob Devlin和他的團隊利用了一種典型的用于機器翻譯的架構,并使其學習與句子上下文相關的單詞的含義。通過教會這個模型去填補維基百科文章中缺失的單詞,這個團隊能夠将語言結構嵌入到BERT模型中。

突破語義了解瓶頸,探析人工智能和語言的極限

僅用有限數量的高品質标記資料,他們就能讓BERT适應多種任務,包括找到問題的正确答案以及真正了解一個句子是關于什麼的。

突破語義了解瓶頸,探析人工智能和語言的極限

是以,他們成為了第一個真正把握語言了解的兩要素的人:正确的架構和大量高品質的資料。

2019年,臉書的研究人員将這一研究進行了進一步的推進:

他們訓練了一個從BERT衍生出的模型,令其同時學習100多種語言。訓練的結果是,該模型能夠學習一種語言的任務,例如英語,并使用它來完成其他任何語言的相同任務,如阿拉伯語、漢語和印地語。

突破語義了解瓶頸,探析人工智能和語言的極限

這個語言無關模型在語言上可以與BERT有相同的表現,此外,在該模型中,語言轉換過程中的一些幹擾的影響是非常有限的。

在2020年初,Google的研究人員終于能夠在廣泛的語言了解任務中擊敗人類:

谷歌通過在更多資料上訓練更大的網絡,将BERT架構推向了極限——現在,這種T5模型在标注句子和找到問題的正确答案方面可以比人類表現得更好。

而10月份釋出的語言無關的mT5模型,在從一種語言切換到另一種語言的能力方面,幾乎可以與雙語者一樣出色。同時,它在處理語言種類方面有着不可思議的效果——它可以同時處理100多種語言。

突破語義了解瓶頸,探析人工智能和語言的極限

此後公布的萬億參數模型Switch Transformer使語言模型變得更龐大,效果也變得更強大。

突破語義了解瓶頸,探析人工智能和語言的極限

圖:Switch Transformer編碼塊

科學技術是第一生産力,創新是引領社會發展的第一動力,随着AI基礎設施的不斷完善,我們已經站在人機共生的曆史性拐點上,未來,人工智能将迎來其發展的黃金期,越來越多的人工智能技術将會從實驗室走向實際應用。

責編:嶽青植

監制:李紅梅

參考來源:

1.《人工智能與自然語言處理技術》新華社新媒體

2.《從邏輯次元把握人工智能的局限性》社科院網站

3.《突破發展瓶頸,未來人工智能“爬坡”要靠什麼?》科技日報

4.《思爾實驗室主任李世鵬:建立邏輯是人工智能突破瓶頸的關鍵》21世紀經濟報道

繼續閱讀