天天看點

斯坦福教授曼甯AAAS特刊發文:大模型已成突破,展望通用人工智能

機器之心報道

編輯:澤南、小舟

NLP 正在推動人工智能進入激動人心的新時代。

目前人工智能領域熱度最高的方向就是預訓練大模型了,很多人相信,這項研究已在通用人工智能領域初顯成效。

自然語言處理領域著名學者,斯坦福大學教授克裡斯托弗 · 曼甯(Christopher Manning)近期在美國人文與科學學院(AAAS)期刊的 AI & Society 特刊上發表了題為《Human Language Understanding & Reasoning》的文章,探讨了語義、語言了解的本質,展望了大模型的未來。

曼甯認為,随着 NLP 領域的技術突破,我們或許已在通用人工智能(Artificial general intelligence, AGI)方向上邁出了堅定的一步。

斯坦福教授曼甯AAAS特刊發文:大模型已成突破,展望通用人工智能

摘要

在過去十年中,簡單的神經網絡計算方式在自然語言處理方面取得了巨大而令人驚訝的突破,人們在超大規模情況下複制了成功,并在大量資料上進行了訓練。由此産生的預訓練語言模型,如 BERT 和 GPT-3,提供了強大的通用語言了解和生成基礎,可以輕松适應許多了解、寫作和推理任務。

這些模型展示了一種更為通用的人工智能形式的初步迹象,這可能會在感覺體驗領域産生強大的基礎模型,而不僅僅局限于語言。

NLP 領域的四個時代

當科學家思考人工智能時,大多會首先想到模組化或重建單個人腦的能力。不過,現代人類智慧遠不止單個大腦的智能。

人類的語言很強大,并且對我們的物種産生了深遠影響,因為它為人群整體提供了一種将大腦聯網的方式。一個人可能并不比我們的黑猩猩或倭黑猩猩的近親聰明太多。這些猿類已被證明擁有人類智能的許多标志性技能,例如使用工具和計劃。此外,它們的短期記憶力甚至比我們強。

人類發明語言的時間也許永遠是個謎,但可以相對肯定的是,在地球生命漫長的進化史中,人類直到最近才發展出語言。原猴、猴子和猿類的共同祖先可以追溯到大約 6500 萬年前。人類大約在 600 萬年前與黑猩猩分離,而人類語言的曆史通常被認為隻有幾十萬年。

人類發展了語言後,交流的力量讓智人迅速超越其他生物,盡管我們沒有大象那麼強壯,也沒有獵豹那麼快。直到最近,人類才發明了文字(可能僅在五千多年前),讓知識可以跨越時空界限進行交流。在短短幾千年時間裡,這種資訊共享機制将我們從青銅時代帶到了今天的智能手機。允許人類之間進行理性讨論和資訊分發的高保真代碼,允許複雜社會的文化演變,催生着現代技術背後的知識。語言的力量是人類社會智能的基礎,在人工智能工具增強人類能力的未來世界中,語言将繼續發揮重要作用。

由于這些原因,自然語言處理(NLP)領域與人工智能的最早發展同步出現。事實上,機器翻譯 NLP 問題的初步工作,包括 1954 年著名的 Georgetown-IBM 實驗,實作了史上首例機器翻譯,略早于 1956 年人工智能」一詞的創造。在本文中,我簡要概述了自然語言的曆史加工。然後,我描述了 NLP 最近的戲劇性發展,這些發展來自使用在大量資料上訓練的大型人工神經網絡模型。我追溯了使用這些技術建構有效 NLP 系統所取得的巨大進步,并總結了一些關于這些模型實作了什麼,以及下一步将走向何方的想法。

迄今為止,自然語言處理的曆史大緻可以分為四個時代。

第一個時代從 1950 年到 1969 年。NLP 研究始于機器翻譯研究。人們想象,翻譯可以迅速建立在計算機在二戰期間破譯密碼巨大成功的基礎上。冷戰時期的雙方研究人員都在尋求開發能夠轉化其他國家科研成果的系統。然而在這個時代的開始,人們對人類語言、人工智能或機器學習的結構幾乎一無所知。回想起來,可用的計算量和資料量小得可憐。盡管最初的系統被大肆宣傳,但這些系統僅提供了詞級翻譯查找和一些簡單的,不是很有原則的基于規則的機制來處理詞的屈折形式(詞形變化)和詞序。

第二個時代,從 1970 年到 1992 年,我們見證了一系列 NLP 示範系統的發展,這些示範系統在處理人類語言中的句法和引用等現象方面表現出複雜性和深度。這些系統包括 Terry Winograd 的 SHRDLU、Bill Woods 的 LUNAR、Roger Schank 的系統,如 SAM、Gary Hendrix 的 LIFER 和 Danny Bobrow 的 GUS。這些都是人們手工建構的基于規則的系統,但他們開始模組化和使用人類語言了解的一些複雜性。一些系統甚至被部署用于資料庫查詢等任務。語言學和基于知識的人工智能正在迅速發展,在這個時代的第二個十年裡出現了新一代的手工建構系統,它與聲明性和語言知識及其程式處理區分開來,并受益于一系列更現代的語言理論的發展。

然而我們的工作方向在 1993 年到 2012 年間的第三個時代發生了顯著變化。在此期間,數字文本變得豐富,最适用的方向是開發能夠在大量自然語言内容上實作某種程度語言了解的算法,并利用文本的存在來幫助獲得這種能力。這導緻該領域圍繞 NLP 的經驗機器學習模型在根本上被重新定位,這一方向至今仍占主導地位。

在這個時期初期,我們主要的方法是掌握合理數量的線上文本——當時的文本集合一般在幾千萬字以下——并從中提取某種模型資料,主要是通過計算特定事實。例如,你可能發現人識别的事物類型在人的位置(如城市、城鎮或堡壘)和隐喻概念(如想象力、注意力或本質)之間相當均衡。但是對單詞的計數僅能提供語言了解裝置,早期從文本集合中學習語言結構的經驗嘗試相當不成功。這導緻該領域的大部分人專注于建構帶注釋的語言資源,例如标記單詞、文本中的人名或公司名稱的執行個體,或樹庫中句子的文法結構,然後使用監督機器學習技術構模組化型,該模型可以在運作時在新文本片段上生成類似的标簽。

自 2013 年至今,我們擴充了第三個時代的經驗方向,但由于引入了深度學習 / 人工神經網絡方法,工作已經發生了巨大的變化。

在新方法中,單詞和句子由(數十或千維)實值向量空間中的位置表示,含義或句法的相似性由該空間中的接近度表示。從 2013 年到 2018 年,深度學習為建構高性能模型提供了一種更強大的方法,其更容易對更遠距離的上下文進行模組化,并且模型可以更好地泛化到具有相似含義的單詞或短語上,因為它們可以利用向量空間中的鄰近性,而不是依賴于符号的同一性(例如詞形或詞性)。然而,該方法在建構監督機器學習模型以執行特定分析任務方面沒有改變。

在 2018 年,一切都發生了變化,超大規模自監督(self-supervised)神經網絡學習的第一個重大成功就在 NLP 上。在這種方法中,系統可以通過接觸大量文本(現在通常是數十億字)來學習大量的語言和世界知識。實作這一點的自監督方法是讓 AI 系統從文本中自行建立預測挑戰,例如在給定先前單詞的情況下連續識别文本中的每個「下一單詞」,或填充文本中遮掩的單詞或短語。通過數十億次重複這樣的預測任務并從錯誤中學習,模型在下一次給定類似的文本上下文時會做得更好,積累了對語言和世界的一般知識,然後可以将這些知識部署到更多人們感興趣的任務中,例如問答或文本分類。

為什麼大模型是突破

事後看來,大規模自監督學習方法的發展很可能被視為一次革命,第三個時代可能會延長到 2017 年。預訓練自監督方法的影響是一個突破:現在我們可以在大量未标記的人類語言材料上訓練,生成一個大型預訓練模型,其可以很容易地通過微調或提示進行調整,在各種自然語言了解和生成任務上提供強大的結果。現在,人們對 NLP 的進步和關注爆發了。出現了一種樂觀的感覺,我們開始看到具有一定程度通用智能的知識灌輸系統的出現。

我無法在此完整描述目前占主導地位的人類語言神經網絡模型。大體上,這些模型通過實數向量表示一切,并且能夠在接觸到許多資料後通過從某些預測任務到單詞表示的錯誤(歸結為進行微積分)的反向傳播來學習很好地表示一段文字。

自 2018 年以來,NLP 應用的主要神經網絡模型一直是 Transformer 架構神經網絡。Transformer 是一個比幾十年前人類探索的用于單詞序列的簡單神經網絡更複雜的模型,主要思想之一是注意力機制——通過它,一個位置的表示被計算為來自其他位置的表示的權重組合。Transformer 模型中一個常見的自監督目标是屏蔽文本中的偶爾出現的單詞,該模型要計算空位上曾經存在的單詞。它通過從每個單詞位置(包括掩碼位置)計算表示該位置的查詢、鍵和值的向量來做到這一點。将某個位置的查詢與每個位置的值進行比較,算法計算出每個位置的注意力。基于此,計算所有位置的值的權重平均值。

這種操作在 Transformer 神經網絡的每一層重複多次,結果值通過一個全連接配接的神經網絡層進一步操作,并通過使用歸一化層和殘差連接配接為每個單詞生成一個新的向量。整個過程重複多次,為 Transformer 神經網絡提供了額外的深度層。最後,掩碼位置上方的表示應捕獲原始文本中的單詞:例如,如圖 1 所示的 committee。

斯坦福教授曼甯AAAS特刊發文:大模型已成突破,展望通用人工智能

通過 Transformer 神經網絡的簡單計算可以實作或學習什麼并不明顯,起初它更像是某種複雜的統計關聯學習器。然而,利用像 Transformer 這樣非常強大、靈活的超參數模型和大量資料來練習預測,模型發現并表征了人類語言的大部分結構。研究表明這些模型學習和表征句子的句法結構,并學習記憶許多事實,這些有助于模型成功預測自然語言中被掩碼的詞。

此外,雖然預測一個被掩碼的詞最初似乎是一項相當簡單和低級的任務,但這個任務的結果卻有着強大和普遍的作用。這些模型彙集了它們所接觸的語言和廣泛的現實知識。

隻需要再給出進一步的指令,這樣的大型預訓練模型 (LPLM) 就可以部署于許多特定的 NLP 任務。從 2018 年到 2020 年,領域内的标準方法是通過少量額外的監督學習來微調模型,在感興趣的确切任務上對其進行訓練。但最近,研究人員驚訝地發現,這些模型中最大的模型,例如 GPT-3(生成式預訓練 Transformer),隻需提示(prompt)即可很好地執行新任務。給模型一個人類語言描述或幾個例子,說明人們希望模型做什麼,模型就可以執行許多它們從未接受過訓練的任務。

大模型帶來的 NLP 新範式

傳統的自然語言處理模型通常由幾個獨立開發的元件組合而成,通常建構成一個 pipeline,其中首先嘗試捕獲文本的句子結構和低級實體,然後是進階含義的詞彙,這也是饋入一些特定領域的執行元件。在過去的幾年裡,業内已經用 LPLM 取代了這種傳統的 NLP 解決方案,通常經過微調來執行特定的任務。我們可以期待一下 LPLM 在 2020 年代能夠完成哪些目标。

早期的機器翻譯系統涵蓋了有限領域中的有限語言結構。從廣泛的翻譯文本的平行語料庫(parallel corpora)建構大型統計模型,這種方法是可以覆寫機器翻譯的,這也成就了 2006 年首次推出的 Google 翻譯。

十年後,即 2016 年底,當人們轉向使用神經機器翻譯時,Google 的機器翻譯性能獲得了顯著提高。但新型系統的更新換代越來越快,2020 年基于 Transformer 的神經翻譯系統用不同的神經架構和方法進行了改進。

新系統不是在兩種語言之間進行翻譯的大型系統,而是利用一個巨大的神經網絡,同時在谷歌翻譯涵蓋的所有語言上進行訓練,僅用一個簡單的 token 标記不同的語言。雖然這個系統仍會出錯,但機器翻譯不斷在發展,今天的自動翻譯的品質已經非常出色。

例如,将法語翻譯成英語:

Il avait été surnommé, au milieu des années 1930, le Fou chantant , alors qu’il faisait ses débuts d’artiste soliste après avoir créé, en 1933, un duo à succès avec le pianiste Johnny Hess.

Pour son dynamisme sur scène, silhouette agile, ses yeux écarquillés et rieurs, ses cheveux en bataille, surtout pour le rythme qu’il donnait aux mots dans ses interprétations et l’écriture de ses textes.

He was nicknamed the Singing Madman in the mid-1930s when he was making his debut as a solo artist after creating a successful duet with pianist Johnny Hess in 1933.

For his dynamism on stage, his agile figure, his wide, laughing eyes, his messy hair, especially for the rhythm he gave to the words in his interpretations and the writing of his texts.

在問答系統中,系統在一組文本中查找相關資訊,然後提供特定問題的答案(而不是像早期的 Web 搜尋那樣僅傳回建議相關資訊的頁面)。問答系統有許多直接的商業應用,包括售前和售後客戶咨詢。現代神經網絡問答系統在提取文本中存在的答案方面具有很高的準确性,甚至可以很好地找出不存在的答案。

例如,從以下英文文本中找到問題的答案:

Samsung saved its best features for the Galaxy Note 20 Ultra, including a more refined design than the Galaxy S20 Ultra–a phone I don’t recommend. You’ll find an exceptional 6.9-inch screen, sharp 5x optical zoom camera and a swifter stylus for annotating screenshots and taking notes.

The Note 20 Ultra also makes small but significant enhancements over the Note 10 Plus, especially in the camera realm. Do these features justify the Note 20 Ultra’s price? It begins at $1,300 for the 128GB version.

The retail price is a steep ask, especially when you combine a climate of deep global recession and mounting unemployment.

三星 Galaxy Note 20 Ultra 的價格是多少?

128GB 版本 1300 美元

Galaxy Note 20 Ultra 有 20 倍光學變焦嗎?

沒有

Galaxy Note 20 Ultra 的光學變焦是多少?

5x

Galaxy Note 20 Ultra 的螢幕有多大?

6.9 英寸

對于常見的傳統 NLP 任務,例如在一段文本中标記人或組織名稱或對文本進行情感傾向分類(正面或負面),目前最好的系統還是基于 LPLM 的,對于特定任務通過提供一組以所需方式标記的樣本進行微調。盡管這些任務在大型語言模型出現之前就可以很好地完成,但大型模型中語言和世界知識的廣度進一步提高了在這些任務上的性能。

最後,LPLM 引發了在生成流暢和連續文本的能力方面的一場革命。除了許多創造性用途之外,此類系統還具有工具性質的用途,例如編寫公式化的新聞文章、自動生成摘要。此外,這樣的系統可以根據放射科醫生的發現提出(或總結)要點來幫助放射科醫生診斷病情。

這些 NLP 系統在許多任務上都表現得非常好。事實上,給出一個特定的任務,它們通常可以被訓練成像人類一樣執行這些任務。盡管如此,仍有理由懷疑這些系統是否真的了解它們在做什麼,或者它們是否隻是單純地重複一些操作,沒有意義。

以較複雜的程式設計語言了解為例,程式設計語言中描述單詞意義主要借助指稱語義學:單詞、短語或句子的含義是對象或情況的集合,用這種方法描述世界或其數學抽象。這與 NLP 中現代實驗研究的簡單分布語義(或使用意義理論)形成鮮明對比,單詞的含義不再隻是對上下文的描述。

大模型真的了解人類語言嗎?

我認為語言的意義源于了解語言形式與其他事物之間的關聯網絡。如果我們擁有一個密集的關聯網絡,那麼我們就可以很好地了解語言形式的含義。例如,如果我已知「shehnai」是個印度語詞彙,那麼我對這個詞的含義就能夠有一個合理的概念,它是印度唢呐;如果我能聽到這種樂器演奏的聲音,那麼我對 shehnai 這個詞會有更豐富的含義了解。

反過來,如果我從未見過或聽過 shehnai 的聲音,但有人告訴我它就像傳統的印度雙簧管,那麼這個詞對我來說也有一些意義:它與印度有關,與管樂器有關,并用來演奏音樂。

如果有人補充說 shehnai 有孔,有多個簧片和像雙簧管一樣的喇叭形末端,那麼我就有更多連接配接到 shehnai 這個對象的屬性網絡。相反,我可能沒有這些資訊,隻有幾段使用該詞的上下文,例如:

從一周前開始,有人坐在房子入口處的竹林裡吹奏着 shehnai;Bikash Babu 不喜歡 shehnai 的哀号,但決心滿足新郎家人的所有傳統期望。

盡管在某些方面,我對 shehnai 這個詞的含義了解會較少,但我仍然知道它是一種管狀樂器,這也基于我知道一些額外的文化關聯。

是以,了解語言的含義包括了解語言形式的關聯網絡,預訓練語言模型能夠學習語言的含義。除了詞彙本身的含義,預訓練語言模型也掌握了很多實際的知識。很多模型都經過了在百科全書上的訓練,它們知道亞伯拉罕 · 林肯于 1809 年出生于肯塔基州;知道《Destiny’s Child》的主唱是碧昂絲。

就像人類一樣,機器也可以從人類知識存儲庫中受益匪淺。然而,模型對詞義和世界知識的了解往往非常不完整,需要用其他感官資料(sensory data)和知識來增強。大量文本資料首先為探索和建構這些模型提供了一種非常容易通路的方法,但擴充到其他類型的資料也是非常有必要的。

LPLM 在語言了解任務上的成功,以及将大規模自監督學習擴充到其他資料模式(如視覺、機器人技術、知識圖譜、生物資訊學和多模态資料)令人興奮的前景表明了更通用方向的希望。我們提出了通用類模型的術語基礎模型,通過自監督在大量資料上訓練了數百萬個參數,然後可以輕松地适應執行廣泛的下遊任務。例如 BERT(來自 Transformers 的雙向編碼器表示) 和 GPT-3 是這種基礎模型的早期示例,但現在正在進行更廣泛的工作。

一個方向是将語言模型與更加結構化的知識存儲連接配接起來,這些知識存儲表示為知識圖神經網絡或運作時要查閱的大量文本。不過最令人興奮和有希望的方向是建立基礎模型(foundation model),使其還可以吸收來自世界的其他感官資料,以實作內建的多模态學習。

這方面的一個例子是最近的 DALL-E 模型,在對成對的圖像和文本的語料庫進行自監督學習後,該算法可以通過生成相應的圖檔來表達新文本的含義。

斯坦福教授曼甯AAAS特刊發文:大模型已成突破,展望通用人工智能

我們現在還處于基礎模型時代的早期,但在這裡,讓我勾勒出一個可能的未來:大多數資訊處理和分析任務,甚至可能像機器人控制這樣的事情,都将由少數幾個基礎模型之一的特化版接手。這些模型訓練起來既昂貴又耗時,但讓它們适應不同的任務将非常容易。事實上,人們也許可以簡單地使用自然語言指令來做到這一點。

這種在少數模型上的收斂帶來了幾個風險:能夠建構這些模型的機構可能擁有過多的權力和影響力,許多最終使用者可能會受到這些模型中存在偏見的影響,且很難判斷模型是否正确。另外,在特定環境中使用的安全性也存疑,因為模型及其訓練資料非常大。

不論如何,這些模型把大量訓練資料中獲得的知識部署到許多不同任務的能力,将使其變得非常強大,它們還将成為首批在執行許多特定任務時,隻需要人類下訓示,告訴它如何做就能做到的人工智能。雖然這些模型最終可能隻是模糊地了解一些知識,它們的可能性或許仍然有限,缺乏人類水準的精細邏輯或因果推理能力。但基礎模型的通用有效性意味着它們将得到非常廣泛的部署,它們将在未來十年讓人們第一次看到更普遍的人工智能形式。

https://www.amacad.org/publication/human-language-understanding-reasoning

繼續閱讀