谷歌機器智能大牛：AI模型要真正了解人類語言，關鍵是“序列學習”

新智元報道

編輯：David

【新智元導讀】AI模型能夠答對所有問題，是否意味着AI和你一樣了解世界？随着AI語言模型的進步，關于了解、意識和真正智能的讨論重新成為科學家們關注的熱點。

如果計算機給了你所有正确的答案，是否意味着它和你一樣了解世界？

這是人工智能科學家幾十年來一直争論不休的謎題。随着深度神經網絡在與語言相關的任務中取得了令人矚目的進步，關于了解、意識和真正智能的讨論重新成為科學家們關注的熱點。

許多科學家認為，深度學習模型隻是大型統計機器，以複雜的方式将輸入映射到輸出。深度神經網絡可能能夠生成冗長的連貫文本，但并不能像人類那樣了解抽象和具體的概念。

也有人不同意這種觀點。

比如Google Research 的人工智能科學家 Blaise Aguera y Arcas 認為，大型語言模型可以教會我們很多東西，「比如自然語言、了解力、智力、社會性和人格。」

大型語言模型厲害在哪？

由于幾個因素的共同影響，大型語言模型近年來越來越受歡迎：

1-海量資料：有大量的線上文本，例如維基百科、新聞網站和社交媒體，可用于訓練語言任務的深度學習模型。

2-大量的算力資源：大型語言模型包含數千億個參數，需要昂貴的計算資源進行訓練。随着谷歌、微軟和 Facebook 等公司已經在深度學習和大語言模型上投入數十億美元，用于該領域的研發。

3-深度學習算法的進步：Transformer 是一種于 2017 年推出的深度學習架構，一直是推動自然語言處理和生成 (NLP/NLG)領域進步的核心動力。

Transformer 的一大優勢是可以通過無監督學習對非常多的未标記文本語料庫進行訓練。

基本上，Transformer 所做的是，将一串字母（或其他類型的資料）作為輸入，并預測資料序列中的下一個元素。

它可能在問題後接着給出答案、标題後接着給出文章，或者在使用者聊天、對話中給出提示。

衆所周知，循環神經網絡 (RNN) 和長短期記憶網絡 (LSTM) 是 Transformer 的前身，但它們在保持長序列的連貫性方面的表現非常糟糕。

但是，基于 Transformer 的語言模型（例如 GPT-3）在長輸出中表現出令人印象深刻的高性能，而且不太容易出現其他類型的深度學習架構所犯的邏輯錯誤。

Aguera y Arcas 通過與 LaMDA（一款谷歌 Meena 聊天機器人的改進版本）的對話探索了大型語言模型的潛力。

各種例子表明，LaMDA 似乎處理抽象主題，例如社會關系和需要直覺了解世界如何運作的問題。

例如，如果你告訴它「我把保齡球掉在了一個瓶子上，它破了」，模型在随後的交流中會知道，這句話是說「保齡球打破了瓶子」。語言模型會将“it”與短語中的第二個名詞相關聯。

但随後 Aguera y Arcas 對句子進行了微妙的更改：「我把小提琴掉在保齡球上，它壞了」，這一次，LaMDA 模型則将“它”與小提琴聯系在一起，和保齡球相比，小提琴更輕、更脆弱。

更多執行個體表明，深度學習模型可以參與涉及想象的對話，比如它「最喜歡的島嶼是什麼」，即使它根本沒有旅行過，沒有上過任何島嶼。這就引出了下一個問題：

AI模型需要感官體驗嗎？

在發表在Medium上的這篇長文中，Aguera y Arcas還駁斥了一些反對在大型語言模型中了解的關鍵論點。

其中之一就是「模型需要具體化」。

如果一個AI系統沒有實體存在，也不能像人類一樣在多模态系統中感覺世界，那麼它對人類語言的了解是不完整的。

早在孩子學會說話之前，他們就已經掌握了複雜的感覺技能。他們會檢測人、臉、表情和物體。他們學習空間、時間和直覺實體學，學會觸摸和感受物體、聞、聽，并在不同的感官輸入之間建立聯系。

在學會說話之前，他們就可以思考另一個人或動物的經曆。而語言正是建立在我們所有這些與生俱來的知識和豐富的感官體驗之上。

但Aguera y Arcas 認為，「因為學習對于大腦的工作非常重要，是以我們可以在廣泛的範圍内學會使用我們需要的任何東西。我們的感官也是如此。」而在這個過程中，「真實感」并不是必須的要素。

他認為，雖然 LaMDA 既沒有鼻子，也沒有先驗最喜歡的氣味，但它确實有自己豐富的聯想，就像盲人海倫·凱勒展現出的顔色感一樣，這種感覺可以基于語言，根據他人的經驗得到。

大型語言模型的關鍵：序列學習

在文中，Aguera y Arcas 認為序列學習是與大大腦動物（尤其是人類）相關的所有複雜能力的關鍵，包括推理、社會學習、心理理論和意識。

「複雜的序列學習可能是解開所有其他問題的關鍵。這可以我們在大型語言模型中看到的令人驚訝的能力——這些模型隻不過是複雜的序列學習者。」

而注意力已被證明是在神經網絡中實作複雜序列學習的關鍵機制——正如介紹 Transformer 模型的論文标題所暗示的那樣，「Attention is all you need」

這是一個有趣的論點，因為序列學習實際上是具有高階大腦的生物體的迷人能力之一。這一點在人類身上最為明顯，我們可以學習可以産生長期回報的超長的動作序列。

他對大型語言模型中的序列學習的觀點也是正确的。這些神經網絡的核心是将一個序列映射到另一個序列，網絡越大，可以讀取和生成的序列越長。

Transformers 背後的關鍵創新是注意力機制，它幫助模型專注于其輸入和輸出序列中最重要的部分。這些注意力機制幫助 Transformer 處理非常大的序列，并且比它們的前輩需要更少的記憶體。

反方觀點

不過，對于這個問題，也有人持不同的立場。

聖達菲研究所教授梅蘭妮·米切爾 (Melanie Mitchell) 就在 Twitter 上發帖，對Aguera y Arcas 的觀點進行了很有意思的反駁。

雖然 Mitchell 同意機器有朝一日可以了解語言，但目前的深度學習模型，如 LaMDA 和 GPT-3還遠未達到這個水準。

最近，她在 QuantaMagazine 上寫了一篇文章，探讨了衡量人工智能了解的挑戰。

「在我看來，問題的關鍵在于了解語言。需要了解世界，而隻接觸語言的機器無法獲得這樣的了解。」米切爾寫道。

米切爾認為，當人類處理語言時，會使用大量沒有明确記錄在文本中的知識。是以，如果不具備這種基礎知識，AI就無法了解我們的語言，試圖僅通過文本來了解語言是不可能真正成功的。

米切爾還認為，與 Aguera y Arcas 的論點相反，海倫·凱勒的例子恰恰證明，感官的實際體驗對語言了解很重要。

「在我看來，海倫·凱勒的例子恰恰顯示了她對顔色的了解是如何具體化的。她将顔色概念映射到了氣味、觸覺、溫度等概念上。」米切爾寫道。

至于注意力，米切爾表示，Aguera y Acras 的文章中提到的神經網絡中的「注意力」與我們所了解的人類認知中的注意力有很大差別。

但 Mitchell 也表示， Aguera y Acras 的文章是「發人深省」的，尤其是現在，谷歌、微軟這樣的公司越來越多地将大型語言模型部署在我們的日常生活中，更顯出這個問題的重要性。

參考資料：

https://thenextweb.com/news/ai-understand-what-we-are-saying-scientists-divided-syndication

https://bdtechtalks.com/2020/02/03/google-meena-chatbot-ai-language-model/

https://medium.com/@blaisea/do-large-language-models-understand-us-6f881d6d8e75

https://www.quantamagazine.org/what-does-it-mean-for-ai-to-understand-20211216/

谷歌機器智能大牛：AI模型要真正了解人類語言，關鍵是“序列學習”

繼續閱讀

人工智能帶來育兒焦慮，澳洲華人家長為子女的未來憂愁

OpenAI o1與人工智能的過去與未來

未來不會被人工智能取代的4個領域，第1個最穩，第4個成本效益最高

Adobe的Project Turntable人工智能工具可在三維空間中旋轉二維藝術作品

陳健淋｜通用人工智能視野下企業資料賦權的類型展開

科學家利用新型人工智能揭開嬰兒學習和發育的秘密

南沙和華為強強聯手！共建人工智能生态基地

2025年人工智能十大趨勢！最新預測→

張藝謀透露《三體》進度：隻拍一部、大幅删改、引入人工智能

法蘭克福書展聚焦人工智能發展與監管

人工智能未來十大趨勢

研學報道|“探索科技前沿引領未來創新”人工智能創新應用博覽會研學之旅啟航

論壇直擊|人工智能創新應用發展領航交流會圓滿舉辦

數字科技、人工智能拯救春晚收視率

DeepSeek出世，人工智能厲害，教師會被取代嗎？讀書還有意義嗎？

一邊大量失業一邊搞人工智能，發展搶了幾億人飯碗，未來怎麼辦？