大模型=缸中之腦？通院朱松純團隊剖析AGI關鍵缺失

機器之心專欄

機器之心編輯部

“知行合一”：大語言模型距離通用人工智能最欠缺的一步

近期 ChatGPT/GPT-4 系列産品引發全球關注和讨論，以其為代表的大模型在語言方面表現出了一定的通用性，使通用人工智能的概念浮出水面，進入了大衆視野。

業界很多人認為大模型是通往通用人工智能的必經之路，然而大模型真的如業界所追捧的一樣 “無所不能” 麼？以 GPT-4 為代表的大語言模型究竟離通用人工智能還有多遠？

北京通用人工智能研究院朱松純教授團隊最新釋出了一份針對大模型的技術報告，系統回顧了現有使用标準化測試和能力基準對大型語言模型（LLMs）進行的評估，并指出了目前評估方法中存在的幾個問題，這些問題往往會誇大 LLMs 的能力。報告進一步提出通用人工智能（AGI）應具備的四個特征：能夠執行無限任務，自主生成新任務，由價值系統驅動，以及擁有反映真實世界的世界模型。

研究人員在技術報告中指出，“知行合一”（認識和行動的内在統一）是大模型目前所欠缺的機制，也是邁向通用人工智能的必經之路。研究人員認為，概念的學習依賴于與真實世界的互動，且知識的擷取并不完全依賴于被動輸入，在新環境中擷取知識的關鍵途徑更應該是主動探索和試錯而非被動接受。

論文連結：https://arxiv.org/abs/2307.03762

一、大語言模型無異于缸中之腦

缸中之腦是由哲學家 Hilary Putnam 提出的一個著名思想實驗，該實驗假設人的大腦從身體剝離，放在一個能夠維持其機能的營養液缸，由一個超級計算機聯結大腦神經元制造出各種幻象，讓人覺得一切正常，就像《黑客帝國》所演的那樣，那我們該怎麼知道自己不是缸中之腦呢？

基于語義學的分析，Putnam 反駁道，當缸中大腦裡的人聲稱自己是 “缸中之腦” 時，缸和腦的所指已經發生了變化。如何了解這一觀點呢？舉個簡單的例子 —— 假設存在一個孿生地球，其居民和我們生活方式、語言均相同，但他們的 "水" 分子組成為 XYZ，與我們的 H2O 不同。盡管這兩種 "水" 在外觀、用途和名稱上無異，且兩地居民對 "水" 的心理感覺相同，但指向的實質卻不同，是以其含義也應有所差別。這也啟發研究者從符号落地（symbol grounding）的視角看待大模型。論文認為，大模型無異于缸中之腦，因為大模型本身并不在真實世界中 (living in the world)，它無法像人一樣實作從” 詞語 (word)“到” 世界 (world)“的聯結。這一點是由它的内在構造機制所決定的 —— 通過統計模組化在大量文本上進行訓練，學習文本之間的語言學相關關系，進而根據上個詞彙預測下個詞彙。

缺乏符号落地使得大模型很容易陷入繞圈圈的境地。研究者嘗試給 GPT-4 一個引子，讓它跟自己對話，然而在有限回合之後，GPT 就開始重複自己說的話，無法跳脫當下的語義空間。

大模型的 “智能” 與其說是内在的，不如說是人類智能的投影。大模型生成的文本并不先天具有意義，其意義來自于人類使用者對于文本的闡釋。例如語言學家喬姆斯基曾經嘗試挑戰語言學界構造了一個符合文法規範但無意義的句子 ——“無色的綠思狂暴地沉睡”（“Colorless green ideas sleep furiously”），然而中國語言學之父趙元任在他的名文《從胡說中尋找意義》中給予了這個句子一個充滿哲思的闡釋。

二、大模型的局限性

大模型訓練資料集的不透明以及人類評估時所采取的名額差異可能使得人類高估了大模型的真正表現。一方面，大模型的訓練資料集通常是規模巨大且高度易得的網際網路資料，這些訓練資料可能會包含後續用于評估的資料集。由于目前我們并不知道 GPT-4 等大模型的訓練資料集構成，泛化這一概念變得模糊，即我們無法判斷大模型是真的學習到了核心概念，還是僅僅從它的訓練産生的 “隐藏記憶” 中進行檢索，這種不透明性阻礙了學術界對其公正和可靠的評估。另一方面，有研究發現大模型的湧現能力并非源于模型行為的本質變化，而是由于使用的評估名額導緻大模型看起來突然變得很強大。簡單地說，在使用非線性度量（如 X 的 n 次方）時，曲線上稀疏的采樣點可能讓人感覺到存在某種湧現現象，然而如果換成線性度量，這種現象就不存在了。

在回顧了數十篇大語言模型的評估研究後，研究人員發現：

1）雖然某些研究聲稱大語言模型能夠在标準化測試（SAT，LSAT）中取得超越普通人類考生的卓越成績，但一旦引入非英語的其他語言同類型測試，比如中國聯考、印度升學考試、越南聯考時，GPT 的表現顯著下降，且其在需要應用推理的考試（數學、實體等）的成績顯著低于強語言依賴學科（英文、曆史）的考試。GPT 的表現看上去更像是采取了一種題海戰術，通過重複的記憶來做題，而非習得了如何進行推理。

2）大語言模型的數學推理能力仍然有待提高。Bubeck 等人（2023）在《Sparks of Artificial General Intelligence》這篇文章中采取了單個案例展示的方式嘗試說明 GPT-4 能夠解決 IMO 級别的問題，但研究者在仔細檢視了 GPT 所提供的解決方案發現 Bubeck 等人的結論具有很強的誤導性，因為測試的題目被極大程度地簡化了，在讓 GPT-4 解決 IMO 數學題原題時， GPT-4 的數學邏輯鍊條是完全錯誤的。另有研究發現，在 MATH 訓練資料集上，即使把模型設定為 MathChat 的模式，其準确率也隻有 40% 左右。

3）大語言模型的推理與其說是來自于了解邏輯關系，不如說是來自于大量文本的相關性。朱松純團隊的另一篇研究發現，一旦将自然語言替換為符号，大語言模型在歸納、演繹、溯因任務上表現驟降，無論是否使用思維鍊（thought of chain）的政策。

一個簡單的例子如下圖所示：圖左用動物（熊、狗、牛等）生成了一系列陳述（比如 “熊喜歡狗”、“牛的屬性是圓”、“如果某個動物的屬性是圓，那麼他們喜歡松鼠”），而後給 GPT-4 一個新的陳述（比如 “牛喜歡松鼠”）讓其判斷正确與否，研究者發現當把具有明确語義的詞彙替換成抽象符号時，（比如用 e4 替代熊，e5 替代狗，e2 替代圓），大語言模型的表現将會顯著下降。另一個對大模型的因果推斷能力的研究揭露了相似的發現 —— 當将大模型的語義轉化為符号時，大模型的表現将下降到幾乎同随機回答無異，哪怕在微調之後，大模型也隻能應對之前出現過的類似的符号表達，而無法泛化到新場景中。

4）大模型做不好抽象推理，當面對那些僅依賴于幾個小樣本示範進而找到潛在規律的任務時，大模型的表現較為一般。如下圖所示，在瑞文測試資料集（RAVEN) 中，測試者需要根據已有的 8 個圖形（形狀、顔色、數量、大小）尋找暗含的規律，然後推理出最後一個圖形。

另外一個例子來自于 Evals-P 資料集，如下右圖所示，大模型需要能夠在缺少大量訓練樣本的前提下找到出現 foo 或者 bar 的規律，即當首字母包含在之後的字元串裡時是 foo，不包含時為 bar。對于某些大模型，這些任務的準确率接近于 0，而哪怕 GPT-4 的準确率也隻有 30% 左右。

三、關于通用人工智能的一種觀點

判斷 “某某某 AI” 是不是通用人工智能的一個前提是得清楚通用人工智能的定義或者基本特征，朱松純團隊嘗試刻畫出了通用人工智能（AGI）的四個特征：

1.能夠執行無限的任務；

2.能夠自主生成新任務；

3.由價值系統驅動；

4.擁有反映真實世界的世界模型。

首先，智能體應具備在實體和社會環境中完成無窮任務的能力。如果設定一個表示達到 AGI 的任務數量門檻值，那麼如何确定這個門檻值将始終是一個值得質疑的問題。如果智能體在完成 N 個任務後沒有展現出通用智能，我們就沒有理由相信它在完成第 N+1 個任務後會突然擁有通用智能。雖然一系列具體而具挑戰性的任務清單對于評估智能體的性能有所幫助，類似于教師用學生的考試分數來評估他們的學習成績，但僅僅完成具體任務并不等同于擁有通用智能，這就像不能僅憑學生的分數判斷他們真正的學習能力一樣。此外，無窮任務并不意味着智能體需要像超人一樣無所不能，而是指通用智能體應能夠在特定環境中自主生成新的任務，這與學生學會自我學習相仿。

智能體生成新任務需要兩個基本機制。首先，智能體需要一個驅動任務生成的引擎。例如，達爾文的進化論揭示出生存和繁衍這兩個本能，它們被編碼在我們的基因中，而人類的進化過程豐富了價值系統，出現了各種各樣的細分價值，如利他主義、誠實和勇氣等，每個人都受到一個由其與現實世界持續互動塑造的複雜價值系統的驅動。同樣的，我們可以應用這種價值系統的概念來建構通用智能體，在這種情況下，人類可以通過調整智能體的價值函數來影響其行為，而無需預先定義詳細的任務步驟。其次，智能體需要一個包含真實世界中實體法則和社會規範的世界模型，來指導智能體和真實世界的互動。這就像一個玩樂高，世界模型包含了各種積木（物體表征）以及積木之間的連接配接方式（實體法則和因果鍊等）。然而，價值函數在所有可能的選項中選擇了一種藍圖，比如拼一個城堡，驅動智能體去執行任務，在樂高城堡搭建的過程中，智能體需要根據目前的進度，選擇合适的積木并将其正确地放置在相應的位置（自我生成新任務）。

四、“知行合一”

王陽明曾說，知而不行，隻是未知。為了解決符号落地并且誕生具有上述特征的通用人工智能，僅依賴于知識是遠遠不夠的，整合知識和行動是必須的。此時，智能體不僅能夠通過主動地行動來生成對于現實世界物體的更加完整的表征，比如整合了視覺、觸覺、聽覺等信号，更重要的是能夠通過探索環境生成知識，并進一步泛化到新場景中。

其一，人對于世界的了解是建立在和真實世界互動中的。符号（語言、數學符号等）隻是概念的指針，隻有多模态的互動信号才能真正建立概念表征。僅停留在文本空間上的大語言模型雖然能夠生成符号，但無法實作了解符号所指向的概念。如同一個螞蟻意外的行動軌迹構成了一個 “○”，但螞蟻本身并不了解圓形意味着什麼。

其二，知識并非是先天存在的，知識和行動之間有着内在的聯系。人類對世界的深刻了解并非來自于簡單地閱讀手冊，而是通過自己親身探索或者來自于他人探索的傳遞等反複的試錯積累而來。在這裡，知識展現了人與世界互動的能力（比如推理，問題解決，社會了解），但如果模型隻是被動地接受知識并通過統計模型生成内容，無異于一個壓縮了大量知識的百科全書，但卻無法在新環境中通過探索世界進行新的知識生産（包括知識抽象、知識積累和知識遷移等過程）。

五、總結

研究團隊提出的大模型技術報告為接下來的人工智能研究提供了一些潛在的研究方向：

建立透明的評估機制和評估系統；
創造具有豐富可供性（大量互動可能性）的仿真環境；
探索一套 “知行合一” 的認知架構，從 “純資料驅動” 的範式向 “任務驅動” 的範式轉變。