作者 | Celeste Biever

譯者 | 核子可樂

策劃 | 李冬梅

大語言模型擁有出色的人類語言模拟能力，但科學家們對其推理表現仍存在分歧。

7 月 25 日，《Nature》在一篇文章中稱，ChatGPT 已經攻破了圖靈測試，是時候要啟用其他新的方法來評估人工智能技術了。

世界上最強的人工智能（AI）系統能夠通過嚴格的考試、寫出令人信服的論文、順暢參與聊天，甚至很多人已經無法分辨 AI 與人在語言表達上有何分别。還有什麼是它們做不到的嗎？當然有，而且是些非常簡單的問題。

螢幕上排列着一系列色彩鮮豔的圖形，面對這類視覺邏輯測試，大多數人都能快速找出答案。但作為聊天機器人 ChatGPT 和搜尋引擎 Bing 背後的技術之光、目前 AI 的最高傑作，GPT-4 卻明顯力不從心。今年 5 月的一項研究顯示，GPT-4 在其中一類模式測試中的正确率隻有三分之一，而在另一類測試中正确率更是可憐的 3%。

邏輯謎題背後的研究團隊，希望測試能給 AI 系統提供更好的基準，幫助解決關于 GPT-4 等大語言模型的固有短闆。總結來講：在語言類測試中，大語言模型輕易就完成了曾經被視為具有裡程碑意義的智能壯舉；但在視覺邏輯測試中，它們的表現則相當孱弱、存在明顯的盲點，無法根據抽象概念做出推理。

新墨西哥州聖達菲研究所的計算機科學家 Melanie Mitchell 表示，“AI 領域的從業者們正努力解決對大語言模型系統的評估難題。”為此，她的團隊整理出了這套邏輯問題集。

過去兩、三年裡，大語言模型已經在跨多任務能力上全面碾壓以往的 AI 系統。它們的工作原理并不複雜：根據訓練時接觸過的數十億線上句子，總結出各單詞之間的統計相關性，而後面對給定的輸入文本生成合理的下一單詞。對于基于大語言模型建構的聊天機器人，則額外再添加一個元素：由人類訓練師提供廣泛回報，是以微調機器人的響應方式。

值得注意的是，在這類海量人類語言庫上訓練而成的、類似于自動補全性質的算法，成功表現出了廣泛的問題解決能力。雖然原有 AI 系統也許在特定某項任務上能夠擊敗大語言模型，但前者必須接受與特定問題相關的數量訓練，且這種能力無法快速從一項任務轉移至其他任務。

哈佛大學認知科學家 Tomer Ullman 表示，從廣義上講，這兩大陣營的研究人員對于大語言模型的底層實作原理抱有完全相反的觀點。有些人将算法的成就歸結于真正的推理或了解能力，但其他人（包括 Ullman 本人和前文中的 Mitchell 等研究人員）則仍持謹慎态度。

Ullamn 認為，“這場辯論的雙方都才華橫溢、水準很高。”産生分歧的根本原因，在于缺乏确鑿的證據來支援其各自觀點。“畢竟還沒有蓋革計數器那樣穩定可靠的智能檢測器，能明确給出有智能或者無智能的答案。”

讨論雙方的研究人員表示，依靠邏輯問題等測試提示人類與 AI 系統間的能力差異，應該是向正确方向邁出的重要一步。紐約大學認知計算科學家 Brenden Lake 表示，此類基準測試還有助于揭示當今機器學習系統所缺失的能力，同時厘清人類智能到底由哪些要素組成。

另外，這種對大語言模型及基準能力研究的測試，還具有其他現實意義。Mitchell 指出，如果想把大語言模型應用到醫學、法律等現實場景當中，首先必須明确其能力邊界在哪裡。“我們得搞清楚它能做什麼、做不了什麼，之後才能判斷如何安全加以運用。”

圖靈測試已經過時了嗎？

在機器智能測試領域，最著名的方案一直是圖靈測試。該測試由英國數學家兼計算機先驅阿蘭·圖靈于 1950 年提出，當時的計算機尚處于起步階段。圖靈提出了一種所謂“模仿遊戲”的評估方法，在該場景中，人類裁判分别與隐藏在螢幕之後的計算機和人類進行簡短的文本對話，看其能否據此準确識别出機器和人。圖靈認為，這應該能回答“機器有沒有思考能力”的問題。

Mitchell 指出，圖靈并沒有詳細說明該場景的大量細節，是以缺乏确切規則可供遵循。來自谷歌的軟體工程師 François Chollet 認為，“圖靈測試并不是能在機器上實際運作的具體測試——而更多隻是種思想實驗。”

但這種用語言來檢測機器是否具備思考能力的觀點，已經在技術領域根深蒂固。幾十年來，商人兼慈善家 Hugh Loebner 長期資助一年一度的圖靈測試活動，也就是“Loebner 獎”。但計算機科學家 Rob Wortham 表示，這項活動在 2019 年之後就停止了，因為随着 Loebner 本人過世、活動經費也無以為繼。Wortham 是英國人工智能與行為模拟研究學會的聯席主任，該學會自 2014 年開始就代表 Loebner 主辦這場競賽。他解釋道，大語言模型現在基本具備了騙過人類的能力，是以 Loebner 獎在大語言模型全面起飛前夕被迫停辦頗有種黑色幽默的意味。

其他研究人員也認為，GPT-4 等大語言模型已經基本具備了通過圖靈測試的能力。至少在簡短的對話中，多數人恐怕很難分辨誰是人、誰是大模型。今年 5 月，以色列特拉維夫 AI21 實驗室的研究人員報告稱，有超過 150 萬人參與過基于圖靈測試的線上遊戲。使用者将參與到兩分鐘的聊天當中，面對的要麼是另一位使用者、要麼是根據研究人員提示僞裝成真人的大語言模型。玩家正确識别出機器人的機率隻有 60%，已經跟完全亂猜差不多了。

但比較熟悉大語言模型的研究者還是能從種種細節中分辨出聊天機器人。Chollet 指出，他發現隻要利用系統的已知弱點，就能輕松檢測出誰是大語言模型。“如果讓我自己接受測試，判斷到底是不是在跟大語言模型聊天，那我肯定能得出正确答案。”

而其中的關鍵，就是讓大語言模型走出自己的舒适區。他的訣竅就是向大語言模型提出與常見訓練場景不同的差異化場景。在多數情況下，大語言模型都是在根據訓練資料輸出可能性最高的單詞，而并非真的按照新場景給出正确答案。

而且，Chollet 等人對于這種基于欺騙性能的測試方法持懷疑态度。“這明顯就是為了欺騙人類裁判而存在”，這樣的測試隻會鼓勵開發者向 AI 灌輸更多僞裝技巧，并不能激發出更多有用或者有趣的功能。

基準測試也不靠譜

研究人員經常會用評估特定能力（例如語言能力、常識推理和數學能力）的基準測試對 AI 系統做出評估，各技術團隊也越來越多采用那些專為人類設計的學術和專業考試。

今年 3 月 GPT-4 剛剛釋出時，來自加州舊金山的 OpenAI 公司就在一系列專為機器設計的基準測試上評估了新模型的性能，内容包括閱讀了解、數學和編碼。據 OpenAI 報告，GPT-4 在大多數測試中表現出色。他們還為 GPT-4 設定了約 30 項考試，包括：面向美國高中生的各科考試，即先修課程（Advanced Placement）；評估美國醫生臨床知識的考試；以及美國研究所學生選拔過程中使用的标準測試（GRE）。在統一律師考試（美國有多個州在律師資格考試中包含此項考試）中，GPT-4 的得分成功跻身前 10%。

AI 系統性能——結果摘錄

測試	GPT-4	GPT3.5	經過專門訓練的AI
統一律師資格考試	298/400 (排名前10%*)	213/400 (排名後10%)	無
醫學知識自我評估計劃	75%	53%	無
研究所學生入學考試	163/170 (排名約前20%)	147/170 (排名約前25%)	無
HellaSwag：常識推理（專為機器設計）	95.3%	85.5%	85.6%
DROP：閱讀了解基準（專為機器設計）	80.9%	64.1%	88.4%
GSM-8K：8000道國小數學應用題資料集（專為機器設計）	92%	57.1%	87.3%

資料來源: OpenAI/參考文獻 4

*這裡的排名百分位，為達到該分數的人類考生在全體受試者中的所在位置。

Mitchell 承認，“不少語言模型在這些基準測試中都表現良好。但多數情況下，這并不足以證明它們在一般能力上超越了人類，而是基準本身存在局限。”研究人員提出了有力的質疑，即因為模型接受了大量文本素材的訓練，是以很可能已經在訓練資料中見過類似的問題。這種情況下得出的基準測試結論被稱為“污染”，顯然不足以采信。

OpenAI 公司表示，他們通過在問題和訓練資料中查找相似字元串的方式查驗過這一點。在删除相似字元串之前和之後對大語言模型做測試，其性能幾乎沒有變化。這表明極高的得分跟污染無關，但仍有部分研究人員質疑測試是否足夠嚴格。

Sam Bowman 是紐約大學的語言技術科學家，同時也在舊金山 AI 公司 Anthropic 工作。他警告稱，千萬不要簡單把 GPT-4 的考試成績視為“見過類似問題”的結果，進而否定 GPT-4 的能力。在他看來，“污染的說法确實讓情況變得有點複雜，但我認為這并沒有真正影響大局。”

研究人員還指出，大語言模型拿下考試高分的能力本身也比較脆弱，恐怕無法被轉化成在現實世界中做出正确判斷的能力。Mitchell 認為，隻要稍微調整一下考試題目，就有可能導緻大模型無法通過。例如，她從 ChatGPT 通過的工商管理碩士考試中選出一個問題并稍加改動，人類可以輕松根據變化調整答案，但 ChatGPT 卻慘遭失敗。

在解讀基準測試含義時，還有另一個更深層次的問題。對人類來說，在這些考試裡拿下高分一般都代表其具備較強的智力水準——其實智力水準本身也是個模糊概念，主要反映在一系列任務中表現出的能适應不同環境的能力。換言之，在考試中拿高分證明此人擁有較好的認知能力，而且出色掌握了某些抽象概念。但對大語言模型來說，情況則并非如此。Mitchell 強調，大模型的判斷方式跟人類非常不同，“在多數情況下，AI 系統并不是在以人類熟悉的方式做推理。”

這可能是因為大語言模型隻能從語言當中學習經驗；由于缺少與現實世界連接配接的通道，它們無法像人那樣體驗語言跟物體、屬性和情感之間的聯系。Lake 指出，“很明顯，它們了解單詞的方式跟人類不一樣。”在他看來，目前的證據表明大語言模型“可以在不真正了解自己在說什麼的情況下，非常流利地使用語言。”

另一方面，大語言模型也表現出一些人類所不具備的能力，例如了解人類寫下的幾乎每個單詞之間的聯系。Mitchell 表示，這可能代表模型是在依靠語言或者其他名額的某些特征來解決問題，而用不着掌握更廣泛的推理能力。

OpenAI 公司研究員 Nick Ryder 也認同這一判斷，表示 AI 在單一測試中的性能表現并不足以像證明人類受試者那樣證明其普遍能力。“我覺得大家不該把人類得分跟大語言模型的得分做直接比較”，OpenAI 公布的得分“并不是在描述大語言模型具備類人能力或者類人推理水準，而單純是展示這些模型在執行這些任務時的表現。”

在傳統機器基準測試和人類專業考試之外，研究人員還對大語言模型做出更廣泛的探讨。今年 3 月，微軟研究院的 Sébastien Bubeck 及其同僚就放出了題為《通用人工智能的火花：GPT-4 早期實驗》的預發表版本，在行業内引起熱議。他們使用 GPT-4 的早期版本記錄下一系列令人驚訝的功能，而且其中很多功能與語言并沒有直接或明确的聯系。其中一個值得注意的亮點，就是它能通過用于評估心理學理論的測試。心理學理論是人類的一種核心能力，用于預測和推理他人的心理狀态。他們在文章中寫道，“鑒于 GPT-4 在功能上的廣度和深度，我們有理由相信它已經代表着通用人工智能（AGI）系統的早期（但尚不完美）版本。”

但 Bubeck 本人随後也做了澄清，強調“GPT-4 肯定不會像人那樣思考，而且對于展現出的任何功能，它都有着自己獨特的、與人類不同的實作方式。”

Mitchell 認為，盡管這份報告表述得相當激進，但卻并沒有對大語言模型的能力做出系統性探讨。“這更像種人類學研究。”Ullman 也表示要想證明機器能掌握心理學理論，至少要給出與之對應的潛在認知過程證據，而不能簡單依據機器輸出了跟人類相同的答案就粗暴斷言。

AI 研究人員們認為，要想摸清大語言模型的優勢和短闆，還需要展開更廣泛、更嚴格的審查。而色彩邏輯問題可能正是其中的重要一環。

新鮮謎題

2019 年，就在大語言模型全面爆發之前，Chollet 在網上釋出了專門為 AI 系統整理的一套新型邏輯測試集，名為抽象與推理語料庫（ARC）。解答者将面對一段視覺示範，其中幾個正方形網格會轉變成另外一種模式，再由其訓示下一網格該如何變化來證明自己已經了解了變化規則。Chollet 表示，“這測試的是我們适應以往從未見過的事物的能力”，他認為這種探尋規律的能力才是智能的本質。

Lake 認為，ARC 把握住了“人類智能的标志”：從日常知識中進行抽象，并将其應用于以往從未見過的問題。

Chollet 在 2020 年組織了一場 ARC 機器人競賽，當時大語言模型還沒有獲得廣泛關注。最終獲勝的 AI 系統經過了專門訓練，善于解決 ARC 這類任務。但跟大語言模型不同，它并不具備通用功能，而且也隻答對了 21%的問題。相比之下，人類正确解決 ARC 問題的比例為 80%7。多個研究團隊目前正使用 ARC 來測試大語言模型的能力，也沒有任何一種能接近人類的表現。

Mitchell 和她的同僚在 ARC 的啟發下又開發出一套新的謎題（稱為 ConceptARC），主要差別有兩點。ConceptARC 的難度更低：Mitchell 團隊希望讓基準測試反映出機器功能的進步，哪怕隻是一點點改進。第二是，該團隊選擇了特定概念來做測試，之後圍繞每個概念建立一系列與主題相關的謎題變體。

例如，為了測試相同性這個概念，一道題要求解題者将具有相同形狀的對象保持不動，另一道題則要求将同形狀對象沿一條軸對齊。這樣做的目的，是減少 AI 系統在未掌握概念的情況下通過測試的幾率。

性能不佳代表着什麼？

研究人員将 ConceptARC 任務釋出給了 GPT-4 和招募來的 400 名受試人員。人類在所有概念組上的平均得分為 91%（得分最高的一組為 97%）；GPT-4 得分最高的一組為 33%，在其餘概念組中的得分均不超過 30%。

Mitchell 指出，“我們證明了機器仍然達不到人類的智力水準。但令人驚訝的是，盡管從未接受過相關問題的訓練，但它還是能夠解決其中一些問題。”

該團隊還測試了在 Chollet 競賽中勝出的機器人，這些機器人并不屬于大語言模型那種通用能力系統，而是專門針對 ARC 等視覺問題訓練而成。總體而言，它們的性能比 GPT-4 更好，但還是不如人類，其中最佳概念組得分為 77%，但在大多數概念組中得分低于 60%1。

不過 Bowman 認為，GPT-4 通不過 ConceptARC 的訓練，并不證明它缺乏潛在的抽象推理能力。在他看來，ConceptARC 與 GPT-4 之間存在偏差，畢竟這是一種視覺測試。“即使這些模型真的很擅長這種概念推理，也不大可能在初次參與此類測試時就拿下高分。”

測試方式的限制，也可能是 GPT-4 表現不佳的影響因素。大語言模型的公開版本隻能接受文本輸入，是以研究人員送出了用于描述圖像的數字數組。（例如，空白像素可能用 0 表示，彩色廣場則可能用相應的數字表示。）相比之下，人類受試者能夠直接看到圖像。Mitchell 也承認，“我們是在拿純語言系統跟人類做比較，而人類擁有高度發達的視覺系統，是以這樣的比較恐怕并不完全公平。”

OpenAI 已經建立了 GPT-4 的“多模态”版本，能夠直接接受圖像輸入。Mitchell 團隊正在等待該技術的正式公開，這樣就能再做一輪 ConceptARC。但她認為多模态 GPT-4 的成績也好不了多少，“我覺得這些系統仍然不具備能與人類比肩的抽象概念和推理能力。”

麻省理工學院的計算認知科學家 Sam Acquaviva 也贊同這一判斷，“否則就太讓人震驚了。”他還提到，另一組研究人員已經在 1D-ARC 基準上測試了 GPT-4，且模式限制為單行而非網格 8。這應該能消除一定的不公平問題，但 Acquaviva 看到雖然 GPT-4 的性能有所提高，但同樣不足以證明大語言模型具備可靠的規則了解和推理能力。

推理論證

Bowman 還提到其他一些實驗，綜合結果來看，大語言模型至少已經掌握了推理抽象概念的基本能力。在其中一個案例中，哈佛大學計算機科學家 Kenneth Li 和他的同僚采用了黑白棋的數字版本，由對弈雙方将黑色和白色棋子放進 8 x 8 的網格當中。他們希望借此評估大語言模型到底是依賴記住的語言統計關系來生成文本，還是真的能像人類一樣為現象建構内部表征。

在向大語言模型送出人類選手的操作訓練集之後，AI 很快就掌握了為下一步棋選擇正确政策的能力。研究人員認為，這表明大語言模型甚至能夠了解棋盤上的态勢，并結合目前特征給出棋步建議，這明顯突破了文本形式的束縛。

Bowman 承認，大語言模型的推理能力總體上可謂是“參差不齊”，而且達不到人類推理的高度。但他認為這種推理能力确實存在，而且似乎會随着模型規模的增長而提升。也就是說，未來的大語言模型會表現得越來越好。“這些系統沒有我們期待中那麼可靠或者通用，而且在某些特定的抽象推理方面完全搞不清狀況。但我認為，它們的基本推理能力确實客觀存在。”

Bowman 和 Mitchell 等研究人員還一緻認為，如何更好地測試大語言模型抽象推理及其他智能名額的方法，仍然是個懸而未決的問題。斯坦福大學認知科學家 Michael Frank 認為不可能存在單一某種包羅萬象的測試能夠全面取代圖靈測試。相反，他認為研究人員需要設計大量測試來量化各類系統的優勢和短闆。“這些智能體都很棒，隻是在諸多方面仍有缺陷，是以最重要的就是對此開展系統性探索。”

Wortham 則向剛剛接觸 AI 系統的朋友們提出建議，希望盡量遠離那種對拟人化的執念。“我們總想把任何表現出智能的東西了解成人，這真的很沒必要。”

“這甚至可說是種詛咒，意味着除了人類自己，我們無法想象其他表現出明确目标導向的智能形式。我們總是一廂情願地認為，它這麼做的深層思維方式跟自己一樣。”

參考文獻：

Moskvichev, A., Odouard, V. V. & Mitchell, M. Preprint at https://arxiv.org/abs/2305.07141 (2023).
Turing, A. M. Mind LIX, 433–460 (1950).
Article Google Scholar
Jannai, D., Meron, A., Lenz, B., Levine, Y. & Shoham, Y. Preprint at https://arxiv.org/abs/2305.20010 (2023).
OpenAI. Preprint at https://arxiv.org/abs/2303.08774 (2023).
Bubeck, S. et al. Preprint at https://arxiv.org/abs/2303.12712 (2023).
Chollet, F. Preprint at https://arxiv.org/abs/1911.01547 (2019).
Johnson, A., Vong, W. K., Lake, B. M. & Gureckis, T. M. Preprint at https://arxiv.org/abs/2103.05823 (2021).
Xu, Y., Li, W., Vaezipoor, P., Sanner. S. & Khalil, E. B. Preprint at https://arxiv.org/abs/2305.18354 (2023).
Li, K. et al. Proc. Eleventh Int. Conf. Learn. Represent. https://openreview.net/forum?id=DeG07_TcZvT (2023).

原文連結：

https://www.nature.com/articles/d41586-023-02361-7

ChatGPT 居然攻破了圖靈測試，基準測試也不靠譜了？

圖靈測試已經過時了嗎？

基準測試也不靠譜

AI 系統性能——結果摘錄

新鮮謎題

性能不佳代表着什麼？

推理論證

繼續閱讀

全球最小的移動顯示卡拓展塢GPDG1正式釋出~此次GPD&AMD聯合研發，距官方資料顯示，1、G1内置了AMDRa

用于航空航天應用的碳納米管複合材料前言：自1991年飯島首次發現納米管以來，納米管的研究在相對較短的時間内取得了巨大進步

2023 年 Web 伺服器基準測試：NodeJS vs Java vs Rust vs Go

ANET代碼在加速器驅動系統中的臨界搜尋應用引言：ANET（AdvancedNeutronicswithEvolutio

Golang 性能基準測試（benchmark）詳解

Java性能優化實踐p73

SIGGRAPH 2023 | UrbanBIS：大規模城市場景了解基準測試資料集

d避免優化代碼塊

兩個消息：一個是GPDWINMax22023這款搭載7840U處理器的10.1英寸掌上電腦開啟預售，6月26日10:30

“圖靈測試已過時，AI能不能賺大錢才是新标準”——DeepMind聯創

大模型能否通過圖靈測試呢，AI21 Labs做了一個百萬級線上遊戲《human or not》

圖靈測試與人工智能

ROS2機器人筆記-221031

ChatGPT打破了圖靈測試——評估人工智能新方法的競賽正在進行

Hadoop基準測試

新一代搜尋引擎ManticoreSearch問世，速度比ElasticSearch快15倍。它是否會取代ElasticS