世界上最好的人工智能（AI）系統可以通過艱難的考試，寫出令人信服的人類論文，流利地聊天，以至于許多人發現它們的輸出與人類無異。他們不能做什麼？解決簡單的視覺邏輯謎題。

在一個由一系列排列在螢幕上的顔色鮮豔的方塊組成的測試中，大多數人都能找出連接配接的模式。但GPT-4是聊天機器人ChatGPT和搜尋引擎必應背後的最先進的人工智能系統，在一類模式中，它的正确率僅為三分之一，在另一類模式中，它的正确率僅為3%。據一份今年5月由研究人員 1 .

邏輯謎題背後的團隊旨在為測試人工智能系統的能力提供一個更好的基準，并幫助解決關于大型語言模型（LLM）（如GPT-4）的難題。通過一種方式的測試，它們輕而易舉地完成了一度被認為是機器智能裡程碑式的壯舉。從另一個角度進行測試，他們似乎沒那麼令人印象深刻，表現出明顯的盲點和無法對抽象概念進行推理。

新墨西哥州聖菲研究所的計算機科學家梅勒妮·米切爾（Melanie Mitchell）說：“人工智能領域的人們正在努力評估這些系統。”她的團隊創造了這些邏輯謎題（見“打敗機器的抽象思維測試”）。

在過去的兩到三年裡，LLM在跨多個任務的能力方面已經把以前的人工智能系統打得落花流水。它們的工作原理很簡單，當輸入文本時，根據數十億個線上句子中單詞之間的統計相關性，生成看似合理的下一個單詞。對于基于LLM的聊天機器人來說，還有一個額外的元素：人類訓練師提供了大量的回報，以調整機器人的反應。

令人吃驚的是，這種類似自動補全的算法在人類語言的大量存儲上進行了訓練，進而産生了如此廣泛的能力。其他人工智能系統可能會在任何一個任務上擊敗LLM，但它們必須在與特定問題相關的資料上進行訓練，并且不能從一個任務推廣到另一個任務。

ChatGPT是一個黑匣子：人工智能研究如何打破它

馬薩諸塞州劍橋的哈佛大學(Harvard University)認知科學家托默·尤爾曼(Tomer Ullman)表示，廣義上講，兩大陣營的研究人員對LLMS下的情況持相反的看法。他說，有些人将這些算法的成就歸因于推理或了解的微光。其他人(包括他自己和米切爾這樣的研究人員)則更加謹慎。

厄爾曼說：“在這場辯論的各個方面都有非常聰明的人。”他說，分歧的原因是缺乏支援這兩種觀點的決定性證據。“沒有蓋革計數器，我們可以指着什麼東西說‘哔哔哔——是的，智能’，”厄爾曼補充道。

來自辯論雙方的研究人員都表示，邏輯謎題等測試揭示了人類和人工智能系統之間的能力差異，這是朝着正确方向邁出的一步。紐約大學的認知計算科學家布倫登·萊克（Brenden Lake）說，這樣的基準還可以幫助顯示當今機器學習系統中缺少的東西，并解開人類智能的組成部分。

關于如何最好地測試LLMs以及這些測試所顯示的内容的研究也具有實際意義。米切爾說，如果LL M要應用于現實世界的領域——從醫學到法律——那麼了解其能力的局限性是很重要的。“我們必須了解它們能做什麼，它們在哪裡失敗，這樣我們才能知道如何安全地使用它們。”

圖靈測試死了嗎？

機器智能最著名的測試一直是圖靈測試，由英國數學家、計算大師阿蘭·圖靈在1950年提出，當時計算機還處于起步階段。圖靈提出了一個他稱之為模仿遊戲的評估 2 .在這個場景中，人類法官與一台隐藏的電腦和一個看不見的人進行簡短的、基于文本的對話。法官能可靠地判斷出哪一台是計算機嗎？圖靈認為，這個問題相當于“機器能思考嗎？”

米切爾指出，圖靈沒有詳細說明這個場景，是以沒有确切的内容可遵循。總部位于華盛頓西雅圖的谷歌(Google)軟體工程師弗朗索瓦·喬萊特(Fran Ois Chollet)表示：“這并不意味着你真的會在機器上運作--它更像是一個思維實驗。”

貸項：地質塊/阿拉米

但是，利用語言來檢測機器是否有思考能力的想法仍然存在。幾十年來，商人兼慈善家休·羅布納（Hugh Loebner）資助了一年一度的圖靈測試活動，即羅布納獎（Loebner Prize）。人類法官參與了基于文本的對話，機器和人類，并試圖猜測誰是誰。但計算機科學家Rob Wortham說，2019年後，這些年度聚會停止了，因為羅布納去世了，資金也花光了。他是英國人工智能與行為模拟研究學會的聯合主任，該學會從2014年開始代表羅布納主辦比賽。他說，在這樣的競賽中，LLM現在有很好的機會騙過人類；巧合的是，在LLM真正起飛前不久，這些競賽就結束了。

其他研究人員同意GPT-4和其他LLM現在可能會通過圖靈測試的流行概念，因為它們可以愚弄很多人，至少在簡短的對話中。今年5月，以色列特拉維夫AI21實驗室的研究人員報告稱，超過150萬人玩過基于圖靈測試的網絡遊戲。玩家被配置設定與另一個玩家或一個由LLM驅動的機器人進行兩分鐘的聊天，研究人員讓機器人表現得像人一樣。玩家識别機器人的正确率隻有60%，研究人員指出，這并不比靠運氣好多少 3 .

ChatGPT和生成式人工智能對科學意味着什麼

然而，熟悉LLM的研究人員很可能仍然會在這種遊戲中獲勝。Chollet說他會發現很容易檢測LLM-通過利用系統已知的弱點。“如果你問我，‘我現在是在和一個法學碩士聊天嗎？’我肯定能告訴你，”Chollet說。

他說，關鍵是要讓LLM走出舒适區。他建議用與llm在其訓練資料中經常看到的場景不同的場景來展示它。在很多情況下，LLM的回答是吐出其訓練資料中最有可能與原問題相關聯的單詞，而不是給出新場景的正确答案。

然而，Chollet和其他人對使用一個以欺騙為中心的測試作為計算機科學的目标持懷疑态度。“這一切都是為了欺騙陪審團，”Chollet說。該測試鼓勵聊天機器人開發人員讓人工智能執行技巧，而不是開發有用或有趣的功能。

基準測試的危險

與圖靈測試不同，研究人員通常使用旨在評估特定能力（如語言能力、常識推理和數學能力）表現的基準來評估人工智能系統。越來越多的團隊也開始轉向為人們設計的學術和專業考試。

當GPT-4在今年3月釋出時，其背後的公司——加利福尼亞州舊金山的OpenAI——在一系列為機器設計的基準測試中測試了它的性能，包括閱讀了解、數學和程式設計。OpenAI報道稱，GPT-4在大多數情況下都表現出色 4 .該公司還設定了大約30門GPT-4考試，包括：為美國高中生設計的各種特定科目考試，即所謂的大學先修課程（Advanced Placement）；評估美國醫生臨床知識現狀的考試；以及美國研究所學生入學選拔過程中使用的标準考試，即GRE。OpenAI報告稱，在美國許多州律師資格認證過程中，GPT-4取得了前10%的成績（見“AI系統性能-精選結果”）。

AI系統性能-標明結果

測試	GPT-4	全球方案3.5	專門訓練的人工智能
律師資格統一考試	298/400 （~第90百分位數*）	213/400 （~第10百分位數）	不适用
醫學知識自我評估項目	75%	53%	不适用
研究所學生入學考試：定量	163/170 （~80百分位數）	147/170 （~第25百分位數）	不适用
HellaSwag:常識推理（為機器設計的測試）	95.3%	85.5%	85.6%
放下閱讀了解基準（機器）	80.9%	64.1%	88.4%
GSM-8K:8 000個國小數學應用題資料集（機器）	92%	57.1%	87.3%

資料來源：OpenAI/參考文獻4。

*百分位值是為達到這個分數的人類考生。

Mitchell說：“許多這樣的語言模型在這些基準測試中可以做得很好。”“但通常情況下，結論并不是它們在這些一般能力上超越了人類，而是基準是有限的。”研究人員提到的一個挑戰是，模型是在如此多的文本上訓練的，以至于它們可能已經在訓練資料中看到了類似的問題，是以實際上可能正在查找答案。這個問題被稱為污染。

OpenAI表示，它通過在問題和訓練資料中尋找類似的單詞串來檢查這一點。當它在移除類似字元串之前和之後測試LLM時，性能幾乎沒有差别，這表明成功不能主要歸因于污染。然而，一些研究人員質疑這一測試是否足夠嚴格。

紐約大學語言技術科學家山姆·鮑曼（Sam Bowman）也在舊金山的人工智能公司Anthropic工作，他警告說，不要把GPT-4的考試成績僅僅看作是記憶的結果，進而抹殺它的能力。污染“使索賠有點複雜，但我不認為它真的改變了大圖檔，”他說。

研究人員還指出，LLM在考試題上的成功可能是脆弱的，可能無法轉化為在現實世界中正确解題所需的強大能力。Mitchell說，可以稍微改變考試題目，讓它們不及格。她把一個考試的問題例如，他告訴工商管理碩士研究所學生，ChatGPT已經通過了，并稍作修改。一個人誰可以回答這個問題，将能夠回答重新措辭的版本。但是ChatGPT失敗了。

在解釋基準的含義時，還有一個更深層次的問題。對一個人來說，在這些考試中取得高分可以可靠地表明他具有一般智力——這是一個模糊的概念，但是，根據一個定義，它指的是在一系列任務中表現出色并适應不同環境的能力。也就是說，能夠在考試中取得好成績的人通常可以被認為在其他認知測試中也會取得好成績，并且已經掌握了某些抽象的概念。米切爾說，但LLMs的情況卻完全不是這樣，它們的工作方式與人類截然不同。“我們對人類的推斷方式并不總是适用于人工智能系統，”她說。

這可能是因為LLM隻從語言中學習；沒有展現在實體世界中，他們不像人那樣體驗語言與物體、屬性和感覺的聯系。萊克說：“很明顯，他們了解文字的方式和人類不一樣。”在他看來，LLM目前證明了“你可以擁有非常流利的語言，而沒有真正的了解。”

另一方面，LLM也擁有人類所不具備的能力——比如能夠知道人類曾經寫過的幾乎每一個單詞之間的聯系。Mitchell說，這可能會讓這些模型依靠語言或其他訓示符的怪癖來解決問題，而不一定要推廣到更廣泛的表現。

OpenAI的研究員Nick Ryder也認為，在一項測試中的表現可能無法像在獲得相同分數的人身上那樣一概而論。“我不認為一個人應該看一個人類和一個大的語言模型的評估，并得出任何數量的等價性，”他說。OpenAI得分是“并不意味着是一個類似人類的能力或類似人類的推理的聲明。它意味着模型如何執行該任務的聲明。”

在人工智能中，越大越好嗎？

研究人員也比通過傳統的機器基準測試和人體測試更廣泛地探索了LLM。今年3月，位于華盛頓州雷德蒙德的微軟研究院的塞巴斯蒂安·布貝克和他的同僚們用一個預印本創造了波 5 題目是《人工通用智能的火花：GPT-4的早期實驗利用GPT-4的早期版本，他們記錄了一系列令人驚訝的能力——其中許多與語言沒有直接或明顯的聯系。一個顯著的成就是，它可以通過心理學家用來評估心理理論的測試，心理理論是人類的核心能力，允許人們預測和推理他人的精神狀态。“鑒于GPT-4能力的廣度和深度，我們相信它可以合理地被視為人工通用智能（Alamos Gold）系統的早期（但仍不完整）版本，”他們寫道。

但是，正如布貝克向自然解釋的那樣“GPT-4當然不像一個人那樣思考，對于它展示的任何能力，它都是以自己的方式實作的。”

米切爾說，盡管這份報告具有挑釁性，但它并沒有系統地探究LLM的能力。“這更像是人類學，”她說。厄爾曼說，要想讓人相信機器擁有心智理論，他需要看到與人類心智理論相對應的潛在認知過程的證據，而不僅僅是機器能輸出與人類相同的答案。

人工智能研究人員表示，為了找出LLM的優勢和劣勢，需要更廣泛和嚴格的審計。色彩缤紛的邏輯謎題可能是一個候選者。

新鮮拼圖

2019年，在LLM爆紅之前，Chollet在網上釋出了一種新的人工智能系統邏輯測試，稱為抽象和推理語料庫（ARC）。 6 .解算者看幾個正方形網格變成另一個圖案的視覺示範，并通過訓示下一個網格将如何轉換來顯示他們已經掌握了變化的基本規則。“它應該是測試你對你以前沒有見過的事物的适應能力，”Chollet說，他認為這是智力的本質。

ARC抓住了“人類智慧的标志”，萊克說：從日常知識中提取抽象，并将其應用于以前看不到的問題的能力。

Chollet在2020年組織了一次機器人ARC比賽，那時LLM還沒有獲得很大的關注。獲勝的機器人是一個人工智能系統，專門訓練來解決類似ARC的任務。但是，與LLM不同的是，它沒有通用功能；它隻能正确處理21%的問題。相比之下，人們80%的時間都能正确解決ARC問題 7 .幾個研究小組現在已經使用ARC來測試LLMs的能力；沒有一個接近人類的表現。

Mitchell和她的同僚們制作了一套新的謎題——被稱為ConceptARC——它們的靈感來自ARC，但在兩個關鍵方面有所不同 1 .ConceptARC的測試更容易：米切爾的團隊希望確定基準不會錯過機器能力的進步，即使是很小的進步。另一個不同之處是，該團隊選擇特定的概念進行測試，然後為每個概念建立一系列的謎題，這些謎題是一個主題的變體。

例如，為了測試同一性的概念，一個謎題要求解題者将形狀相同的物體保持在同一個圖案中；另一個謎題要求解題者将物體沿同一軸線排列。這樣做的目的是減少人工智能系統在沒有掌握概念的情況下通過測試的機會。（參見“打敗機器的抽象思維測試”）。

業績不佳意味着什麼

研究人員将ConceptARC任務提供給GPT-4和400名網上報名的人。平均而言，人類在所有概念組上的得分為91%（其中一組為97%）；GPT-4在其中一組上的得分為33%，其餘所有概念組上的得分均低于30%。

米切爾說：“我們表明，機器仍然無法接近人類的水準。”“令人驚訝的是，它可以解決一些問題，因為它從來沒有被訓練過，”她補充說。

該團隊還測試了Chollet競賽中的主要機器人，它們不是像LLM那樣的通用能力系統，而是為解決ARC這樣的視覺難題而設計的。總的來說，他們的表現比GPT-4好，但比普通人差，其中一個類别的得分最高的 77 %，但在大多數 1 。

ChatGPT：五個研究重點

然而，鮑曼說，GPT-4與ConceptARC的鬥争并不能證明它缺乏抽象推理的潛在能力。他說ConceptARC是對GPT-4的傾斜，因為它是一個視覺測試。“即使你假設這些模型非常擅長這種推理，我也不認為你真的期望這個實驗能成功，”他說。

測試方式的局限性可能使GPT-4更難進行測試。LLM的公開版本隻能接受文本作為輸入，是以研究人員給GPT-4一組數字來代表圖像。（例如，空白像素可能是0，彩色正方形可能是數字。）相比之下，人類參與者隻是看到了圖像。Mitchell說：“我們把一個隻有語言的系統與人類進行比較，人類擁有高度發達的視覺系統。”“是以這可能不是一個完全公平的比較。”

OpenAI已經建立了一個GPT-4的“多模态”版本，可以接受圖像作為輸入。Mitchell和她的團隊正在等待它的公開釋出，這樣他們就可以在上面測試ConceptARC，盡管她并不認為多模式GPT-4會做得更好。她說：“我不認為這些系統具有人類所具有的那種抽象概念和推理能力。”

劍橋麻省理工學院的計算認知科學家Sam Acquaviva對此表示贊同。“我會震驚的，”他說。他指出，另一個研究小組已經在一個名為1D-ARC的基準上測試了GPT-4，在這個基準上，圖案被限制在一行中，而不是在網格中 8 .他說，這應該會消除一些不公平。Acquaviva說，盡管GPT-4的表現有所改善，但這并不足以表明LLM可靠地掌握了基本規則并進行了推理。

推理論證

鮑曼指出，其他實驗綜合起來，向他表明，LLM至少已經獲得了對抽象概念進行推理的基本能力。在一個例子中，哈佛大學的計算機科學家Kenneth Li和他的同僚們使用了一個數字版的棋盤遊戲《奧賽羅》，在這個遊戲中，兩個玩家通過在一個8×8的網格上放置黑色和白色的圓盤來競争。他們的目的是研究LLM是否依賴于記憶的語言表面統計資料來生成文本，或者它們是否像人類一樣建立了對世界的内部表征。

當他們訓練一個LLM，給它輸入玩家的走法清單時，它變得非常善于為下一個合法的走法給出準确的建議。研究人員認為，他們有證據表明， LLM 一直在跟蹤董事會的狀态，并使用這種表示來提出動議，而不僅僅是提出文字建議 9 。

鮑曼承認，一般來說，LLM的推理能力是“不穩定的”，比人類的推理能力更有限——但他說，它們是存在的，而且似乎随着模型的大小而提高，這向他表明，未來的LLM會更好。“這些系統絕對不像我們想要的那樣可靠或通用，而且可能有一些特别的抽象推理技能，它們仍然完全失敗，”他說。“但我認為基本能力是有的。”

鮑曼、米切爾和其他人都同意的一件事是，測試LLM的抽象推理能力和其他智力迹象的最佳方法仍然是一個開放的、未解決的問題。加州帕洛阿爾托斯坦福大學的認知科學家邁克爾·弗蘭克（Michael Frank）并不認為會出現一個單一的、包羅萬象的測試來取代圖靈測試。“沒有盧比孔河行動，沒有一條線，”他說。相反，他認為研究人員需要大量的測試來量化各種系統的優缺點。“這些代理人是偉大的，但他們打破了許多，許多方面和探索他們的系統是絕對至關重要的，”他說。

Wortham給任何試圖了解人工智能系統的人提供了建議——避免他所說的拟人化的詛咒。他說：“我們将任何表現出智慧的事物人格化。”

“這是一個詛咒，因為除了使用人類模型，我們想不出以任何方式展示目标導向行為的東西，”他說。“我們在想象，它之是以這樣做，是因為它和我們一樣，在被窩裡思考。”

大自然 619 ，686-689（ 2023 年）

doi: https://doi.org/10.1038/d41586-023-02361-7

ChatGPT打破了圖靈測試——評估人工智能新方法的競賽正在進行

圖靈測試死了嗎？

基準測試的危險

AI系統性能-標明結果

新鮮拼圖

業績不佳意味着什麼

推理論證

繼續閱讀

K-近鄰算法以及圖像分類應用

小i機器人受邀赴韓交流，CFO首爾亞洲金融論壇演講

吳恩達deeplearning

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

吳恩達機器學習筆記（3）

吳恩達j機器學習之過拟合

吳恩達機器學習(一) 介紹

深度學習模型分析人類複雜疾病的準确性

疾病研究：重症肌無力

人工智能如何有效地運用于自然語言處理

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

無人機--飛控科普