人工智能語言模型GPT-3的推理能力堪比大學生：心理學家報告

**摘要：**人工智能語言模型GPT-3在解決某些邏輯問題方面的表現與大學生相當，這些問題類似于标準化測試中出現的問題。研究人員寫道，這一結果引發了一個問題：這項技術是否在模仿人類推理，還是在使用一種新型的認知過程。要解決這個問題，需要通路支撐GPT-3和其他AI軟體的軟體。

全文報道：

人們可以通過将新問題與熟悉的問題進行比較，并将解決方案擴充到新問題來輕松解決新問題。這一過程被稱為類推推理，長期以來被認為是人類獨有的能力。

但現在，人們可能需要為新來者讓路。

洛杉矶加利福尼亞大學（UCLA）的心理學家的研究表明，令人驚訝的是，人工智能語言模型GPT-3在解決通常出現在智力測試和标準化測試（如SAT）上的推理問題方面的表現與大學大學生相當。該研究發表在《自然人類行為》雜志上。

但論文的作者寫道，該研究提出了一個問題：GPT-3是在模仿人類推理作為其龐大語言訓練資料集的副産品，還是在使用一種根本新的認知過程？

由于無法通路GPT-3的内部工作機制（由OpenAI公司保護），UCLA的科學家無法确定其推理能力是如何工作的。他們還寫道，盡管GPT-3在某些推理任務方面的表現遠遠超出了他們的預期，但這一流行的AI工具在其他方面仍然失敗得慘不忍睹。

UCLA的博士後研究員泰勒·韋布（Taylor Webb）表示：“無論我們的結果多麼令人印象深刻，都必須強調，這個系統存在重大局限性。它可以進行類推推理，但不能解決人們很容易解決的問題，例如使用工具解決實體任務。當我們給它提出這些問題時——其中一些問題孩子們可以迅速解決——它提出的解決方案是荒謬的。”

韋布和他的同僚測試了GPT-3解決一組靈感來自Raven's Progressive Matrices測試的問題的能力，該測試要求受試者預測一組複雜形狀排列中的下一個圖像。為了使GPT-3能夠“看到”形狀，韋布将圖像轉換為GPT-3可以處理的文本格式；這種方法還確定了AI以前從未遇到過這些問題。

研究人員要求40名UCLA大學生解決相同的問題。

UCLA心理學教授洪京露（Hongjing Lu）表示：“令人驚訝的是，GPT-3不僅表現得和人類一樣好，而且還犯了類似的錯誤。”

GPT-3正确解決了80%的問題——遠高于人類受試者的平均得分（略低于60%），但在最高人類得分的範圍内。

研究人員還要求GPT-3解決一組SAT類比問題，他們認為這些問題從未在網際網路上釋出過——這意味着這些問題不太可能成為GPT-3的訓練資料的一部分。這些問題要求使用者選擇共享相同類型關系的單詞對。（例如，在問題“'Love'與'hate'之間的關系與'rich'與哪個詞之間的關系相同？”中，解決方案将是“poor”。）

他們将GPT-3的分數與大學申請人的SAT分數的已釋出結果進行了比較，并發現AI的表現優于人類的平均分數。

研究人員随後要求GPT-3和學生志願者解決基于短篇小說的類推問題——要求他們閱讀一篇文章，然後确定傳達相同含義的不同故事。這項技術在這些問題上的表現不如學生，盡管OpenAI的最新疊代技術GPT-4的表現優于GPT-3。

UCLA的研究人員已經開發了自己的計算機模型，該模型受到人類認知的啟發，并一直在将其能力與商業AI進行比較。

UCLA心理學教授基思·霍利奧克（Keith Holyoak）表示：“AI正在變得更好，但我們的心理AI模型在去年12月之前仍然是解決類比問題的最佳選擇，當泰勒得到了GPT-3的最新更新時，它變得一樣好甚至更好。”

研究人員表示，到目前為止，GPT-3一直無法解決需要了解實體空間的問題。例如，如果提供了一組工具的描述——例如紙闆管、剪刀和膠帶——可以用來将泡泡糖從一個碗轉移到另一個碗，GPT-3提出了奇怪的解決方案。

露表示：“語言學習模型隻是試圖進行詞預測，是以我們很驚訝它們可以進行推理。在過去的兩年中，這項技術已經取得了很大的進展。”

UCLA的科學家希望探索語言學習模型是否真的開始像人類一樣“思考”，還是在做一些完全不同的事情，隻是模仿人類思維。

霍利奧克說：“GPT-3可能有點像人類一樣思考。但另一方面，人們并沒有通過攝取整個網際網路來學習，是以訓練方法完全不同。我們想知道它是否真的像人們那樣做，或者它是不是全新的東西——一種真正的人工智能——這本身就是令人驚訝的。”

為了找出答案，他們需要确定AI模型正在使用的基礎認知過程，這需要通路軟體和用于訓練軟體的資料——然後進行他們确定軟體尚未接受過的測試。他們說，這将是決定AI應該成為什麼的下一步。

韋布說：“對于AI和認知研究人員來說，擁有GPT模型的後端将非常有用。我們隻是輸入并獲得輸出，這并不像我們希望的那樣決定性。”

【粉絲專享】學數學會上瘾擺脫題海戰術，培養孩子數學認知￥39 購買

來源：

https://www.sciencedaily.com/releases/2023/07/230731110750.htm

人工智能語言模型GPT-3的推理能力堪比大學生：心理學家報告

繼續閱讀

人工智能2024年一季度投融市場報告

關愛通丨從AIGC到矽基人同僚：人工智能疊代重塑HR管理政策

好家夥，iPhone16還沒釋出，售價就曝光了，據說全系256GB起步但價格和上一代128GB一樣！如果真是這樣那不得賣

沒想到騰訊在AI方面這麼有實力[震驚]，據IPRdaily中文網最新釋出的中國人工智能發明專利企業排行榜（TOP50）顯

中關村論壇筆記①｜10年後，人工智能将如何改變世界？

浦軟創業營第十期人工智能專場開營暨愛酷空間煥新更新儀式舉辦

真不得了，今年iPhone16系列要“殺瘋”！爆料說有30項更新變化，還說有蘋果自研端側大模型的iOS18，再加上蘋果取

中醫人工智能儀器的出現，預示着中醫采用西醫手段診斷成為可能。

華為是徹底好起來了，在Canalys公布的2024年Q1季度國内智能手機出貨量報告中，華為以1170萬台的出貨量排到了第

換手機的理由+1！說真的，雖然現在很多新手機的性能提升感覺并不強，但在功能體驗還是非常有吸引力的。就比如今年大火的AI手

2024中關村論壇年會|第七屆中關村國際前沿科技大賽落幕：海内外3100餘個項目參賽人工智能展現最強創新活力

首個人工智能選美大賽“Miss AI”，不隻看美貌

面向未來的前沿人工智能監管

牛來了？外資集體做多A股，量子技術和人工智能成大風口丨蔣衍看盤

24fall格拉斯哥大學招收全獎博士生人工智能/資料驅動/機器人方向

張瑾：人工智能與商業變革