GPT-4通過圖靈測試，勝率高達54%！UCSD新作：人類無法認出GPT-4

編輯：桃子庸庸

【新智元導讀】GPT-4通過圖靈測試了！UCSD研究團隊通過實證研究，人類無法将GPT-4與人類進行區分。而且，有54%的情況下，它被判定為人類。

GPT-4可以通過圖靈測試嗎？

當一個足以強大的模型誕生之後，人們往往會用圖靈測試去衡量這一LLM的智能程度。

最近，來自UCSD的認知科學系研究人員發現：

在圖靈測試中，人們根本無法區分GPT-4與人類！

論文位址：https://arxiv.org/pdf/2405.08007

在圖靈測試中，GPT-4有54%的情況下，被判定為人類。

實驗結果更是表明，這是首次有系統在「互動式」雙人圖靈測試中，被實證通過測試。

研究者Cameron R.Jones招募了500名志願者，他們被分為5個角色：4個評估員，分别是GPT-4、GPT-3.5、ELIZA和人類，另一個角色就「扮演」人類自己，藏在螢幕另一端，等待着評估員的發現。

以下是節選的遊戲，你能看出哪個對話框是人類嗎？

圖 1：人類審訊者（綠色）與證人（灰色）之間的部分對話

其實，這四段對話中，有一段是與人類證人的對話，其餘都是與人工智能的對話。

首次開啟受控「圖靈測試」

過去74年裡，人們進行了許多圖靈測試的嘗試，但很少進行過受控實驗。

著名的Loebner獎是一項年度競賽，然而從1990年首次舉辦一直到2020年，沒有一個系統通過測試。

最近的一項大規模研究發現，人類在2分鐘的線上對話中，識别一系列LLM準确率達到 60%。

迄今為止，還沒有任何機器通過測試的「受控」實驗示範。

為了測試人們是否有可能識破目前AI系統的欺騙行為，研究人員使用GPT-4進行了一次随機控制的雙人圖靈測試。

測試要求很簡單，即人類參與者與人類、人工智能開啟5分鐘對話，并判斷對話者是否是人類。

正如開篇所述，研究人員一共測評了3個模型——GPT-4、GPT-3.5，以及ELIZA。

針對前兩個LLM，研究者通過改編GPT-4和GPT-3.5探索性研究中表現最佳的提示，來訓示大模型如何去響應消息。

研究人員稱，解釋圖靈測試的一個核心挑戰是，系統表現出色可能源于兩種原因：

- 一是出色地模仿人類

- 二是評判者過于輕信

後一種情況，常被稱為ELIZA效應，即參與者甚至會将簡單的系統也人性化。

ELIZA系統對于每個人來說，再熟悉不過了。

它是20世紀60年代的一款基于規則的簡單聊天機器人，但使用者發現自己也會将人類特征歸因于它。

是以，在實驗中，研究人員将ELIZA作為基線，一方面是為了從經驗上量化ELIZA效應，另一方面也是為了在實驗中進行操作檢查。

那麼，這項圖靈測試的結果，具體如何呢？

GPT-4通過率54%

首先看一個重要的名額：通過率。

研究者将通過率定義為在遊戲中，評估對象被評估者判定為人類的比例。

GPT-4的通過率為54%，超過了GPT-3.5（50%）和ELIZA基線（22%），但低于人類被試者（67%）。

評估對象通過率（左）和評估者信任度（右）。右圖每個點代表一場遊戲

這個結果其實并不令人意外，與研究初始階段的設想基本相符合。

在試驗之前，研究者就做出了幾個假設：首先，假設人類在檢測GPT-4方面的能力不會超過偶然性（50%）。

為了驗證這一點，研究者拟合了一個邏輯回歸模型來預測隻有截距的通過率。

截距與0（z=0.14, p=0.482）沒有明顯差距，這表明GPT-4的通過率可以約等于50%。貝葉斯模型預測GPT-4截距的95%可信區間為-0.24-0.55（相當于44%-63%的通過率）。

這意味着，人類在面對GPT-4時，成功分辨的機率跟抛硬币差不多！

結果還證明了研究人員的第二和第三個假設：人類的通過率明顯高于GPT-4的通過率（z=2.42，p=0.017），而GPT-4的通過率高于ELIZA的通過率（z=4.11，p<0.001）。

然而，與研究者的試驗設想不一緻的是：GPT-4和GPT-3.5的表現幾乎差不多（z=0.497，p=0.619）。

在「僞裝人類」這一塊，打了個平手。

同樣出人意料的是，那些自稱更了解LLM工作原理的參與者并沒有更成功地識别出LLM（z = -0.023，p = 0.869）。

在探索性分析中，研究者發現年齡對詢問者的準确性有負面影響（z = -2.24，p = 0.025），但其他人口統計學變量（包括性别、教育水準和與聊天機器人互動的頻率）則沒有顯著影響。

為什麼會是這樣的結果？讓我們來分析一下背後的原因。

為了深入了解到底是什麼在影響評估者的決策，我們對評估者使用的政策和他們為決策提供的理由進行了分類。

36%的評估者會與評估對象閑聊，詢問一些個人細節或日常活動。

第二類和第三類最常用的政策是社交與情感（25%）——例如，詢問評估對象的觀點和經曆，觀察他們是否具備幽默感。

還有人側重考察知識與推理（13%），包括有關數學、邏輯和常識的問題。

詢問政策（左）和平均準确率（右）

為了對比每種政策的有效性，研究者計算了使用這些政策的平均準确率。

當評估對象問及對方有關人類經曆（75%）、邏輯和數學（78%）或直接「指控」對方是人工智能（80%）時，通常會距離「正确答案」更近。

在遊戲中，人工智能之是以會「露出馬腳」，通常是因為評估者認為他們似乎在強迫自己扮演角色，要麼過于随意，要麼則缺乏個性。

而ELIZA 很容易「暴露」，主要是因為反應不自然和缺乏語境意識。

可以看出，無論是從參與遊戲的志願者所使用的政策還是決策理由來看，他們都更注重語言風格和社會情感因素，而不是更傳統的智力範疇（知識和推理）。

這似乎反映出志願者們的一個潛在假設——社會智能才是AI最無法模仿的人類特征。

圖靈測試，過了

如何判斷系統何時通過了圖靈測試？

圖靈在1950年的論文中預測，到本世紀末， AI系統将能夠很好地玩模仿遊戲，以至于審查員在5分鐘的交流後，做出正确識别的機會不會超過70%。

這一結論，導緻了AI的通過率是否能夠達到30%，成為許多研究者的讨論目标。

然而，這個基準似乎是任意的，并且不清楚圖靈是否将其作為成功的定義。

其實，50%的基線更加合理，因為它更能證明人類審查者，在識别AI方面并不比偶然性更強。

這一定義，與發現使用者是否可以在線上互動中，可靠地識别其他人類這一目标尤為相關。

在研究者的預公開的分析中，通過使用ELIZA基線作為操作檢查來解決這個問題。

隻有當分析表明ELIZA的通過率低于機率，而GPT-4的通過率不低于機率的情況下，才能判定模型通過了測試。

而根據這一定義，GPT-4顯然通過了這一版本的圖靈測試。

此外，參與者的置信度得分和決策依據，都表明他們并非随意猜測：GPT-4是人類的平均置信度為73%（見圖 2）。

網友讨論

有網友表示，如果我們要将圖靈測試等同于智力，圖靈測試就不是一個好的測試。然而，AI幾乎始終可以「欺騙」人類的事實有點令人擔憂。

還有人稱，自己對這種測試表示懷疑。因為GPT-4的表現會超過大多數人，是以很容易區分誰是人類，誰是人工智能。

研究者對此表示，這确實是我們遇到的一個問題。比如，GPT-4的知識儲備「太豐富」或者掌握的語言太多。我們明确提示該模型避免這種情況，這在一定程度上是有效的。

GPT-4通過圖靈測試，勝率高達54%！UCSD新作：人類無法認出GPT-4

繼續閱讀

130GB的黑神話用啥裝海力士Platinum P41測試報告

黃龍洞裡的定海神針黃龍洞的标志景點，為洞内最高的石筍，高達19.2米，1998年被投保一億元人民币。

華為Mate40Pro終于推送鴻蒙4.2版本了，直接就上正式版，而不是測試版！[呲牙][呲牙]大家趕緊去更新！#新款鴻蒙

卡地亞BALLONBLEUDECARTIER藍氣球靈感源自人類關于飛行的夢想與嘗試。掙脫重力束縛逾飛途高的藍色氣球幻化成

周生辰愛時宜的方式就是科學實驗式的嚴謹和認真，小到生活中的日常生活習慣觀察，站在樓下準确計算時宜洗澡的時間，反複測試花費

經銷商報價不到12萬，而廠商指導價卻高達23萬起的SUV

賠償金可高達數十萬？廣汽本田員工“搶着”被裁

一個噴嚏讓18歲你的靈魂附着在20年後你的身體裡，會是什麼情況？如果湊巧拯救了世界呢？昆蟲是上帝留給人類最後的蛋糕，昆蟲

《華爾街日報》了解馬斯克與女性員工之間互動情況的人士以及涉事女性的親友，披露了馬斯克在SpaceX的複雜情感糾葛。并指出

東吳證券女副總姚眺年薪高達367萬元比總經理薛臻高出237萬

要我說，目前還未釋出的新手機中，一加Ace3Pro絕對是最讓我期待的了。從站哥的爆料來看，一加Ace3Pro采用的是陶瓷

我剛剛看到這樣的消息：馬斯克被爆料要求女高管為他生孩子。美國的企業家兼億萬富翁埃隆·馬斯克竟然打着為全人類生孩子的旗号，

大國大島之澳洲第一大島。澳洲的第一大島很明顯，就在其東南方向海域上，塔斯馬尼亞島，面積6.45萬平方公裡，形狀像

#比亞迪領先智駕看騰勢N7#在2023年，某汽車平台專門針對新能源車型的智能輔助駕駛做過測試，當時比亞迪旗下上市不久的騰

中專女孩高分入圍阿裡數賽，總獎金高達400萬，北大韋神曾獲金獎

動物的情感是否和人一樣豐富？人是萬物之靈，有着超高的智商和豐富的情感，喜怒哀懼愛惡驚這7種情緒在人身上是習以為常的。那麼