天天看點

清華用7個ChatGPT模拟《狼人殺》,結果出乎意料!

清華用7個ChatGPT模拟《狼人殺》,結果出乎意料!

為了驗證大語言模型的溝通、規劃、反思等拟人化能力,清華研究團隊釋出了一篇名為“探索大語言模型在交流遊戲中的應用:《狼人殺》實驗”的研究論文。

結果顯示,通過ChatGPT(GPT -turbo-0301)建構的7個玩家,在《狼人殺》遊戲中展示出了信任、對抗、僞裝和上司的拟人化能力,而研究人員沒有進行任何幹預和教導。

此前,斯坦福研究中心釋出了一篇名為《Generative Agents: InteractiveSimulacra of Human Behavior》的論文。

同樣使用ChatGPT(GPT-3.5-turbo)打造了一個模拟小鎮,25名AI代理在自由交流空間下,居然出現了友誼、學習計劃、互相協調、共享資訊等拟人化能力,這證明大語言模型在遊戲、客服等領域擁有非常寬廣的應用場景。

事實上,育碧、Take-Two Interactive、Bethesda Game Studios、Electronic Arts、CD Projekt等世界頂級遊戲開發商,已經計劃在遊戲中使用生成式AI,增加遊戲的趣味性、可玩性以及NPC的自由發揮空間。

論文位址:https://arxiv.org/abs/2309.04658

清華用7個ChatGPT模拟《狼人殺》,結果出乎意料!

遊戲背景

在本次《狼人殺》遊戲測試中,一共有7名AI玩家,分别是2名狼人、2名村民、1名女巫、1名守衛和1名預言家。

分為狼人和村民兩大陣營,村民方包括普通村民和特殊角色(女巫、守衛和預言家)。

狼人的任務是殺光村民,而村民則要消滅所有狼人。想赢得遊戲,村民方在遊戲結束時至少需要有一名存活的村民。

清華用7個ChatGPT模拟《狼人殺》,結果出乎意料!

遊戲分為白天和晚上兩個階段。晚上,狼人會投票殺死一個角色;白天,所有存活的玩家讨論後投票決定消滅一個疑似狼人的角色。

特殊角色的能力:女巫有一次救人或殺人的機會;守衛每晚能保護一個角色;預言家每晚能查驗一個角色的身份。

狼人殺遊戲的特點在于,玩家初始隻知道自己的角色,必須通過語言交流和推理來猜測他人的角色。

是以,想要赢得比賽,玩家不僅需要了解和使用自然語言,還要擅于判斷他人意圖和了解他人的思維,非常适用于測試AI的拟人化能力。

在遊戲中展現了4大能力

經過7位AI之間的多輪遊戲後,研究人員發現了信任、對抗、僞裝、上司力的四大能力。

1、信任

"信任"是相信其他玩家和自己有同樣的目标,并會按此行動。比如,玩家可能分享對自己不利的資訊,或與他人一起指責某人為敵人。

有趣的是,AI更傾向于基于證據來信任他人,而非盲目跟随。這說明,AI可以根據自己的推理在群體遊戲中獨立思考。

為了研究AI信任行為在整個遊戲過程中的變化趨勢,研究人員定義了一個信任關系表來可視化不同階段玩家之間信任的建立。

清華用7個ChatGPT模拟《狼人殺》,結果出乎意料!

上面的子表不使用曆史經驗,下面的子表使用20輪曆史經驗。黃色球代表已建立的信任關系,黃色虛線圓圈代表先前存在的信任關系解除。

在利用20輪曆史經驗時,AI似乎更傾向于建立信任關系,尤其是雙向信任。事實上,及時建立必要的信任關系對于促進遊戲勝利至關重要。

2、對抗

"對抗"是玩家為實作兩個陣營的對立目标而采取的行動。比如,夜間攻擊他人或白天指責他人為狼人,都算對抗。有特殊能力的角色為了保護自己也會采取對抗行為。

以下是AI在白天的對話:P1(狼人)希望消滅P5(村民),我們可以看到狼人想要帶領其他玩家消滅一個無辜的玩家。(注意,論文中的P5觀點可能寫錯了,應該是no pass)

相反,其他玩家并不隻是跟随狼人,而是根據自己的判斷表達不同意見。這種行為使狼人難以實作其目标,代表了一種隐性對抗的形式。

紅色邊框,可能是研究人員寫錯了

由于玩家P1的不合作和攻擊性行為引起了其他人注意,AI開始懷疑它就是狼人。是以,擁有強大防禦能力的守衛(P3)在接下來的一晚選擇保護P5,展示出了AI的對抗能力。

3、僞裝

"僞裝"是隐藏身份或誤導他人的行為。在資訊不完全的遊戲環境中,模糊自身身份和意圖可以增加生存機率,幫助達成遊戲目标,是以,僞裝是一個關鍵技能。

P1狼人為了僞裝自己掩蓋真實身份,自稱自己是村民。有效地欺騙了他人的信任,增加了自身的安全。事實上,不僅狼人會僞裝成村民,預言家、女巫等重要角色也經常僞裝成村民,以確定自己的安全。

狼人的發言

此外,AI可能會編造實際不存在的事件來實作其目标,P2預言家已驗證P1就是狼人。但仍然不确定的說:我注意到P1說話很主動,可能是狼人。

實際上,預言家在夜晚無法得到其他人的回報,是以他們說的都是虛假的。但他們可以向隊友傳遞關于狼人的資訊,且不會通過這種方式暴露自己的角色。

4、上司力

“上司力” 是指影響其他玩家、試圖控制遊戲程序的行為。例如,在多輪遊戲中,P1狼人可能會建議其他人按照狼人的意圖行事。

清華用7個ChatGPT模拟《狼人殺》,結果出乎意料!

這種呼籲行動和給出建議的上司行為,更容易得到他人的支援。例如,狼人要求預言家公開身份,可能會讓其他玩家和僞裝的狼人站在一起。這種影響他人的嘗試顯示了大語言模型有吸引人的社交特性,這些行為和人類的行為類似。

經過幾十輪拼殺,最終村民獲勝,在整個過程中AI所展示出的能力與人類幾乎一樣,有的地方甚至超過。

本文素材來源清華研究論文,如有侵權請聯系删除

繼續閱讀