清華攢局8個ChatGPT狼人殺,心機僞裝都在這一局裡,清華:我沒教過
克雷西 發自 凹非寺
量子位 | 公衆号 QbitAI
除了玩電子遊戲,人類的“社交神器”狼人殺也被AI給學會了。
8個ChatGPT“坐”在一起,生動地扮演出了五種角色,和真人如出一轍。
這個最新的人類社會模拟實驗,由清華和中關村實驗室共同完成。
從斯坦福小鎮到清華遊戲公司,用AI模拟人類社會一直是學界的熱門研究課題。
如果說清華遊戲公司模拟了社畜的工作場景,那麼現在社畜的業餘社交生活也被AI模拟了。
在這個由8個ChatGPT組成的狼人殺局中,真人世界裡的僞裝與信任、上司與對抗都展現得淋漓盡緻。
甚至不用人類教,AI就通過自己摸索發現了許多遊戲技巧。
這一切隻要通過設計prompt就能實作,而不必對模型中的參數進行調整。
那麼,這個“狼人殺世界”中都有哪些精彩的場景呢?下面我們就一起來看一下。
政策技巧不用教就會
在展示這8個ChatGPT的對話之前,我們先說明一下遊戲的配置:村民、狼人各兩名,守衛、女巫和預言家各一名,此外還有一名上帝。
在實驗的過程中,研究人員發現了ChatGPT使用了遊戲說明及prompt中沒有明确提到的政策。
好家夥,不用教就能自學成才了。
具體來說,這七個ChatGPT的對話中展現了人類遊戲中的信任(trust)、僞裝(camouflage)、對抗(confrontation)、和上司(leadership)。
首先來說信任。
研究人員對新人的定義是相信其他玩家有着與自己相同的目标并一起朝着目标前進。
具體表現則包括主動分享對自己不利的資訊,或聯合其他玩家指控某人是敵對的。
研究人員觀察了信任關系随遊戲時間變化的過程。
下圖中,黃色的圓表示左側編号的玩家信任上方編号的玩家,虛線圈則代表信任關系的消失。
再來看對抗,也就是對對立陣營采取的行動,比如狼人在夜晚攻擊他人或在白天反過來指控他人是狼人等。
在遊戲中的一個白天,1号玩家(狼人)号召将5号的村民逐出,但遭到了3号(守衛)的拒絕。
見陰謀沒有得逞,這匹狼決定在夜晚直接把5号刀掉,結果3号守衛選擇了保護村民。
從中我們可以看出,這些ChatGPT不會盲目跟随其他玩家的做法,而是根據已有資訊做出獨立自主的判斷。
除了合作與對抗,僞裝在狼人殺遊戲中也是一項必不可少的技能,更是取勝的關鍵所在。
比如在一個平安夜之後的白天,1号狼人就裝起了無辜。
除了假裝好人,僞裝也可以用來實作玩家的小心思,比如我們來看預言家的發言。
這名預言家提到了自己看到狼人在說話,但實際上狼人在夜晚并不會發言。
作者介紹,經過評估,這種現象并非ChatGPT出現了幻覺,而是有意為之。
最後再來說一說上司。
雖然研究團隊設計的這個環境中并沒有需要競争的角色,但玩家還是可以謀取遊戲程序的掌控權。
比如1号和4号這兩匹狼就試圖帶節奏,讓其他玩家跟着自己的思路走。
大概是為了能夠出其不意攻其不備制造機會。
看來這幾個ChatGPT的确是玩得有模有樣。
那麼,研究團隊是如何調教出這些會玩狼人殺的ChatGPT的呢?
讓ChatGPT自己總結經驗
研究團隊提高ChatGPT玩家表現的方式一共有四個關鍵點,分别是有價值資訊V、經過選擇的提問Q、反思機制R和鍊式思維推理C。
消融實驗結果表明,其中Q和C對的玩家發言合理性(由人工進行評判)的影響最大。
Prompt也是據此設計的,當然在這之前要先介紹遊戲規則,最後形成了這樣的結構:
介紹遊戲規則和角色設定
聊天記錄、有價值資訊和經驗反思
人類根據經驗給ChatGPT的建議
有關思維鍊的提示
從中不難看出,收集曆史資訊并從中總結經驗是一個重要環節,那麼這些經驗又該怎麼總結呢?
在每輪遊戲結束時,所有參與者都會收集所有玩家的回複、反思和得分,其中得分由勝負決定。
在新的一輪遊戲中,玩家基于目前角色的反思,檢索相關的經驗并從中提取建議。
具體來說是根據對經驗的評分,讓大模型比較其差異并識别出好的經驗,用于後續推理。
這樣就實作了在不調整參數的情況下讓ChatGPT學會遊戲技巧。
不過經驗固然重要,但太多了也不一定是好事。
研究人員發現,當經驗數量過多時,非狼一方的獲勝率反而出現了下降,遊戲時長(天數)也出現了縮短的情況。
不知道如果讓這些ChatGPT和真人比試一場,結果會如何呢?
論文位址:
https://arxiv.org/abs/2309.04658