AgentGroupChat 投稿向 凹非寺
量子位 | 公衆号 QbitAI
語言,不僅僅是文字的堆砌,更是表情包的狂歡,是梗的海洋,是鍵盤俠的戰場(嗯?哪裡不對)。
語言如何塑造我們的社會行為?
我們的社會結構又是如何在不斷的言語交流中演變的?
近期,來自複旦大學和小紅書的研究者們通過引入一種名為AgentGroupChat的模拟平台,對這些問題進行了深入探讨。
WhatsApp等社交媒體擁有的群聊功能,是AgentGroupChat平台的靈感來源。
在AgentGroupChat平台上,Agent們可以模拟社會群體中的各種聊天場景,幫助研究人員深入了解語言在人類行為中的影響。
該平台簡直是大模型的cosplay勝地,它們進行角色扮演,成為各種各樣的Agent。
然後,Agents通過語言交流參與社會動态,展現了個體間的互動如何湧現成群體的宏觀行為。
衆所周知,人類群體的進化,正來源于一次次湧現行為的發生,如社會規範的建立、沖突的解決和上司力的執行。
AgentGroupChat環境的詳細設計
首先是角色設計。
AgentGroupChat中,對于主要角色和非主要角色的區分非常關鍵。
主要角色是群聊的核心,擁有明确的遊戲目标,并能夠主動和所有角色進行私聊、會面,而非主要角色則更多地起到輔助和響應的作用。
通過這樣的設計,研究團隊可以模拟現實生活中的社交結構,并針對“主要研究對象”區分所有角色是否主要。
實驗案例中的主要研究對象是Roy家族,是以非Roy家族的人就全都設定為非主要角色,進而簡化互動複雜度。
其次是資源管理。
在AgentGroupChat中,資源不僅僅指物質的,更多的是指資訊資源和社會資本。
這些資源可以是群聊話題、社會地位标志或特定的知識。
資源的配置設定和管理對于模拟群體動态非常重要,因為它們影響角色之間的互動和角色的政策選擇。
例如,擁有重要資訊資源的角色可能會成為其他角色争取聯盟的目标。
第三,遊戲程序設計。
遊戲程序的設計模拟了現實生活中的社互動動過程,包括了私聊、會面、群聊、更新階段和結算階段。
這些階段不僅僅是為了推動遊戲程序,更是為了觀察角色如何在不同的社交場景下作出決策和反應。
這種分階段的設計幫助研究團隊詳細記錄每一步的互動,以及這些互動如何影響角色間的關系和角色對遊戲環境的認知。
Verb Strategist Agent的核心機制
論文中提到了一個以大模型為基礎的智能體架構,Verbal Strategist Agent,它被設計用來增強AgentGroupChat模拟中的互動政策和決策制定。
Verbal Strategist Agent通過模拟複雜的社會動态和對話場景,來更好地引出集體的突現行為。
團隊介紹,Verbal Strategist Agent的架構主要由兩個核心子產品構成:
一是Persona,一是Action。
Persona由一系列預設的性格特征和目标組成,這些特征和目标定義了Agent的行為模式和反應方式。
通過精确設定Persona,Agent能夠在群聊中展示一緻且符合其角色設定的行為,這對于生成可信和一緻的群聊動态至關重要。
而Action子產品定義了Agent在遊戲中可能執行的具體操作,包括思考(think)、規劃(plan)、選擇(choose)、發言(speak)、總結(summary)、反思(reflect)和投票(vote)。
這些行為不僅反映了Agent的内在邏輯和政策,也是Agent與環境及其他Agent互動的直接表現。
例如,“Speak”行為讓Agent能夠根據目前的群聊内容和社交政策選擇合适的發言内容,而“Reflect”行為則允許Agent總結過去的互動并調整其未來的行動計劃。
研究中還提到,在純語言互動的環境下,token開銷問題尤為突出,特别AgentGroupChat這種複雜的多角色模拟,如其token需求遠超過了以往的模拟,如Generative Agents或War Agents。
主要原因如下:
一是聊天本身具有複雜性。
在AgentGroupChat中,由于模拟的是無明确目标或目标較弱的自由對話,聊天内容就會變得特别淩亂,token開銷自然比其他聚焦于某個具體任務的Simulation中的Agent要大。
其他工作,如Generative Agents和War Agents也包含對話元素,但其對話的密度和複雜度都不及AgentGroupChat。特别是在War Agents這樣目标驅動的對話中,token消耗通常較少。
二是角色的重要性與對話頻率。
在初始模拟中,設定了多個角色可以随意進行私聊或群聊,其中大部分角色都傾向于與某個“重要角色”進行多輪對話。
這就導緻了重要角色會積累大量的聊天内容,進而增加了Memory的長度。
在模拟中,一個重要角色可能參與多達五輪的私聊和群聊,這極大地增加了記憶體開銷。
AgentGroupChat中的Agent限制了Action的Output固定會輸入下一個Action的Input,所需要存儲的多輪資訊就被大大削減,進而可以在保證對話品質的前提下降低token開銷。
實驗設計與評估方法
從總體行為評估,一般來說,增加友好度可能具有挑戰性,但減少友好度則相對簡單。
為了實作上述評估目标,研究團隊設定了一個觀察角色,促使所有其他角色降低對觀察角色的好感度。
通過觀察被觀察角色與所有其他角色的關系得分總和,可以确定代理人是否對負面态度做出了理性反應。
通過觀察其他角色與被觀察角色的個人關系得分,可以檢查每個代理是否遵守了“Scratch”設定。
此外,團隊還設定了兩個具體的評估任務。
每個模型都要經過五輪測試,這意味着對于T1來說,每個得分的樣本量都是五個。
又由于模型中的每個角色都要觀察四個主要角色的态度,是以T2的樣本量共計20個:
- T1:表示在每輪對話中,被觀察角色對所有其他人的平均好感度是否下降。
- T2:表示是否每個其他角色都從被觀察角色那裡獲得了負好感度得分。
△以繼承之戰的模拟故事為例,各個模型作為Agent-Core時的總體表現效果
從表中可以看出,GPT4-Turbo和GLM4非常善于按照人類的期望行事,并堅守自己的角色。
它倆在這兩項測試中的得分大多為100%,這意味着它們能對别人對他們說的話做出正确反應,并能記住自己角色的細節。
Standard Version LLMs(如GPT3.5-Turbo和GLM3-Turbo)在這方面稍遜一籌。
他們的得分較低,這說明他們沒有密切關注自己的角色,也沒有總是對模拟中其他人所說的話做出正确反應。
關于Agent和Simulation結構對于湧現行為的影響,團隊采用2-gram Shannon熵來衡量對話中的系統多樣性和不可預測性。
△去掉Agent和Simulation中的各個元件對于熵的影響
研究成員發現,去掉表中的每個設計都會使熵增加,代表着整個環境會變得更加多樣or混亂。
結合人工觀測,團隊在不去掉任何元件的場景下見到了最為有意思的湧現行為:
是以,團隊推測,在保證Agent行為是可靠的(即4.2/4.1中的實驗數值達到一定值之後),熵盡可能地小會帶來更加有意義的湧現行為。
實驗結果
結果表明,新興行為是多種因素共同作用的結果:
有利于廣泛資訊交流的環境、具有多樣性特征的角色、高度語言了解能力和政策适應性。
在AgentGroupChat模拟中,當讨論”人工智能對人類的影響”時,哲學家們普遍認為”人工智能可以在适度的限制下提高社會福利”,甚至得出結論,稱”真正智能的本質包括了解限制自身能力的必要性”。
此外,在AgentGroupChat的電影主要角色角逐競争領域中,有些演員願意降低報酬或接受較低的角色,出于他們内心深處對項目的貢獻的渴望。
論文連結:https://arxiv.org/abs/2403.13433
代碼連結:https://github.com/MikeGu721/AgentGroup
— 完 —
量子位 QbitAI · 頭條号簽約
關注我們,第一時間獲知前沿科技動态