天天看點

李飛飛新論文:30行提示,建一個AI智能體炊事班

李飛飛新論文:30行提示,建一個AI智能體炊事班

作者| 騰訊科技 郝博陽

如果要說AGI領域有哪些知名研究團隊的話,相信不少人都會想到斯坦福大學李飛飛教授的團隊。李飛飛本人在醫學、實體學、心理學、神經科學、計算機科學等多個領域都有涉獵和研究。9月19日,李飛飛及微軟研究院,清華、北大的AI研究人員聯合釋出一篇新論文《MINDAGENT: 新興的遊戲互動AI》就成功的設計了一個AI智能體基礎架構MINDAGENT。

AI智能體的基建,就差合作這一步了

還記得前一陣非常火熱的斯坦福小鎮嗎?那裡的各色由LLM驅動的小人兒都和人類一樣,通過交往和生活發展着自己的愛好和關系。在這個過程中他們寫信,做飯,一起釣魚,但他們做事的方式多少有點敷衍:

李飛飛新論文:30行提示,建一個AI智能體炊事班

因為從根本上他們沒法真正的與場景進行互動和行為,更無法使用工具,隻能用Emoji假裝自己在做事。但這一件簡化行為的系統為我們提供了通過AI智能體形成穩定人格,乃至用多個AI智能體形成某種社會的可能性。

那具備互動,行為和工具使用能力的AI智能體大概是什麼樣子呢?

那大概就是六月份英偉達釋出的AI智能體VOYAGER了。他們在對LLM下達簡單的“盡可能多地用各種工具挖礦”的總體目标,再提示一些基本規則和動作後,就把AI扔到《我的世界》這個遊戲之中。AI針對最終目标開始生成細分任務,通過對世界環境的觀察和互動了解到各種操作的效果,通過短期記憶記住那些正向的操作(比如說用斧子砍樹比用手刨快),也優化了自身的子目标,最終達成挖礦目标。在這個過程中,VOYAGER掌握了使用工具,進行物品組合的最優解法。整個過程非常像人類學習的路徑。

李飛飛新論文:30行提示,建一個AI智能體炊事班

LLM下的AI智能體邏輯架構,略複雜,但很有效

如果把上述兩種AI智能體相加的話,我們可以得到一個有人格,能在環境中通過工具、任務規劃來自己解決問題的AI。那從能力上來說,這和我們人還有什麼差別呢?按照主流AI智能體的理論看,它可能隻差合作能力這一個部分了。

李飛飛新論文:30行提示,建一個AI智能體炊事班

一個完美的AI智能體社會應該有的能力:規劃和問題解決,使用工具,合作和外部使用者可幹預

合作絕不是把幾個AI智能體塞進一個世界中就會自動發生的事情。相對于過往VOYAGER這種單一智能體,多智能體之間的規劃和合作由于指數級增長的動作空間(與代理數量成正比)有着更高的問題複雜性。作為規劃者的LLM 必須同時控制多個智能體,避免可能的沖突,并協調它們完成需要複雜合作的共享目标。是以合作可以被認為是AI智能體能力綜合的聖杯。

9月19日,李飛飛及微軟研究院,清華、北大的AI研究人員聯合釋出一篇新論文《MINDAGENT: 新興的遊戲互動AI》就成功的設計了一個AI智能體基礎架構MINDAGENT。應用這一架構,在一個叫CUISINEWORLD的遊戲中讓多個智能體協作完成任務,挑戰AI智能體之間的協作能力的可能極限。

從這篇論文的結論上來看,AI協作的水準已經達到了讓人類無從插手的水準。AI智能體的拼圖正在被以肉眼可見的速度補齊。

30行提示,建起一支AI廚師團

練AI,先搭個智能體遊樂場

要想訓練AI,先要找到場地。

VOYAGER找到了《我的世界》,是因為它相對代碼簡單,容易接入。

而MINDAGENT找到了《分手廚房》,一個讓人類玩家都手忙腳亂的合作遊戲,一座能讓戀人在一盤遊戲後成仇的修羅場。對于測試合作能力來說堪稱完美。

但《分手廚房》整體複雜度太高,有很多其實不太必要的環節。研究團隊決定卡掉其中一部分操作,隻保留了取食材,烹饪和上菜三項核心操作、10種類型的位置(餐桌、儲藏室和8種不同的烹饪工具)、27種類型的食材和33種獨特的菜肴形成一個新的遊戲場景CUISINEWORLD。

李飛飛新論文:30行提示,建一個AI智能體炊事班

研究目的,就不要在意畫面了...

在這個遊戲中,難度會随着菜肴需要的食材數量和涉及烹饪的工具數量直線上升(比如做三文魚刺身隻需要切一下就行,但要做意大利面就需要切菜,做醬,煮面)。研究團隊根據這一複雜度設計了12個遊戲級别,從入門、簡單、中級到進階,來給MINDAGENT逐漸上難度。

李飛飛新論文:30行提示,建一個AI智能體炊事班

十一級難度的做菜步驟看着腦袋就疼

在這個場景下,評價智能體的合作水準非常簡單:在有限的時間内準備盡可能多的菜肴。為了促進合作,新訂單将不斷湧入,而現有訂單應在到期前完成。是以,LLM需要适當地協調這些智能體,以最大限度地提高整體生産力。

純粹,可擴充,包含幾乎一切合作性AI和智能體AI能力測試項目:Cuisine World 可以說是目前智能體最優測試環境了。

李飛飛新論文:30行提示,建一個AI智能體炊事班

相對于之前的AI測試環境,CuisineWorld可以覆寫所有的測試點

MINDAGENT:最簡單的結構,最高的享受

有了場地和教育訓練标準,主角就出場了。作為協調人的LLM的互動式多智能體規劃架構:MINDAGENT。

它包含了幾個核心能力:計劃和應用工具,行為,協調中樞和記憶區塊。除了協調中樞之外,其他部分和VOYAGER的邏輯非常相似。

李飛飛新論文:30行提示,建一個AI智能體炊事班

整個MINDAGENT的基礎設施非常極簡,除了作為核心的LLM以外,隻多了三個元件,記憶體曆史記錄(很多也有)、用以回報目前環境的環境快照系統以及動作協調系統。

● 環境資訊元件:提供了環境中主要觀測結果的快照。它包括智能體的位置、智能體目前擁有的物品、環境中可通路的工具、每個工具中存在的成分以及正在積極使用的工具等資訊。此外,它還包括來自環境的可選回報,當代理的操作違反環境規則時觸發,例如,當将兩個不同的操作配置設定給同一智能體時。

● 記憶體曆史元件:歸檔與環境的互動曆史。具體來說,它記錄了環境的狀态和代理在每個時間步驟的狀态。

● 動作元件:a) 動作提取:采用正規表達式比對過程從LLM的文本輸出中提取代理動作。這個子產品是必不可少的,因為有時LLM的輸出是不幹淨的。b)行動驗證。使用前瞻性檢查機制。本子產品分析所提出的行動,評估其可行性。如果某個操作被認為不可執行,則會立即傳回錯誤消息。

提示詞包含四個部分,主要部分是規則和食譜,合起來就是個遊戲說明書。次要部分是一些幫助推理的基本提示以及一個非常簡單的單一流程示範。

● 食譜:概述在給定級别上準備各種菜肴的分級程式。它們規定了每種中間産品或最終産品的必要成分、所需的适當工具以及烹饪後的預期結果。

● 說明書:詳細介紹了CUISINEWORLD的基本規則。這些指令描述了智能體在遊戲中可以進行的一系列動作,并列舉了目前廚房場景中可用的每個工具的特征。此外,他們會告知智能體可從倉庫中提取的基本食材,以及他們可以生産的所有潛在中間産品。

● 推理知識:為智能體提供見解和有用的提示。如果使用得當,這些提示可以引導智能體避開潛在的錯誤,提高協作效率。

● 一次性示範:介紹了一道不同于目前水準的其他菜肴的獨特菜肴的準備過程。此示範跨越了幾個時間步驟,每個時間步驟都作為提示的一部分。該示範展示了在CUISINEWORLD烹饪一道菜的主要程式,包括擷取食材、将食材放入不同的烹饪工具中、運輸未完成的食材到新的烹饪工具中,以及将菜送到餐桌。

李飛飛新論文:30行提示,建一個AI智能體炊事班

具體提示就是這些

做完基礎準備之後,實驗組将目标函數,即在固定時間内最大化的産出收益(完成菜肴制作)的函數,盡可能用多組自然語言進行提示。然後整個系統就可以開始運作了。

結果1:智能體間協作能力一流

在實際遊戲的過程中,多智能體的協作效果相當不錯,在給定相對中等的任務時限情況下,3個智能體協作的成功率可以達到超過一半以上(想想那個可怕的菜單流程)。

李飛飛新論文:30行提示,建一個AI智能體炊事班

另一個資料表現是:智能體數量越多,結果一般越好。隻有協作而非添亂才能人多力量大,是以這一資料很好地證明了多智能體之間的協作是有效的。實驗人員還觀察到,在要求較低的條件下,随着智能體數量的增加,系統性能會下降。這其實也可以了解,在沒有那麼多工作需要做的時候,更多的智能體隻會帶來備援錯誤。不過這也在一定程度上說明目前LLM的規劃能力在面對備援情況,存在一定能力缺陷。

結果2:人和智能體也可以協作

智能體之間的協作,那把人類這個相對不确定的因素加進來,AI智能體在不進行更多的提示情況下是否可以做到人機協作呢?完全沒問題。加入了智能體的玩家團隊比單獨工作的玩家獲得了更高的成功率。

但既然這個遊戲一開始就設計成了合作遊戲,肯定是人越多成功率越高,隻有數學上的成功性提高似乎很難完全證明智能體的合作。是以實驗組添加了一個随機行為的智能體作對照組,最終這個沒有協作能力的智能體反而拉低了表現分數。

為了進一步證明這種合作的有效性,研究小組還設計了一個問卷來調研參與的人類玩家感受。結果他們确實感覺到效率有提升,甚至還顯著感受到了更多的遊戲樂趣。

李飛飛新論文:30行提示,建一個AI智能體炊事班

另外一個有趣的現象是,更多的智能體(3個)參與遊戲提高了整體任務成功率,但卻降低了玩家感受到的遊戲樂趣。這是因為他們合作得太好了,玩家反而不知道該幹什麼了。

到此為止,單純基于現有LLM的智能體之間和人機的協作能力都得到了證明。

結果3. MINDAGENT還有湧現能力

在整個過程中MINDAGENT還表現出了一些自我學習的湧現能力。

比如減少對MINDAGENT的提示,比如取消推理能力提示或者進行跳步任務展示(提供部分示範或僅執行兩個步驟的任務示範),MINDAGENT都顯示出了很強地适應和學習能力,都很好地完成了任務,并沒有明顯的能力下滑。

通過觀察曆史記錄和行為模式變化還能發現,MINDAGENT會通過在多個不同任務出現時,利用動态排列優先級更好地完成任務(就是先做這個菜還是那個菜),規劃能力相當出色。

最厲害的是MINDAGENT似乎能有舉一反三的能力。它可以在隻看到涉及兩個智能體合作的示範後,有效地排程四個智能體。

李飛飛新論文:30行提示,建一個AI智能體炊事班

結果4. 合作能力泛用性

如果說MINDAGNET隻能在Cuise World這個相對規範化的環境中實作合作的話,那它的能力範圍就太受限了。為了證明其泛用性,研究人員把這個架構遷移到了《我的世界》裡,讓他們在那裡面做飯。結果小人們殺雞宰豬一如在Cuisine World一樣順暢地做出了各種燒烤。由此可見,MINDAGENT這個架構是個多面手,足以應用到各種需要合作性AI智能體的場合。

李飛飛新論文:30行提示,建一個AI智能體炊事班

遊戲的未來和AI的未來,交織在一起

從年初開始,能對話的AI NPC就從《逆水寒》火到了《上古卷軸:天際》,但這不過是AI進入遊戲領域的第一步。簡單地把AI對話生成功能接入遊戲,離着能和你進行其他互動(比如協作),能有自己的生活和社交,完全類人的NPC還得靠AI智能體才能實作。

而且從AI智能體的角度看,業内普遍認為最先會有産品落地的場景就是遊戲。

這一是因為遊戲資料可以加速獲得,對于訓練AI來講遠比從現實環境中學習快得多。二是因為遊戲本身的環境因素相對受限,任務也相對簡單直接,比起現實中的複雜任務對AI來說更好規劃和實作。三,就是真讓AI給你做規劃當醫生律師,在AI幻覺沒解決的情況下,出了事情誰來負責?但遊戲裡的BUG大家就見得多了,大多數玩家都是一笑而過。

是以在遊戲場域實驗AI智能體就成了當下的AI智能體研究主流邏輯。經過這将近半年的努力,我們已經看到AI智能體在形成人格,使用工具,乃至合作方面已經能夠達到足夠類人的程度了。

當下限制AI改變遊戲的可能就隻差上下文輸入的字數限制和API接入帶來的成本壓力了。而當AI智能體從遊戲實驗中誕生,又回到遊戲中向世人亮相之時,AI的下一個階段就會到來。

繼續閱讀