天天看點

清華商湯最新AI,征服了《我的世界》

作者:量子位

西風 發自 凹非寺

量子位 | 公衆号 QbitAI

繼GPT-4驚豔《我的世界》後,國産AI智能體也來了——

像人一樣生存、探索和創作,并且通關了整個遊戲!

清華商湯最新AI,征服了《我的世界》

從生存模式白手起家,不僅可以拿到主世界的所有物品、挖鑽石,還能制作附魔書!

面對各類地形、環境、白天黑夜場景都能hold住,甚至遇到怪物也能自如應對。

清華商湯最新AI,征服了《我的世界》

不賣關子,全都是這個小東西幹的,它的名字叫Ghost in the Minecraft(GITM)。

清華商湯最新AI,征服了《我的世界》

由商湯科技聯合清華大學、上海人工智能實驗室等機構研究者們共同開發。

和以往的智能體相比,GITM的特點可以用兩個字來形容:更強。

  • 能完成更多的任務:

在主世界的所有技術挑戰上實作了100%的任務覆寫率。

  • 更高的任務成功率:

在“擷取鑽石”任務上,也可以達到67.5%的高成功率。

清華商湯最新AI,征服了《我的世界》

看到這,你肯定會問:這麼強,訓練要花很長時間吧?

漏!單一CPU節點隻需要訓練兩天!

打破AI發展限制

在AI發展程序中有一個非常有趣卻有違常識的現象:

一些對人類而言相對困難的任務,例如下棋,對AI來說卻相對容易實作;而在開放世界中與環境互動、進行規劃和決策等對人類來說較簡單的事,AI卻面臨巨大挑戰。

這就是莫拉維克悖論。

不過,這個通才AI智能體GITM,據說已經成功打破了這一悖論限制:

它可以在複雜且類似于現實世界的環境中取得突破,能夠像人類一樣生存,探索和創造。

先來看一下它的具體表現怎麼樣:

在《我的世界》中,GITM在主世界的所有技術挑戰上實作了100%的任務覆寫率,也就是成功解鎖了完整的科技樹的262個物品。

而此前所有智能體的總和隻能覆寫30%。(以往所有智能體方法包括OpenAI和DeepMind在内總共隻解鎖了78個)

清華商湯最新AI,征服了《我的世界》

△紅色代表其它代理也解鎖了的物品,綠色代表隻有GITM解鎖的物品

清華商湯最新AI,征服了《我的世界》

在最受關注的“擷取鑽石”任務上,GITM取得了67.5%的成功率,相比于目前最佳成績(OpenAI VPT)提高了47.5%。

清華商湯最新AI,征服了《我的世界》

然鵝,重點來了。

在訓練效率上,GITM也達到了新高度。環境互動步數隻需已有方法的萬分之一,單一CPU節點訓練兩天即可完成。

遠遠低于之前OpenAI VPT所需的6480個GPU天或DeepMind DreamerV3所需的17個GPU天。

清華商湯最新AI,征服了《我的世界》

不僅如此,GITM還可以進一步應用在《我的世界》更加複雜的任務中,比如生存所需的避難所、農田、鐵傀儡,創造自動化裝置所需的紅石電路、進入下界所需的下界傳送門等。

清華商湯最新AI,征服了《我的世界》

GITM強大的能力和可擴充性的背後是大語言模型(LLM)的加持。

GITM的心髒:大語言模型

之前基于強化學習的代理程式所面臨的最大困境在于:

如何将一個極長時域和複雜目标映射成一系列鍵盤、滑鼠操作。

為了解決這個問題,GITM的開發者采用了基于大語言模型(LLM)的代理程式。

清華商湯最新AI,征服了《我的世界》

與強化學習代理程式直接映射不同,他們基于LLM的代理程式采用了一種分層的方法:

首先将分解目标拆分為子目标,然後進一步拆分為結構化的操作,最後再拆分為鍵盤、滑鼠操作。

清華商湯最新AI,征服了《我的世界》

具體來說,基于LLM的代理程式包括LLM分解器、LLM規劃器和LLM界面,它們分别負責對子目标、結構化操作和鍵盤/滑鼠操作進行分解:

1)LLM分解器首先根據從網際網路收集到的基于文本的知識,将目标分解為一系列明确定義的子目标。

2)然後,LLM規劃器為每個子目标規劃一系列結構化操作。LLM規劃器還會将成功的動作清單,記錄并總結到基于文本的記憶中,來增強規劃能力。

3)LLM界面通過處理原始的鍵盤/滑鼠輸入和接收原始的觀察結果,執行結構化操作與環境進行互動。

清華商湯最新AI,征服了《我的世界》

此前,商湯基于監督學習和強化學習就煉成了可以在《星際争霸2》中,對挑頂級水準玩家的DI-star。

而訓練一個DI-star,就用了“16萬場錄像”和“1億局對戰”。

而這次,有了大語言模型的加持,事情又變得有意思了捏。

項目位址:https://github.com/OpenGVLab/GITM

— 完 —

量子位 QbitAI · 頭條号簽約

關注我們,第一時間獲知前沿科技動态

繼續閱讀