天天看點

商湯、清華通才智能體解鎖我的世界,像人類一樣生存,探索和創造

作者:機器之心Pro

機器之心釋出

機器之心編輯部

從圍棋的 AlphaGo 到星際争霸 II 的 AlphaStar,再到 Dota2 的 OpenAI Five,這些超級智能體研究在越來越拟真和開放的虛拟環境中取得了一個個巨大的突破,現在通才 AI 智能體"Ghost in the Minecraft"(GITM)已經能夠玩轉《我的世界》遊戲!

在全球最暢銷的遊戲《我的世界》Minecraft 中,我們可以看到生存、探索和創造等各種活動,無一不在緊密地模拟真實世界,《我的世界》好似一個縮小版的現實世界。包括 DeepMind、OpenAI 在内全球許多著名研究團隊,都投入到相關 AI 智能體研究中,希望在其中尋求對真實世界的解答。

來自商湯、清華大學、上海人工智能實驗室等機構的研究者們提出的能夠自主學習解決任務的通才 AI 智能體 Ghost in the Minecraft (GITM),不但能夠在《我的世界》中比以往所有智能體,都有更加優秀的表現,并大大減少訓練投入。由此該研究在向通用人工智能(AGI)方向邁出了重要一步。通用人工智能(AGI)研究的目标是發展智能體能夠在開放世界環境中像人一樣的進行感覺、了解、和互動。AGI 的研究可以為機器人和自動駕駛等産業帶來巨大的突破和進步,推動人工智能技術在産業落地方面取得更大發展。

該智能體能夠完全解鎖《我的世界》主世界的整體科技樹的 262 個物品(以往所有智能體方法包括 OpenAI 和 DeepMind 在内總共隻解鎖了 78 個)、在标準的 “擷取鑽石” 任務上将成功率大幅提升了 47.5%(從 OpenAI 提出的 VPT 方法的 20% 提升到 67.5%),而且僅需一個 CPU 節點兩天就能完成訓練,将與環境互動的所需的訓練步數減小到了之前方法的萬分之一,遠遠低于之前 OpenAI 提出的 VPT 方法所需的 6480 個 GPU 天或 DeepMind 提出的 DreamerV3 所需的 17 個 GPU 天。

商湯、清華通才智能體解鎖我的世界,像人類一樣生存,探索和創造

項目首頁:https://github.com/OpenGVLab/GITM

AI 也能應對開放世界,像人類一樣生存,探索和創造!

通才 AI 智能體 "Ghost in the Minecraft"(GITM)玩轉《我的世界》遊戲,生存模式白手起家,拿到主世界的所有物品,挖鑽石不在話下,還能制作附魔書!

商湯、清華通才智能體解鎖我的世界,像人類一樣生存,探索和創造

"Ghost in the Minecraft"(GITM)

視訊加載中...

成功制造附魔書 —— 主世界科技樹的最進階别産物

商湯、清華通才智能體解鎖我的世界,像人類一樣生存,探索和創造

GITM 面對各類地形、環境、白天黑夜場景,甚至遇到怪物也能自如應對

為什麼是《我的世界》

在目前的人工智能研究中,我們越來越追求打造擁有通才能力的 AI 智能體。這些智能體被寄予厚望,希望它們能夠掌握廣泛的技能,适應各種環境變化,更深入地模拟和應對人類在複雜問題上的能力。

在全球最暢銷的遊戲《我的世界》中,我們可以看到生存、探索和創造等各種活動,無一不在緊密地模拟真實世界。《我的世界》好似一個縮小版的現實世界。研究者們的目标是開發一種能夠在《我的世界》中攻克所有技術挑戰的 AI 智能體,進而邁向建構一個具備自主學習和掌握整個真實世界技能的通用人工智能的方向。

然而,《我的世界》中的 AI 智能體們卻面臨着一種有趣的莫拉維克悖論:

一些對于人類而言相對困難的任務,例如下棋,對 AI 來說相對容易;而在《我的世界》這樣的開放世界中與環境互動、進行規劃和決策等對人類來說較為簡單的事情,AI 卻面臨巨大挑戰。

GITM 成功打破了這一悖論的限制,在複雜且類似于現實世界的環境中取得了重大突破。這為推動 AI 技術的進步以及建構更通用的 AI 智能體提供了新的可能性。

GITM 有多強

廣泛的任務覆寫:GITM 在《我的世界》内主世界的所有技術挑戰上實作了 100% 的任務覆寫率(成功解鎖了完整的科技樹),而此前所有智能體的總和隻能覆寫 30%。

商湯、清華通才智能體解鎖我的世界,像人類一樣生存,探索和創造

高任務成功率:在最受關注的 “擷取鑽石” 任務上,GITM 取得了 67.5% 的成功率,相比于目前最佳成績(OpenAI VPT)提高了 + 47.5%。

商湯、清華通才智能體解鎖我的世界,像人類一樣生存,探索和創造

極高的訓練效率:令人驚喜的是,GITM 的訓練效率也達到了新的高度:環境互動步數隻需已有方法的萬分之一,單一 CPU 節點訓練 2 天即可完成,相比之前 OpenAI VPT 所需的 6480 個 GPU 天或 DeepMind DreamerV3 所需的 17 個 GPU 天,無疑是一個巨大的進步。

商湯、清華通才智能體解鎖我的世界,像人類一樣生存,探索和創造

GITM 是如何搭建的

傳統 RL 智能體的困難在于如何将極為複雜的任務映射到最底層的鍵盤滑鼠操作。

GITM 打破傳統以 RL 為基礎的架構,采用大型語言模型(LLM)作為智能體核心的新範式。

商湯、清華通才智能體解鎖我的世界,像人類一樣生存,探索和創造

GITM 主要由 LLM Decomposer、LLM Planner、LLM Interface 三個部分組成,逐漸将複雜任務分解為子任務、結構化動作、直到最底層的鍵盤滑鼠操作:

  • LLM Decomposer 利用外部知識,如網際網路上的遊戲知識庫,将複雜任務分解為簡單的子任務
  • LLM Planner 為每個子任務制規劃一系列的結構化動作,并根據回報資訊調整規劃,還能通過不斷總結成功經驗提升自己
  • LLM Interface 使用底層的鍵盤滑鼠操作執行結構化動作,并在與環境互動的過程中擷取觀察資訊
商湯、清華通才智能體解鎖我的世界,像人類一樣生存,探索和創造

GITM 的高階應用

商湯、清華通才智能體解鎖我的世界,像人類一樣生存,探索和創造

GITM 可以進一步應用在《我的世界》更加複雜的任務中,比如生存所需的避難所、農田、鐵傀儡,創造自動化裝置所需的紅石電路、進入下界所需的下界傳送門等。這些任務展示了 GITM 強大的能力和可擴充性,使得智能體能夠在《我的世界》中長時間生存、發展,探索更加進階的世界。

繼續閱讀