内容一覽:強化學習是多學科領域的交叉産物,其本質是實作自動決策且可做連續決策。本文将介紹 DeepMind 最新研發成果:擴大強化學習應用範圍的通用算法 DreamerV3。 關鍵詞:強化學習 DeepMind 通用算法
中原標準時間 1 月 12 日,DeepMind 官方推特發文,正式官宣 DreamerV3,這是首個能在遊戲「我的世界」(Minecraft) 中不參考人類資料,就能從頭開始收集鑽石的通用算法,解決了 AI 領域中的又一重要挑戰。
DeepMind 在推特官宣 DreamerV3
強化學習擴充成問題,發展還需通用算法
強化學習使得計算機可以通過互動解決某一任務,如 AlphaGo 在圍棋比賽中戰勝人類,OpenAI Five 在 Dota 2 中戰勝業餘人類玩家。
OpenAI Five 在比賽中戰勝人類玩家研發團隊與人類玩家合照
然而,要想将算法應用于新的應用場景,如從棋盤遊戲轉到視訊遊戲或機器人任務,就需要工程師不斷開發專門的算法 (specialized algorithms),如連續控制、稀疏獎勵、圖像輸入以及 spatial environments 等。
這要求大量的專業知識和計算資源來微調算法,極大阻礙了模型的擴充。建立無需調優就能學習掌握新 domain 的通用算法,成為擴大強化學習應用範圍、解決決策問題的重要途徑。
由此,由 DeepMind 和多倫多大學聯合研發的 DreamerV3 應運而生。
DreamerV3:基于世界模型的通用算法
DreamerV3 是一種基于世界模型 (World Model) 的通用和可擴充的算法,能在固定超參數的前提下,應用于廣泛域 (domain),比專門的算法更出色。
這些 domain 包括連續動作 (continuous action) 和離散動作 (discrete action),視覺輸入和低維輸入,2D 世界和 3D 世界,不同的資料預算、獎勵頻率和獎勵尺度等。
DreamerV3 通用算法與專門算法性能對比
DreamerV3 由 3 個從回放經驗 (replayed experience) 中同時訓練,且不共享梯度的神經網絡組成:
1、world model:預測潛在動作的未來結果
2、critic:判斷每種情況的 value
3、actor:學習如何使有價值的情況成為可能
DreamerV3 的訓練過程
如上圖所示,world model 将 sensory input 編碼為一個離散表征 zt。zt 由一個具備 recurrent state ht 的序列模型預測得出,并給出動作 at。input 被重構為學習信号 (learning signal) 進而 shape 表征。
actor 和 critic 從 world model 預測的抽象表征 trajectory 中學習。
為了更好地适應跨域任務,這些元件需要适應不同的信号強度 (signal magnitudes),并在其目标中穩健地平衡 terms。
工程師在超過 150 個固定參數的任務上對 DreamerV3 進行了測試,并與文獻中記載的最佳方法進行比較,實驗表明,DreamerV3 對于不同 domain 的任務,均具備較高通用性和可擴充性。
基準概覽所有 agent 都是在 NVIDIA V100 GPU 上訓練
DreamerV3 在 7 個基準測試中都取得了優異成績,并在 state 和 image 的 continuous control、BSuite 和 Crafter 上都建立了新的 SOTA 水準。
然而 DreamerV3 仍然具備一定的局限性,例如當 environment steps 在 1 億以内時,算法并不能像人類玩家一樣,在所有場景中都撿到鑽石,而是偶爾撿到。
站在巨人的肩膀上,回顧Dreamer家族發展史
一代目:Dreamer
釋出時間:2019 年 12 月
參與機構:多倫多大學、DeepMind、Google Brain
論文位址:https://arxiv.org/pdf/1912.01603.pdf
算法簡介:
Dreamer 是一個強化學習 agent,可以僅通過 latent imagination 從圖像中解決 long-horizon 任務。
它基于模型預測的反向傳播,來利用 world model 實作高效的行為學習。在 20 個極具挑戰性的視覺控制任務中,Dreamer 在資料效率、計算時間和最終性能方面均超過了當時的主流方法。
Dreamer 與當時主流方法的性能比較
Dreamer 繼承了 PlaNet 的資料效率,同時超過了當時最好的 model-free agent 的漸近性能 (asymptotic performance)。5×106 個 environment step 後,Dreamer 在各個任務中的平均性能達到了 823,而 PlaNet 僅為 332,最高的 model-free D4PG agent 在 108 步之後為 786。
二代目:DreamerV2
釋出時間:2020 年 10 月
參與機構:Google Research、DeepMind、多倫多大學
論文位址:https://arxiv.org/pdf/2010.02193.pdf
算法簡介:
DreamerV2 是一個強化學習 agent,可以從 world model 緊湊隐空間 (compact latent space) 的預測中學習行為。
注:該 world model 使用離散表征,并且與政策分開訓練。
DreamerV2 是第一個通過在單獨訓練的 world model 中學習行為,在 Atari 基準的 55 項任務中達到人類水準的 agent。在相同的計算預算和 wall-clock time 情況下,DreamerV2 達到了 2 億幀,超過了頂級 single-GPU agents IQN 及 Rainbow 的最終性能。
此外,DreamerV2 也适用于有連續動作的任務,它學習了一個複雜的類人型機器人的 world model,隻通過像素輸入就解決了站立和行走問題。
玩家在 Atari 基準 55 個遊戲的正則化中位數得分
推特網友評論區帶頭玩梗
對于 DreamerV3 的誕生,不少網友也在 DeepMind 推特留言區抖起了機靈。
解放人類,再也不用玩「我的世界」了。
别光顧着玩遊戲了,幹點正事兒吧!@DeepMind 和 CEO Demis Hassabis
「我的世界」終極 BOSS 末影龍瑟瑟發抖中。
近年來,遊戲「我的世界」已成為強化學習研究的一個焦點,圍繞在「我的世界」中進行鑽石收集的國際競賽已經舉辦多次。
在沒有人類資料的情況下解決這一挑戰,被廣泛認為是人工智能的一個裡程碑,因為在這個程式生成的開放世界環境 (open-world environment) 中,獎勵稀少、探索困難、時間跨度長,這些障礙的存在使得先前的方法都需要基于人類資料或教程。
DreamerV3 是第一個從 0 開始在「我的世界」中完全自學收集鑽石的算法,它使得強化學習的應用範圍進一步擴大,正如網友們所說,DreamerV3 已經是個成熟的通用算法了,該學會自己挂機更新打怪,跟終極 BOSS 末影龍對線了!
關注 HyperAI超神經,了解更多有趣的 AI 算法、應用;還有定期更新教程,一起學習進步
往期精彩内容:
90 後學霸博士 8 年進擊戰,用機器學習為化學工程研究疊 BUFF
以 Animated Drawings APP 為例,用 TorchServe 進行模型調優
2022 年度盤點 | 更成熟的 AI,更破圈的技術狂歡