内容一覽：強化學習是多學科領域的交叉産物，其本質是實作自動決策且可做連續決策。本文将介紹 DeepMind 最新研發成果：擴大強化學習應用範圍的通用算法 DreamerV3。關鍵詞：強化學習 DeepMind 通用算法

中原標準時間 1 月 12 日，DeepMind 官方推特發文，正式官宣 DreamerV3，這是首個能在遊戲「我的世界」(Minecraft) 中不參考人類資料，就能從頭開始收集鑽石的通用算法，解決了 AI 領域中的又一重要挑戰。

DeepMind 釋出強化學習通用算法 DreamerV3，AI 成精自學撿鑽石

DeepMind 在推特官宣 DreamerV3

強化學習擴充成問題，發展還需通用算法

強化學習使得計算機可以通過互動解決某一任務，如 AlphaGo 在圍棋比賽中戰勝人類，OpenAI Five 在 Dota 2 中戰勝業餘人類玩家。

OpenAI Five 在比賽中戰勝人類玩家研發團隊與人類玩家合照

然而，要想将算法應用于新的應用場景，如從棋盤遊戲轉到視訊遊戲或機器人任務，就需要工程師不斷開發專門的算法 (specialized algorithms)，如連續控制、稀疏獎勵、圖像輸入以及 spatial environments 等。

這要求大量的專業知識和計算資源來微調算法，極大阻礙了模型的擴充。建立無需調優就能學習掌握新 domain 的通用算法，成為擴大強化學習應用範圍、解決決策問題的重要途徑。

由此，由 DeepMind 和多倫多大學聯合研發的 DreamerV3 應運而生。

DreamerV3：基于世界模型的通用算法

DreamerV3 是一種基于世界模型 (World Model) 的通用和可擴充的算法，能在固定超參數的前提下，應用于廣泛域 (domain)，比專門的算法更出色。

這些 domain 包括連續動作 (continuous action) 和離散動作 (discrete action)，視覺輸入和低維輸入，2D 世界和 3D 世界，不同的資料預算、獎勵頻率和獎勵尺度等。

DreamerV3 通用算法與專門算法性能對比

DreamerV3 由 3 個從回放經驗 (replayed experience) 中同時訓練，且不共享梯度的神經網絡組成：

1、world model：預測潛在動作的未來結果

2、critic：判斷每種情況的 value

3、actor：學習如何使有價值的情況成為可能

DreamerV3 的訓練過程

如上圖所示，world model 将 sensory input 編碼為一個離散表征 zt。zt 由一個具備 recurrent state ht 的序列模型預測得出，并給出動作 at。input 被重構為學習信号 (learning signal) 進而 shape 表征。

actor 和 critic 從 world model 預測的抽象表征 trajectory 中學習。

為了更好地适應跨域任務，這些元件需要适應不同的信号強度 (signal magnitudes)，并在其目标中穩健地平衡 terms。

工程師在超過 150 個固定參數的任務上對 DreamerV3 進行了測試，并與文獻中記載的最佳方法進行比較，實驗表明，DreamerV3 對于不同 domain 的任務，均具備較高通用性和可擴充性。

基準概覽所有 agent 都是在 NVIDIA V100 GPU 上訓練

DreamerV3 在 7 個基準測試中都取得了優異成績，并在 state 和 image 的 continuous control、BSuite 和 Crafter 上都建立了新的 SOTA 水準。

然而 DreamerV3 仍然具備一定的局限性，例如當 environment steps 在 1 億以内時，算法并不能像人類玩家一樣，在所有場景中都撿到鑽石，而是偶爾撿到。

站在巨人的肩膀上，回顧Dreamer家族發展史

一代目：Dreamer

釋出時間：2019 年 12 月

參與機構：多倫多大學、DeepMind、Google Brain

論文位址：https://arxiv.org/pdf/1912.01603.pdf

算法簡介：

Dreamer 是一個強化學習 agent，可以僅通過 latent imagination 從圖像中解決 long-horizon 任務。

它基于模型預測的反向傳播，來利用 world model 實作高效的行為學習。在 20 個極具挑戰性的視覺控制任務中，Dreamer 在資料效率、計算時間和最終性能方面均超過了當時的主流方法。

Dreamer 與當時主流方法的性能比較

Dreamer 繼承了 PlaNet 的資料效率，同時超過了當時最好的 model-free agent 的漸近性能 (asymptotic performance)。5×106 個 environment step 後，Dreamer 在各個任務中的平均性能達到了 823，而 PlaNet 僅為 332，最高的 model-free D4PG agent 在 108 步之後為 786。

二代目：DreamerV2

釋出時間：2020 年 10 月

參與機構：Google Research、DeepMind、多倫多大學

論文位址：https://arxiv.org/pdf/2010.02193.pdf

算法簡介：

DreamerV2 是一個強化學習 agent，可以從 world model 緊湊隐空間 (compact latent space) 的預測中學習行為。

注：該 world model 使用離散表征，并且與政策分開訓練。

DreamerV2 是第一個通過在單獨訓練的 world model 中學習行為，在 Atari 基準的 55 項任務中達到人類水準的 agent。在相同的計算預算和 wall-clock time 情況下，DreamerV2 達到了 2 億幀，超過了頂級 single-GPU agents IQN 及 Rainbow 的最終性能。

此外，DreamerV2 也适用于有連續動作的任務，它學習了一個複雜的類人型機器人的 world model，隻通過像素輸入就解決了站立和行走問題。

玩家在 Atari 基準 55 個遊戲的正則化中位數得分

推特網友評論區帶頭玩梗

對于 DreamerV3 的誕生，不少網友也在 DeepMind 推特留言區抖起了機靈。

解放人類，再也不用玩「我的世界」了。

别光顧着玩遊戲了，幹點正事兒吧！@DeepMind 和 CEO Demis Hassabis

「我的世界」終極 BOSS 末影龍瑟瑟發抖中。

近年來，遊戲「我的世界」已成為強化學習研究的一個焦點，圍繞在「我的世界」中進行鑽石收集的國際競賽已經舉辦多次。

在沒有人類資料的情況下解決這一挑戰，被廣泛認為是人工智能的一個裡程碑，因為在這個程式生成的開放世界環境 (open-world environment) 中，獎勵稀少、探索困難、時間跨度長，這些障礙的存在使得先前的方法都需要基于人類資料或教程。

DreamerV3 是第一個從 0 開始在「我的世界」中完全自學收集鑽石的算法，它使得強化學習的應用範圍進一步擴大，正如網友們所說，DreamerV3 已經是個成熟的通用算法了，該學會自己挂機更新打怪，跟終極 BOSS 末影龍對線了！

關注 HyperAI超神經，了解更多有趣的 AI 算法、應用；還有定期更新教程，一起學習進步

往期精彩内容：

90 後學霸博士 8 年進擊戰，用機器學習為化學工程研究疊 BUFF

以 Animated Drawings APP 為例，用 TorchServe 進行模型調優

2022 年度盤點 | 更成熟的 AI，更破圈的技術狂歡

DeepMind 釋出強化學習通用算法 DreamerV3，AI 成精自學撿鑽石

強化學習擴充成問題，發展還需通用算法

DreamerV3：基于世界模型的通用算法

站在巨人的肩膀上，回顧Dreamer家族發展史

一代目：Dreamer

二代目：DreamerV2

推特網友評論區帶頭玩梗

繼續閱讀

THE WISDOM OF THE CROWD: RELIABLE DEEP REINFORCEMENT LEARNING THROUGH ENSEMBLES OF Q--FUNCTIONS

THE BODY IS NOT A GIVEN: JOINT AGENT POLICY LEARNING AND MORPHOLOGY EVOLUTION

Temporal Difference Variational Auto-Encoder文章動機：

TARMAC: TARGETED MULTI-AGENT COMMUNICATION（TARMAC：目标多代理通信）

今天來給大家介紹一下基于強化學習的時間行為檢測自适應模型

利用DQN解決Gym庫的CartPole問題

作業系統筆記（一）計算機系統概述一、作業系統的基本概念二、作業系統的發展與分類三、作業系統的運作環境和體系結構四、異常和中斷五、系統調用

AlphaGo Zero是如何工作的？——AlphaGo Zero背後的強化學習算法原理

考證大全 | 證券從業資格考試

敲黑闆！2021年證券從業考試考點預測

2021年銀行從業考試考情介紹,果斷收藏!

證券從業合格證書什麼時候列印？有哪些注意事項？

【幹貨滿滿】初級銀行從業考試《個人理财》重點梳理

2020年經濟師考試，難嗎？

MBA提前面試純幹貨分享

MBA值得學麼