搞強化學習還不了解AutoRL，牛津大學、谷歌等十餘位學者撰文綜述

機器之心報道

編輯：小舟、陳萍

來自牛津大學、弗萊堡大學、谷歌研究院等機構的十餘位研究者撰文綜述 AutoRL。

強化學習 (RL) 與深度學習的結合帶來了一系列令人印象深刻的成果，許多人認為（深度）強化學習提供了通向通用智能體的途徑。然而，RL 智能體的成功通常對訓練過程中的設計選擇高度敏感，可能需要繁瑣且容易出錯的手動調整。這使得将 RL 用于新問題具有挑戰性，同時也限制了 RL 的全部潛力。

在機器學習的許多其他領域，AutoML 已經表明可以自動化此類設計選擇，并且在應用于 RL 時也産生了有希望的初步結果。然而，自動強化學習 (AutoRL) 不僅涉及 AutoML 的标準應用，還包括 RL 獨有的額外挑戰，這使得研究者自然而然地産生了一些不同的方法。

AutoRL 已成為 RL 研究的一個重要領域，為從 RNA 設計到圍棋等遊戲的各種應用提供了希望。由于 RL 中考慮的方法和環境具有多樣性，是以許多研究都是在不同的子領域進行的。來自牛津大學、弗萊堡大學、谷歌研究院等機構的十餘位研究者撰文試圖統一 AutoRL 領域，并提供了通用分類法，該研究詳細讨論了每個領域并提出未來研究人員可能感興趣的問題。

論文位址：https://arxiv.org/pdf/2201.03916.pdf

AutoRL 方法

強化學習理論上可以用于任何任務，包括世界模型未知的環境。然而，這種通用性也是有代價的，其最大的缺點就是智能體往往不能獲得環境的真實模型。如果智能體想在一個場景下使用模型，那它必須完全從經驗中學習，這會帶來很多挑戰。智能體探索出來的模型和真實模型之間存在誤差，而這種誤差會導緻智能體在學習到的模型中表現很好，但在真實的環境中表現得不好（甚至很差）。

該研究調查的目的是介紹 AutoRL 領域，AutoRL 可以應對各種挑戰：一方面，RL 算法的脆弱性阻礙了其在新領域的應用，尤其是那些從業者缺乏大量資源來搜尋最佳配置的領域。在許多情況下，對于完全不可見的問題，手動找到一組中等強度的超參數可能會非常昂貴。AutoRL 已被證明可以在這種情況下幫助解決重要問題，例如設計 RNA。另一方面，對于那些受益于更多計算的人來說，顯然增加算法的靈活性可以提高性能。著名的 AlphaGo 智能體已經展示了這一點，該智能體通過使用貝葉斯優化得到了顯着改進。

早在 1980 年代，AutoRL 算法就被證明是有效的。然而，最近 AutoML 的流行導緻了更先進技術的新生應用。與此同時，最近元學習的流行導緻了一系列旨在自動化 RL 過程的工作。

該論文試圖提供這些方法的分類，他們希望通過思想的交叉融合來開辟一系列未來的工作，同時也向 RL 研究人員介紹一套技術來提高他們的算法性能。該研究相信 AutoRL 在提高強化學習潛在影響方面發揮着重要作用，無論是在開放式研究和還是在現實應用中。

此外，該研究希望将對 AutoML 感興趣的研究人員吸引到 AutoRL 社群，特别地，RL 具有非平穩性（non-stationarity），因為智能體正在訓練的資料是目前政策的函數。此外，該研究還介紹了 AutoRL 針對特定 RL 問題的環境和算法設計。

該研究調查了 AutoRL 社群以及技術等内容。一般來說，AutoRL 方法大多數都可以通過組合内部循環和外部循環組織起來。每個循環都可以通過黑箱或基于梯度的方法進行優化，然而外部循環的梯度和内部循環的黑箱不能組合在一起，因為内部循環黑箱設定将使梯度不可用，如表 2 和圖 2 所示：

如下表 3 所示，該研究按照大類總結了 AutoRL 方法的分類，方法分類将展現在第四章的每一小節

随機 / 網格搜尋驅動方法

該研究首先讨論了最簡單的方法：随機搜尋和網格搜尋。随機搜尋從搜尋空間中随機采樣超參數配置，而網格搜尋将搜尋空間劃分為固定的網格點，并對其進行評估。由于其簡單性，随機搜尋和網格搜尋可用于選擇超參數清單，評估超參數并選擇最佳配置。事實上，網格搜尋仍然是 RL 中最常用的方法，網格搜尋在絕大多數情況下都會調整超參數，但不應将其視為最有效的方法。但是這些經典方法沒有考慮優化問題的潛在非平穩性，下圖 3 描述了這個問題：

提高随機搜尋性能的一種常見方法是使用 Hyperband，這是一種用于超參數優化的配置評估。它專注于通過自适應資源配置設定和早停（early-stopping）來加速随機搜尋。特别的，Hyperband 使用「Successive Halving」将預算配置設定給一組超參數配置。Zhang 等人使用随機搜尋和 Hyperband 來調整其 MBRL 算法的超參數。

貝葉斯優化

貝葉斯優化（Bayesian Optimization ，BO）是迄今為止最流行的方法之一，主要用于工業應用和各種科學實驗。對于 RL 應用程式，BO 最突出的用途之一是調整 AlphaGo 超參數，其中包括蒙特卡洛樹搜尋 (MCTS) 超參數和時間控制設定。這導緻 AlphaGo 在自我對弈中的勝率從 50% 提高到 66.5%。圖 4 展示了 RL 案例中貝葉斯優化的一般概念：

演化算法

演化算法被廣泛應用于各種優化任務，其機制如圖 5 所示：

演化算法經常被用于搜尋 RL 算法的超參數。Eriksson 等人使用實數遺傳算法 (GA)，通過種群中每個個體的基因編碼 RL 算法的超參數，以調整 SARSA 超參數，研究者将該方法應用于控制移動機器人。Cardenoso Fernandez 和 Caarls 使用 GA 在簡單設定中調整 RL 算法的超參數，并通過結合自動重新開機政策以擺脫局部最小值，取得了良好的性能。Ashraf 等人使用 Whale 優化算法（WOA），其靈感來自座頭鲸的狩獵政策，在各種 RL 任務中優化 DDPG 超參數以提高性能。

用于線上調優的元梯度

元梯度提供了一種替代方法來處理 RL 超參數的非平穩性。元梯度公式的靈感來自元學習方法，例如 MAML，它使用梯度優化了内部和外部循環。特别是，元梯度方法将其（可微分）超參數的子集指定為元參數 η。在内部循環中，智能體使用固定的 η 進行優化，采用梯度 step 來最小化（通常是固定的）損失函數。在外部循環中，通過采取梯度 step 來優化 η，以最小化外部損失函數。内部和外部損失函數的每個特定選擇都定義了一個新的元梯度算法。

黑盒線上調優

PBT 和元梯度的優勢在于動态調整超參數的能力，然而，這并不是唯一的方法。事實上，研究者已經考慮了各種其他方法，從黑盒方法到線上學習啟發方法。本節重點介紹在超參數不是可微的設定中動态适應的單智能體方法。

自适應選擇超參數的方法自 20 世紀 90 年代以來一直很重要。Sutton 和 Singh (1994) 提出了 TD 算法中自适應權重方案的三種替代方法，Kearns 和 Singh (2000) 推導出時序差分算法誤差上限，并使用這些邊界推導出 λ 的時間表。Downey 和 Sanner (2010) 使用貝葉斯模型平均來為 TD 方法選擇 λ bootstrapping 超參數。最近， White (2016) 提出了 λ-greedy 來适應 λ 作為狀态的函數，并實作近似最優的偏差 - 方差權衡，Paul 等人 (2019) 提出了 HOOF，它使用帶有非政策資料的随機搜尋來周期性地為政策梯度算法選擇新的超參數。

環境設計

環境設計是強化學習智能體自動學習的重要組成部分。從課程學習到合成環境學習和生成，到将課程學習與環境生成相結合，這裡的目标是加快機器學習智能體通過環境設計的學習速度。如圖 7 所示：

混合方法

不可避免的是，一些方法不屬于單一類别。事實上，許多方法都試圖利用不同方法的優勢，可稱之為混合方法。在該研究中，這些混合方法被定義為使用表 3 中不止一類技術的方法，例如 BOHB、DEHB 等。

搞強化學習還不了解AutoRL，牛津大學、谷歌等十餘位學者撰文綜述

繼續閱讀

裁員一萬轉身擁抱AI，Meta又要改名了

殺入GPT戰場，“兩翼齊飛”的360勝算有幾分？｜内測體驗

微軟谷歌要用AI重塑業務，馬斯克稱AI會摧毀人類……聊聊AI那點事兒

三星“背刺”谷歌

AI競争白熱化，谷歌再出大招！合并旗下DeepMind和谷歌大腦

合并DeepMind和Google Brain，谷歌迎來AI新時代

SpaceX“星艦”誕生和發射的背後，是馬斯克堅持了20年的太空夢

繼續迎戰微軟！谷歌生成式AI Bard可以程式設計和調試代碼錯誤了

在AI研發上一事無成，還一邊裁員一邊給自己發“紅包”？谷歌CEO去年狂賺近16億

谷歌CEO皮查伊：人工智能占了C位搜尋很重要但不再是核心業務

蘋果谷歌牽頭制定追蹤行業規範草案防止功能遭濫用

在巴西引發衆怒後，谷歌下架《奴隸模拟器》遊戲

皇後樂隊版權售價超10億美元，EXO成員與SM娛樂終止合同

七部門聯手！首個生成式AI監管檔案将實施，釋放了哪些信号？

一周3天待不住，亞馬遜CEO被逼放狠話：不回辦公室，就走人！

放下“完美主義”，這位平和女生如何用“蝸牛精神”，斬獲IB滿分、錄取牛津？