天天看點

可複現性?穩健性?Joelle Pineau無情揭示強化學習的問題

演講者簡介:

可複現性?穩健性?Joelle Pineau無情揭示強化學習的問題

 Joelle Pineau,圖源:

https://research.fb.com/why-diversity-matters-in-ai-research/
  • 加拿大麥吉爾大學副教授、William Dawson 學者,麥吉爾大學推理與學習實驗室聯合主任;
  • Facebook 蒙特利爾 FAIR 實驗室負責人;
  • 在滑鐵盧大學獲得學士學位,在卡内基梅隆大學獲得機器人學碩士與博士學位;
  • 緻力于開發在複雜、局部可觀察領域中規劃和學習的新模型和算法,還将這些算法應用于機器人學、醫療、遊戲及對話智能體中的複雜問題;
  • Journal of Artificial Intelligence Research、Journal of Machine Learning Research 雜志編委會成員,國際機器學習學會(International Machine Learning Society)主席;
  • 加拿大自然科學與工程研究理事會(NSERC)的 E.W.R. Steacie Memorial Fellowship(2018)、AAAI Fellow 及 CIFAR 進階 Fellow,2016 年被加拿大皇家學會評選為「College of New Scholars, Artists and Scientists」成員。

可複現性、可重用性及穩健性

演講一開始,Joelle Pineau 引用 Bollen 等人 2015 年向國家科學基金會送出的《Social, Behavioral, and Economic Sciences Perspectives on Robust and Reliable Science》解釋了三個名詞——可複現性、可重用性及穩健性(Reproducibility,Reusability,Robustness):

可複現性?穩健性?Joelle Pineau無情揭示強化學習的問題
  • 「可複現性指研究者重複過去某個研究的能力……」
  • 「可重用性:使用與原研究者相同的材料。」
  • 「可複現性是一項研究可信、資訊充分的最低必要條件。」

實際上,Joelle 不是第一個提出可複現性問題的研究者。2016 年,《Nature》發起了一項名為《Is there a reproducibility crisis in science?》的調查。

可複現性?穩健性?Joelle Pineau無情揭示強化學習的問題
可複現性?穩健性?Joelle Pineau無情揭示強化學習的問題

調查結果顯示,52% 的科學家認為存在重大的可複現性危機。在化工領域,超過 85% 的科學家在複現他人的實驗時遭遇過失敗,甚至複現自己實驗的失敗率也超過 60%。

強化學習(RL)

可複現性?穩健性?Joelle Pineau無情揭示強化學習的問題

之後,Jolle Pineau 簡短地介紹了強化學習的一些背景。在強化學習中,智能體通過采取行動并擷取獎勵來學習政策。強化學習是用于序列決策的通用架構,智能體可以通過試錯從稀疏回報中學習。大量問題可以通過這一簡潔架構得到更好的解決。

強化學習算法已經在圍棋和 LIBRTUS 等遊戲中取得了令人驚豔的結果。除了遊戲以外,強化學習技術還廣泛應用于機器人學、電子遊戲、

對話系統

、醫療幹預、算法改進、農作物管理、個性化輔導、能源交易、自動駕駛、假肢控制、森林火災管理、金融交易等諸多領域。

Joelle Pineau 教授還提到她在自适應神經刺激(Adaptive Neurostimulation)方面的研究。她的團隊利用 RL 架構,優化用于學習癫痫症的神經刺激裝置的超參數。他們遇到的挑戰是,這些在模拟環境中訓練的 RL 智能體究竟有多可靠以及如何将訓練好的模型從模拟環境遷移到現實世界場景。這也是她如此關注可複現性及穩健性問題的主要原因。

政策梯度方法

可複現性?穩健性?Joelle Pineau無情揭示強化學習的問題

從過去 25 年的強化學習論文直方圖可以看出,強化學習研究正處在一個快速增長的時期。2000 年大約有 2000 份論文發表,而到了 2018 年,這一數字超過了 20000。對于我們來說,想要追蹤這一領域所有的新技術、新算法是非常困難的,此處我們重點讨論政策梯度方法。政策梯度方法的基本思路是學習某個政策并将其表示為函數,該函數可以通過神經網絡或其他回歸函數來表示。其目标是最大化采取一系列動作後獲得的累積獎勵。

Joelle 還列出了 NeurIPS 2018、ICLR 2018、ICML 2018、AAAI 2018、EWRL 2018、CoRL 2018 中關于政策梯度的多數論文,發現大部分論文都使用這幾種政策梯度基線算法,即 Trust Region Policy Optimization(TRPO)、Proximal Policy Optimization(PPO)、Deep Deterministic Policy Gradients(DDPG)和 Actor-Critic Kronecker-Factored Trust Region(ACKTR)。

為了評估這四種政策梯度算法的穩健性,Joelle 的團隊在 Mujoco 模拟器中的三種不同遊戲環境中對其進行測試。他們發現,藍色曲線在 Swimmer 環境中變化很大。實作有問題?他們帶着疑問從線上源代碼中選取了 7 個 TRPO 實作,得到了非常令人驚訝的不同結果,DDPG 實驗中也是如此。

可複現性?穩健性?Joelle Pineau無情揭示強化學習的問題

是以他們在不同的政策網絡架構、單元激活函數和獎勵縮放(reward scaling)、歸一化技術等情況下,評估了超參數配置的效果,并再次得到大量的不同結果。Joelle 質疑:可能人們沒有動力去尋找令基線模型得到最優性能的超參數配置,隻是圖友善使用預設的超參數配置。

為了確定對不同方法進行公平合理的對比,Joelle 的團隊減少了一些歸一化技術,尤其是一些超參數預算。該團隊使用最優超參數配置重新運作同樣的 TRPO 代碼,結果有顯著差異,而原因僅僅是 5 個不同的随機種子。或許 5 仍然不夠?那麼應該試驗幾次呢?從對近年來其他強化學習論文的研究來看,似乎 5 已經是上限并足夠了。Joelle 用諷刺的口吻說道,一些人運作 n 次實驗來得到好的結果(n 不是指定的),然後選擇 top-5 結果。

這是否意味着強化學習并沒有什麼用,「深度」隻有一點點效果?Jolle Pineau 強調,她并不是暗示人們應該放棄強化學習技術,而是有時候公平對比并不能反映全部情況。

a. 不同的方法有不同的超參數集合。

b. 不同的方法對超參數具備不同的敏感度。

c. 最優方法往往取決于資料/計算預算。

是以研究社群需要仔細思考自己的實驗,審慎地報告自己的實驗結果。Joelle 還研究了 2018 年的 50 篇強化學習論文(發表在 NeurIPS、ICML、ICLR 上),發現很少有論文進行了有意義的測試。

可複現性?穩健性?Joelle Pineau無情揭示強化學習的問題

可複現性檢查清單

Joelle 教授提出可複現性檢查清單,并鼓勵研究社群将該檢查清單作為論文送出過程的一部分。

對于論文中的所有算法,檢查是否包含:

1. 對算法的清晰描述。

2. 對算法複雜度(時間、空間、樣本大小)的分析。

3. 下載下傳源代碼連結,包含所有依賴項。

對于論文中的所有理論論斷,檢查是否包含:

1. 結果陳述。

2. 對假設的清晰闡述。

3. 對理論論斷的完整證明。

對于論文中展示實驗結果的所有圖表,檢測是否包含:

1. 對資料收集過程的完整描述,包括樣本大小。

2. 資料集或模拟環境可下載下傳版本的連結。

3. 解釋訓練/驗證/測試資料集中的樣本配置設定情況。

4. 解釋被排除在外的任何資料。

5. 考慮的超參數範圍、選擇最優超參數配置的方法,以及用于生成結果的超參數規格。

6. 評估運作次數的确切數字。

7. 對實驗運作的具體描述。

8. 對用于報告結果的特定度量或統計資料的清晰定義。

9. 清晰定義的誤差棒(error bar)。

10. 包括集中趨勢(如平均值)和變化(如标準差)的結果描述。

11. 所用的計算基礎設施。

Joelle 解釋了基礎設施在可複現性中的作用,稱即使像分布式計算系統和 CUDA 運算這樣的硬體仍然存在可變性空間,是以指明所用的計算基礎設施是有幫助的。

Joelle 教授認為可複現性檢查清單并不意味着安全保障,但可以作為對研究社群的提醒。例如,在 ICLR 2018 複現挑戰賽中,80% 的作者在收到回報後修改了自己的論文。

強化學習是機器學習中唯一可以在訓練集上進行測試的案例嗎?

在經典強化學習中,智能體是在同樣的任務上進行訓練和測試的。而對于通用人工智能(AGI)來說,智能體可在任意事物上進行測試,即整個世界都可以是測試集。

測試泛化性能的一個好方式是分割訓練任務和測試任務。有大量研究是基于此的,比如多任務強化學習和

元學習

。Joelle 提出,我們不需要在那個方向上做進一步研究,但可以選擇分離随機訓練和測試種子,以帶來可變性(variability)。

可複現性?穩健性?Joelle Pineau無情揭示強化學習的問題

泛化誤差是為訓練 RL 智能體而定義的:

可複現性?穩健性?Joelle Pineau無情揭示強化學習的問題

我們評估訓練種子的實驗回報(empirical return),也要考慮測試種子的實驗回報。随着訓練過程的進行,訓練和測試之間的性能差距會減小。模拟實驗證明,隻要我們将種子提高到 5 或 10,泛化誤差将顯著下降。但是這存在一個問題:這麼少的種子就可以使我們本質上記住現實世界的某個領域嗎?畢竟自然世界非常複雜。

然而,很多強化學習基準非常簡單,比如 Mujoco 中的低維狀态空間、ALE 中的少量動作等。它們易于記憶,但也易受擾動的幹擾。那麼如何解決這個問題呢?Joelle 教授提出我們可以尋找一種機制,既保持模拟器的便利性,又囊括一些現實世界的複雜度。

第一個政策是在強化學習模拟訓練過程中使用自然世界圖像。因為這些圖像來自自然世界,是以它們具備我們想要的自然噪聲,引入了大量可變性(從觀察的角度)。在 MNIST、CIFAR10、CIFAR100 資料集上的實驗展示了不錯的大型分割。

可複現性?穩健性?Joelle Pineau無情揭示強化學習的問題
可複現性?穩健性?Joelle Pineau無情揭示強化學習的問題

第二個政策是向強化學習模拟添加現實世界視訊。例如 Atari 遊戲,因為它的背景比較簡單,我們可以在背景中添加一些随機的現實世界視訊,進而得到來自現實世界的不同訓練/測試視訊,用來進行清晰的訓練/測試分割。

可複現性?穩健性?Joelle Pineau無情揭示強化學習的問題

按照這個方向,未來我們有很多事可以做。近期相關的一項研究是來自 Facebook 現實實驗室(Facebook Reality Lab)的逼真圖像模拟器中的多任務強化學習。

那麼回到這個問題:強化學習是機器學習中唯一可以在訓練集上進行測試的案例嗎?

可複現性?穩健性?Joelle Pineau無情揭示強化學習的問題

答案是未必!因為我們可以分别使用随機種子進行訓練和測試,可以在強化學習模拟中添加其他圖像或視訊背景,還可以在逼真圖像模拟器中訓練多任務強化學習。

最後,Joelle 教授鼓勵我們研究現實世界!但是你必須有耐心,因為現實世界需要大量探索。Joelle 教授認為,将科學當成一項競技體育項目不适用于當下,科學是一項緻力于了解和解釋的共同努力。

可複現性?穩健性?Joelle Pineau無情揭示強化學習的問題

繼續閱讀