天天看點

幹貨!ICLR 2023 強化學習論文合集

作者:AITIME論道

國際表征學習大會(International Conference on Learning Representations,簡稱 ICLR)是深度學習領域的頂級會議,關注有關深度學習各個方面的前沿研究,在人工智能、統計和資料科學領域以及機器視覺、語音識别、文本了解等重要應用領域中釋出了衆多極其有影響力的論文。

AMiner通過AI技術,對 ICLR2023 收錄的會議論文進行了分類整理,今日分享的是強化學習主題論文,共108篇,我們在這裡展示十篇最受歡迎的論文,歡迎下載下傳收藏!

1.In-context Reinforcement Learning with Algorithm Distillation

作者:Michael Laskin,Luyu Wang,Junhyuk Oh,Emilio Parisotto,Stephen Spencer,Richie Steigerwald,DJ Strouse,Steven Hansen,Angelos Filos,Ethan Brooks,Maxime Gazeau,Himanshu Sahni,Satinder Singh,Volodymyr Mnih

AI綜述(大模型驅動):我們提出了算法提取(AD),一種将強化學習算法的神經網絡投影到神經網絡中的方法。該算法利用因果序列模型将訓練曆史模組化為一項跨episode的連貫預測問題。生成的訓練曆史資料集通過源LR算法生成,然後由反向推理訓練的因果轉換訓練。我們證明,AD在各種環境中可以學習具有較少的獎金、組合任務結構和圖像的強化算法,并發現AD學習了一個比源資料收集的資料更快的資料效率的RL算法。

論文連結:https://www.aminer.cn/pub/6358a57090e50fcafda59fe0/

2.Powderworld: A Platform for Understanding Generalization via Rich Task Distributions

作者:Kevin Frans,Phillip Isola

AI綜述(大模型驅動):在 PowderWorld中,提供了兩個激勵挑戰分布,一個用于世界模組化和一個用于強化學習。每個分布包含手工設計的測試任務,以檢查泛化。實驗表明,環境的複雜性提高了世界模型和某些強化學習agent的泛化,但可能阻礙了在高 variance環境中學習。為了解決這個問題,我們提出了一種輕型但有表達能力的模拟環境。

論文連結:https://www.aminer.cn/pub/637ee0ee90e50fcafd0f709d/

3.Is Reinforcement Learning (Not) for Natural Language Processing?: Benchmarks, Baselines, and Building Blocks for Natural Language Policy Optimization

作者:Rajkumar Ramamurthy,Prithviraj Ammanabrolu,Kianté Brantley,Jack Hessel,Rafet Sifa,Christian Bauckhage,Hannaneh Hajishirzi,Yejin Choi

AI綜述(大模型驅動):我們解決了将大型語言模型(LMs)與人類偏好的對齊問題。如果我們認為文本生成作為順序決策問題的自然概念架構,強化學習(RL)似乎是一種自然的概念架構。然而,對于基于LM的生成器來說,這項任務面臨的實證挑戰,包括訓練不穩定性以及缺乏開放資源和改進度量。

論文連結:https://www.aminer.cn/pub/633cf5cf90e50fcafd772ddd/

4.Sample-Efficient Reinforcement Learning by Breaking the Replay Ratio Barrier

作者:Pierluca D'Oro,Max Schwarzer,Evgenii Nikishin,Pierre-Luc Bacon,Marc G Bellemare,Aaron Courville

AI綜述(大模型驅動):在本文中,我們證明了增強深度激勵學習算法的樣本效率的提高可以産生更好的重疊率擴充能力。我們将嚴格修改的算法訓練到使用比通常使用的更少的更新量來訓練它們,以最大限度地提高他們在Atari100k和DeepMind控制suite基準上的表現。然後,我們分析了需要為有利可圖的重疊率擴充選擇提出的缺陷,并讨論了固有的限制和權衡。

論文連結:https://www.aminer.cn/pub/63dcdb422c26941cf00b6077/

5. Extreme Q-Learning: MaxEnt RL without Entropy

作者:Divyansh Garg,Joey Hejna,Matthieu Geist,Stefano Ermon

AI綜述(大模型驅動):我們描述了一種新的線上和 offline超大值學習規則,該規則直接使用極性價值理論(EVT)估計最大值。通過這樣做,我們可以避免計算出分布式動作中使用的Q值,這通常是一種很大的錯誤來源。我們的關鍵洞察是引入一個目标,它可以直接在最大熵下估計最優軟值函數(LogSumExp)。

論文連結:https://www.aminer.cn/pub/63bb859d90e50fcafd06ee06/

6. Evaluating Long-Term Memory in 3D Mazes

作者:Jurgis Pasukonis,Timothy Lillicrap,Danijar Hafner

AI綜述(大模型驅動):我們介紹了記憶陋室,一種專門為評估戰術人員的長壽能力的3D領域。與現有的基線相比,陋室測量長壽能力不同,需要 agent将資訊融合并本地化。我們提出了一個線上激勵學習基線,一個多種 offline資料集和 offline檢驗評估。

論文連結:https://www.aminer.cn/pub/635753d490e50fcafdddf445/

7. Sparse Q-Learning: Offline Reinforcement Learning with Implicit Value Regularization

作者:Haoran Xu,Li Jiang,Jianxiong Li,Zhuoran Yang,Zhaoran Wang,Victor Wai Kin Chan,Xianyuan Zhan

AI綜述(大模型驅動):在标準資料集上訓練聚類算法通常認為,當使用分布式變化進行決策時,會産生一些不确定性。我們提出了一種聚類算法,該算法利用了與CQL相同的值随機化,但使用少量手動注釋的示例語料庫。與IQL相比,我們發現我們的算法增加了學習價值函數的稀疏性,這使得它比IQL具有更快的收斂速度和更好的一緻性。此外,我們還比較了聚類算法的優點和弱點,并将其與其他基線進行了比較。

論文連結:https://www.aminer.cn/pub/63dcdb422c26941cf00b6097/

8. Diffusion Policies as an Expressive Policy Class for Offline Reinforcement Learning

作者:Zhendong Wang,Jonathan J Hunt,Mingyuan Zhou

AI綜述(大模型驅動):offline reinforcement學習(RL),旨在學習一個有效的政策,使用以前收集的靜态資料集,是RL的一個重要範疇。标準的RL方法通常在這一任務中表現不佳,因為在外部收集動作對齊錯誤造成的函數近似錯誤。然而,已經提出了許多适當的規則化方法來解決這個問題,但這些方法通常受到有限的表達能力限制,有時會導緻幾乎不optimal的解決方案。在本文中,我們提出了一種新的基于條件傳播模型的動态調整算法,該算法利用了條件傳播模闆作為高度表達性的政策類。在我們的方法中,我們在決策損失中學習了一個決策值函數,并添加了一個最大化決策值的時間限制。我們表明,基于模型的政策的表達性和決策改善結合在一起,産生了卓越的性能。

論文連結:https://www.aminer.cn/pub/62fa0d1490e50fcafd2462dd/

9. Solving Continuous Control via Q-learning

作者:Tim Seyde,Peter Werner,Wilko Schwarting,Igor Gilitschenski,Martin Riedmiller,Daniela Rus,Markus Wulfmeier

AI綜述(大模型驅動):我們提出了一種新的監督學習方法,該方法結合了動作分解和價值分解,并将單個agent控制應用于協同優化。我們證明了這種方法可以顯著減少監督學習所需的複雜性。我們還将監督學習擴充到類似的協同學習,以便在各種監督任務中提供良好的性能。

論文連結:https://www.aminer.cn/pub/635753cc90e50fcafddddc66/

10. Priors, Hierarchy, and Information Asymmetry for Skill Transfer in Reinforcement Learning

作者:Sasha Salter,Kristian Hartikainen,Walter Goodwin,Ingmar Posner

AI綜述(大模型驅動):在本文中,我們展示了如何利用資訊熵來限制學習者的表達性和推理能力。這項研究表明,雖然資訊熵對學習能力的影響很大,但對傳理能力的影響并不大。我們提出了一種原則性的選擇方法,并将該方法應用于一個複雜的、機器人堆棧堆棧領域的實驗。

論文連結:https://www.aminer.cn/pub/61ea24995244ab9dcbabc692/

繼續閱讀