【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space

标題 Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space

會議 IJCAI-19

論文位址

https://arxiv.org/pdf/1903.01344.pdf

https://www.ijcai.org/Proceedings/2019/0316.pdf

關鍵點離散連續空間聯合優化

【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space

最近在調研強化學習離散連續空間聯合優化的相關文章，找到這一篇19年上交的文章，記錄一下供日後參考。

摘要

提出了一種 actor-critic 的混合模型算法 for reinforcement learning in parameterized action space，并且在PPO算法上面做出了改進，提出了 hybrid proximal policy optimization (H-PPO) 算法，并通過了實驗驗證了該算法的可靠性。

核心思想

傳統的RL大多隻針對于連續的或者離散的空間提出優化的方案，但是實際情況下更多的是混合的空間，如在足球場上踢球，在離散的空間中，agent隻能選擇跑動或者踢球的方向但是不能選擇連續的跑動速度/距離或者踢球的力度，但是在混合空間下，使得agent 有可能做出離散 + 連續的選擇。傳統的RL無法有效的處理混合空間中的聯合優化，是以文章提出了一個新的架構來解決這種方法，這種架構基于actor-critic 形式，policy gradient 和 PPO 都可以有效的同時處理離散的和連續的空間，文章選擇了在PPO基礎上提出H-PPO算法。

文章标題中提到的 Parameterized Action Space，個人了解動作空間可以被分層，每一層的次元可以改變，是"Parameterized" 的。文章的解釋如下:

【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space

這張圖檔展示了 Parameterized Action Space 的結構，離散的動作空間擁有四個不同的action (藍色)，每一個離散的動作擁有連續的parameter space (灰色)。action 2 比較特别，連續的parameter space 中隻有一個元素，但是并不妨礙将其和其他動作一樣劃分。

文章舉出基于RoboCup 2D 仿真平台的子任務Half Field Offense (HFO)，agent 可以選擇離散的動作Kick 并且對real-valued parameter(power and direction) 進行細化。

Methodologies

Parameterized action space

Parameterized action spaces 是離散-連續混合的空間，具體定義直接貼上原文:

【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space

Actor-critic algorithms

【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space

通常情況下，Actor-critic algroithms含有一個actor網絡和用來計算actor網絡parameters gradient 的critic 網絡，文章提出的架構包含兩個平行的actor網絡，分别負責action選擇和parameter選擇:

【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space

執行的動作是選擇的action a a a 以及對應的 x a x_a xa，

根據文章給出的Hybrid actor-critic 架構，所有的actor網絡共享最初的用于encode的全連接配接網絡中的state資訊。

值得注意的是，架構中的single critic network 評估是是 state-value function V ( s ) V(s) V(s) 而不是action-value function. 由于 action-value function suffers from the over-parameterization problem 如果用 action-value fuction ，critic 網絡會将 s s s,選擇的 a a a以及所有被選擇的離散動作的parameter x a 1 , x a 2 , . . . , x a k x_{a1},x_{a2},...,x_{ak} xa1,xa2,...,xak作為輸入。不可能單獨輸入 x a x_a xa因為不同的離散動作的parameter的次元不同，同時輸入其他獨立的parameter會導緻over-parameterization:

【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space

而state-value function V ( s ) V(s) V(s)并沒有這個問題， V ( s ) V(s) V(s)用來計算variance-reduced advantage function estimator A ^ \hat{A} A^,将policy 跑T個timesteps：

【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space

唯一要注意的是optimization method 應該符合 actor critic style 而且用critic 提供的 advantage function來更新stochastic policies.

雖然完整的動作 ( a , x a ) (a,x_a) (a,xa)是由離散和聯合的actor共同決定，但是兩個actor是根據自己的政策單獨更新的

Hybrid Proximal Policy Optimization

The hybrid proximal policy optimization (H-PPO) 依照上面的 Figure 3 架構和 PPO 更新離散的policy π θ d \pi_{\theta_d} πθd和連續的policy π θ c \pi_{\theta_c} πθc

【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space

更新步驟

對于離散的actions(假定有k個),H-PPO先輸出k個value f a 1 , f a 2 , . . . , f a k f_{a_1},f_{a_2},...,f_{a_k} fa1,fa2,...,fak ，再通過softmax( f f f)随機采樣出 a a a（這個地方我了解是每一個單獨的離散action的actor從分布中采樣出一個value，将這些value歸一化後依據機率采樣?)。對于連續的政策，和傳統的PPO更新方法差不多(by outputting the mean and variance of a Gaussian distribution for each of the parameters),離散的和連續的完全分開更新。

Hybrid Actor-Critic Architecture for General Hierarchical Action Space

【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space

除了 parameterized action space，文章提出的hybrid actor-critic 算法可以延申到 general hierarchical action space,如前面Figure 2 所展示的樹結構。每一個灰色的長方塊代表一個action-selection sub-problem，整個動作的完成可以看作是離散-連續動作選擇的疊代。

對于這種更加general的分層動作空間，Figure 4中展示了對應的hybrid actor-critic 架構。

實驗

環境

實驗選擇了四個環境，如下圖:

【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space

每一個實驗任務中都有一個“winning state”的最終state，代表任務的成功。

四個任務的設定文章介紹如下:

【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space

結果

文章提出的架構和DQN，P-DQN(出自Parametrized deep q-networks learning: Reinforcement learning with discrete-continuous hybrid action space)，DDPG(由于結果很差沒有給出)進行比較:

【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space

總結

對于混合的動作空間這篇文章提出了一種架構可以在動作基元的相關工作中試着使用一下。文章提到，後期的工作會常數做更多的實驗來驗證方案的可靠性。

【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space

【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space

标題 Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space

會議 IJCAI-19

論文位址

https://arxiv.org/pdf/1903.01344.pdf

https://www.ijcai.org/Proceedings/2019/0316.pdf

關鍵點離散連續空間聯合優化

摘要

核心思想

Methodologies

Parameterized action space

Actor-critic algorithms

Hybrid Proximal Policy Optimization

Hybrid Actor-Critic Architecture for General Hierarchical Action Space

實驗

環境

結果

總結

繼續閱讀

證券從業合格證書什麼時候列印？有哪些注意事項？

【幹貨滿滿】初級銀行從業考試《個人理财》重點梳理

2020年經濟師考試，難嗎？

初級銀行從業資格證有什麼用？

MBA提前面試純幹貨分享

MBA值得學麼

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

深度學習模型分析人類複雜疾病的準确性

【趨高機器視覺】機器視覺技術原了解析及解決方案

吳恩達 coursera ML 第七課總結+作業答案前言目錄正文模型表示作業答案

XGBoost Plotting API以及GBDT組合特征實踐 XGBoost Plotting API以及GBDT組合特征實踐

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space

【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space

标題 Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space

會議 IJCAI-19

論文位址

https://arxiv.org/pdf/1903.01344.pdf

https://www.ijcai.org/Proceedings/2019/0316.pdf

關鍵點 離散連續空間聯合優化

摘要

核心思想

Methodologies

Parameterized action space

Actor-critic algorithms

Hybrid Proximal Policy Optimization

Hybrid Actor-Critic Architecture for General Hierarchical Action Space

實驗

環境

結果

總結

繼續閱讀

關鍵點離散連續空間聯合優化