天天看點

【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space

【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space

标題 Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space
會議 IJCAI-19
論文位址
https://arxiv.org/pdf/1903.01344.pdf
https://www.ijcai.org/Proceedings/2019/0316.pdf
關鍵點 離散連續空間聯合優化
【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space

最近在調研強化學習離散連續空間聯合優化的相關文章,找到這一篇19年上交的文章,記錄一下供日後參考。

摘要

提出了一種 actor-critic 的混合模型算法 for reinforcement learning in parameterized action space,并且在PPO算法上面做出了改進,提出了 hybrid proximal policy optimization (H-PPO) 算法,并通過了實驗驗證了該算法的可靠性。

核心思想

傳統的RL大多隻針對于連續的或者離散的空間提出優化的方案,但是實際情況下更多的是混合的空間,如在足球場上踢球,在離散的空間中,agent隻能選擇跑動或者踢球的方向但是不能選擇連續的跑動速度/距離或者踢球的力度,但是在混合空間下,使得agent 有可能做出離散 + 連續的選擇。傳統的RL無法有效的處理混合空間中的聯合優化,是以文章提出了一個新的架構來解決這種方法,這種架構基于actor-critic 形式,policy gradient 和 PPO 都可以有效的同時處理離散的和連續的空間,文章選擇了在PPO基礎上提出H-PPO算法。

文章标題中提到的 Parameterized Action Space,個人了解動作空間可以被分層,每一層的次元可以改變,是"Parameterized" 的。文章的解釋如下:

【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space

這張圖檔展示了 Parameterized Action Space 的結構,離散的動作空間擁有四個不同的action (藍色),每一個離散的動作擁有連續的parameter space (灰色)。action 2 比較特别,連續的parameter space 中隻有一個元素,但是并不妨礙将其和其他動作一樣劃分。

文章舉出基于RoboCup 2D 仿真平台的子任務Half Field Offense (HFO),agent 可以選擇離散的動作Kick 并且對real-valued parameter(power and direction) 進行細化。

Methodologies

Parameterized action space

Parameterized action spaces 是離散-連續混合的空間,具體定義直接貼上原文:

【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space
Actor-critic algorithms
【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space

通常情況下,Actor-critic algroithms含有一個actor網絡和用來計算actor網絡parameters gradient 的critic 網絡,文章提出的架構包含兩個平行的actor網絡,分别負責action選擇和parameter選擇:

【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space

執行的動作是選擇的action a a a 以及對應的 x a x_a xa​,

根據文章給出的Hybrid actor-critic 架構,所有的actor網絡共享最初的用于encode的全連接配接網絡中的state資訊。

值得注意的是,架構中的single critic network 評估是是 state-value function V ( s ) V(s) V(s) 而不是action-value function. 由于 action-value function suffers from the over-parameterization problem 如果用 action-value fuction ,critic 網絡會将 s s s,選擇的 a a a以及所有被選擇的離散動作的parameter x a 1 , x a 2 , . . . , x a k x_{a1},x_{a2},...,x_{ak} xa1​,xa2​,...,xak​作為輸入。不可能單獨輸入 x a x_a xa​因為不同的離散動作的parameter的次元不同,同時輸入其他獨立的parameter會導緻over-parameterization:

【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space

而state-value function V ( s ) V(s) V(s)并沒有這個問題, V ( s ) V(s) V(s)用來計算variance-reduced advantage function estimator A ^ \hat{A} A^,将policy 跑T個timesteps:

【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space

唯一要注意的是optimization method 應該符合 actor critic style 而且用critic 提供的 advantage function來更新stochastic policies.

雖然完整的動作 ( a , x a ) (a,x_a) (a,xa​)是由離散和聯合的actor共同決定,但是兩個actor是根據自己的政策單獨更新的

Hybrid Proximal Policy Optimization

The hybrid proximal policy optimization (H-PPO) 依照上面的 Figure 3 架構和 PPO 更新離散的policy π θ d \pi_{\theta_d} πθd​​和連續的policy π θ c \pi_{\theta_c} πθc​​

【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space

更新步驟

對于離散的actions(假定有k個),H-PPO先輸出k個value f a 1 , f a 2 , . . . , f a k f_{a_1},f_{a_2},...,f_{a_k} fa1​​,fa2​​,...,fak​​ ,再通過softmax( f f f)随機采樣出 a a a(這個地方我了解是每一個單獨的離散action的actor從分布中采樣出一個value,将這些value歸一化後依據機率采樣?)。對于連續的政策,和傳統的PPO更新方法差不多(by outputting the mean and variance of a Gaussian distribution for each of the parameters),離散的和連續的完全分開更新。

Hybrid Actor-Critic Architecture for General Hierarchical Action Space
【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space

除了 parameterized action space,文章提出的hybrid actor-critic 算法可以延申到 general hierarchical action space,如前面Figure 2 所展示的樹結構。每一個灰色的長方塊代表一個action-selection sub-problem,整個動作的完成可以看作是離散-連續動作選擇的疊代。

對于這種更加general的分層動作空間,Figure 4中展示了對應的hybrid actor-critic 架構。

實驗

環境

實驗選擇了四個環境,如下圖:

【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space

每一個實驗任務中都有一個“winning state”的最終state,代表任務的成功。

四個任務的設定文章介紹如下:

【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space
【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space

結果

文章提出的架構和DQN,P-DQN(出自Parametrized deep q-networks learning: Reinforcement learning with discrete-continuous hybrid action space),DDPG(由于結果很差沒有給出)進行比較:

【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space
【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space
【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space
【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space
【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space【論文閱讀IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space

總結

對于混合的動作空間這篇文章提出了一種架構可以在動作基元的相關工作中試着使用一下。文章提到,後期的工作會常數做更多的實驗來驗證方案的可靠性。

繼續閱讀