Policy Gradient Methods for Reinforcement Learning with Function Approximation
- 一、新收獲
-
- 1、對文章段落的了解和收獲
-
- abstract
- (1)、Policy Gradient Theorem
- (2)、 Policy Gradient with Approximation
- (3)、 Application to Deriving Algorithms and Advantages
- (4)、Convergence of Policy Iteration with Function Approximation
- 二、總結
一、新收獲
1、對文章段落的了解和收獲
abstract
直接指出policy gradient是根據期望獎勵的梯度更新參數的。
本文提出的主要新方法為:梯度可以 以近似作用值(an approximate action-value)或優勢函數(advantage function) , 從經驗中估算的形式來編寫。
值函數方法在許多應用中的效果都很好,但是存在一些限制:
(1)它以尋找确定性政策為導向,而最優政策通常是随機的,選擇具有特定機率的不同動作;
(2)動作估計值的非常小的變化都有可能改變這個動作被選擇的可能性;
(1)、Policy Gradient Theorem
這部分提出了政策梯度定理,并在附錄中給出了證明過程。

其中:
或者:
(2)、 Policy Gradient with Approximation
這部分提出了函數逼近的政策梯度定理:
(3)、 Application to Deriving Algorithms and Advantages
這部分寫的是關于算法的派生,比如,定理2可以派生出值函數參數化的逼近形式,線性的還是非線性的政策參數都可以派生出不同的形式;另外fw 也可以被派生為優勢函數的逼近器。優勢函數公式如下:
優勢函數表示選擇的這個動作a好于平均動作的程度。
(4)、Convergence of Policy Iteration with Function Approximation
這部分主要提出定理3:帶有函數逼近的政策疊代能夠收斂到局部最優,在文章中給出了證明。
二、總結
這篇文章主要是寫了關于政策梯度的三個定理,并給出了定理的使用條件和證明過程,想了解清楚什麼是政策梯度的同學 ,不建議閱讀這篇文章,那些想弄清楚公式是如何推導的,如何得到公式結果的同學,建議閱讀這篇文章,文章的公式推導十分詳細,步驟沒有忽略掉的,容易讓人看懂
文章分析就到這裡結束了,十分感謝大家觀看!