Policy Gradient Methods for Reinforcement Learning with Function Approximation
- 一、新收获
-
- 1、对文章段落的理解和收获
-
- abstract
- (1)、Policy Gradient Theorem
- (2)、 Policy Gradient with Approximation
- (3)、 Application to Deriving Algorithms and Advantages
- (4)、Convergence of Policy Iteration with Function Approximation
- 二、总结
一、新收获
1、对文章段落的理解和收获
abstract
直接指出policy gradient是根据期望奖励的梯度更新参数的。
本文提出的主要新方法为:梯度可以 以近似作用值(an approximate action-value)或优势函数(advantage function) , 从经验中估算的形式来编写。
值函数方法在许多应用中的效果都很好,但是存在一些限制:
(1)它以寻找确定性政策为导向,而最优政策通常是随机的,选择具有特定概率的不同动作;
(2)动作估计值的非常小的变化都有可能改变这个动作被选择的可能性;
(1)、Policy Gradient Theorem
这部分提出了策略梯度定理,并在附录中给出了证明过程。

其中:
或者:
(2)、 Policy Gradient with Approximation
这部分提出了函数逼近的策略梯度定理:
(3)、 Application to Deriving Algorithms and Advantages
这部分写的是关于算法的派生,比如,定理2可以派生出值函数参数化的逼近形式,线性的还是非线性的策略参数都可以派生出不同的形式;另外fw 也可以被派生为优势函数的逼近器。优势函数公式如下:
优势函数表示选择的这个动作a好于平均动作的程度。
(4)、Convergence of Policy Iteration with Function Approximation
这部分主要提出定理3:带有函数逼近的策略迭代能够收敛到局部最优,在文章中给出了证明。
二、总结
这篇文章主要是写了关于策略梯度的三个定理,并给出了定理的使用条件和证明过程,想了解清楚什么是策略梯度的同学 ,不建议阅读这篇文章,那些想弄清楚公式是如何推导的,如何得到公式结果的同学,建议阅读这篇文章,文章的公式推导十分详细,步骤没有忽略掉的,容易让人看懂
文章分析就到这里结束了,十分感谢大家观看!