天天看点

paper2-Policy Gradient Methods for Reinforcement Learning with Function Approximation一、新收获二、总结

Policy Gradient Methods for Reinforcement Learning with Function Approximation

  • 一、新收获
    • 1、对文章段落的理解和收获
      • abstract
      • (1)、Policy Gradient Theorem
      • (2)、 Policy Gradient with Approximation
      • (3)、 Application to Deriving Algorithms and Advantages
      • (4)、Convergence of Policy Iteration with Function Approximation
  • 二、总结

一、新收获

1、对文章段落的理解和收获

abstract

直接指出policy gradient是根据期望奖励的梯度更新参数的。

本文提出的主要新方法为:梯度可以 以近似作用值(an approximate action-value)或优势函数(advantage function) , 从经验中估算的形式来编写。

值函数方法在许多应用中的效果都很好,但是存在一些限制:

(1)它以寻找确定性政策为导向,而最优政策通常是随机的,选择具有特定概率的不同动作;

(2)动作估计值的非常小的变化都有可能改变这个动作被选择的可能性;

(1)、Policy Gradient Theorem

这部分提出了策略梯度定理,并在附录中给出了证明过程。

paper2-Policy Gradient Methods for Reinforcement Learning with Function Approximation一、新收获二、总结

其中:

paper2-Policy Gradient Methods for Reinforcement Learning with Function Approximation一、新收获二、总结
paper2-Policy Gradient Methods for Reinforcement Learning with Function Approximation一、新收获二、总结
paper2-Policy Gradient Methods for Reinforcement Learning with Function Approximation一、新收获二、总结

或者:

paper2-Policy Gradient Methods for Reinforcement Learning with Function Approximation一、新收获二、总结

(2)、 Policy Gradient with Approximation

这部分提出了函数逼近的策略梯度定理:

paper2-Policy Gradient Methods for Reinforcement Learning with Function Approximation一、新收获二、总结

(3)、 Application to Deriving Algorithms and Advantages

这部分写的是关于算法的派生,比如,定理2可以派生出值函数参数化的逼近形式,线性的还是非线性的策略参数都可以派生出不同的形式;另外fw 也可以被派生为优势函数的逼近器。优势函数公式如下:

paper2-Policy Gradient Methods for Reinforcement Learning with Function Approximation一、新收获二、总结

优势函数表示选择的这个动作a好于平均动作的程度。

(4)、Convergence of Policy Iteration with Function Approximation

这部分主要提出定理3:带有函数逼近的策略迭代能够收敛到局部最优,在文章中给出了证明。

paper2-Policy Gradient Methods for Reinforcement Learning with Function Approximation一、新收获二、总结

二、总结

这篇文章主要是写了关于策略梯度的三个定理,并给出了定理的使用条件和证明过程,想了解清楚什么是策略梯度的同学 ,不建议阅读这篇文章,那些想弄清楚公式是如何推导的,如何得到公式结果的同学,建议阅读这篇文章,文章的公式推导十分详细,步骤没有忽略掉的,容易让人看懂

文章分析就到这里结束了,十分感谢大家观看!

继续阅读