paper2-Policy Gradient Methods for Reinforcement Learning with Function Approximation一、新收获二、总结

2023-04-25 09:35:01

Policy Gradient Methods for Reinforcement Learning with Function Approximation

一、新收获
- 1、对文章段落的理解和收获
- - abstract
  - (1)、Policy Gradient Theorem
  - (2)、 Policy Gradient with Approximation
  - (3)、 Application to Deriving Algorithms and Advantages
  - (4)、Convergence of Policy Iteration with Function Approximation
二、总结

一、新收获

1、对文章段落的理解和收获

abstract

直接指出policy gradient是根据期望奖励的梯度更新参数的。

本文提出的主要新方法为：梯度可以以近似作用值（an approximate action-value）或优势函数(advantage function) ，从经验中估算的形式来编写。

值函数方法在许多应用中的效果都很好，但是存在一些限制：

(1)它以寻找确定性政策为导向，而最优政策通常是随机的，选择具有特定概率的不同动作；

(2)动作估计值的非常小的变化都有可能改变这个动作被选择的可能性；

(1)、Policy Gradient Theorem

这部分提出了策略梯度定理，并在附录中给出了证明过程。

paper2-Policy Gradient Methods for Reinforcement Learning with Function Approximation一、新收获二、总结

其中：

paper2-Policy Gradient Methods for Reinforcement Learning with Function Approximation一、新收获二、总结

或者：

paper2-Policy Gradient Methods for Reinforcement Learning with Function Approximation一、新收获二、总结

(2)、 Policy Gradient with Approximation

这部分提出了函数逼近的策略梯度定理：

paper2-Policy Gradient Methods for Reinforcement Learning with Function Approximation一、新收获二、总结

(3)、 Application to Deriving Algorithms and Advantages

这部分写的是关于算法的派生，比如，定理2可以派生出值函数参数化的逼近形式，线性的还是非线性的策略参数都可以派生出不同的形式；另外fw 也可以被派生为优势函数的逼近器。优势函数公式如下：

paper2-Policy Gradient Methods for Reinforcement Learning with Function Approximation一、新收获二、总结

优势函数表示选择的这个动作a好于平均动作的程度。

(4)、Convergence of Policy Iteration with Function Approximation

这部分主要提出定理3：带有函数逼近的策略迭代能够收敛到局部最优，在文章中给出了证明。

paper2-Policy Gradient Methods for Reinforcement Learning with Function Approximation一、新收获二、总结

二、总结

这篇文章主要是写了关于策略梯度的三个定理，并给出了定理的使用条件和证明过程，想了解清楚什么是策略梯度的同学，不建议阅读这篇文章，那些想弄清楚公式是如何推导的，如何得到公式结果的同学，建议阅读这篇文章，文章的公式推导十分详细，步骤没有忽略掉的，容易让人看懂

文章分析就到这里结束了，十分感谢大家观看！

paper2-Policy Gradient Methods for Reinforcement Learning with Function Approximation一、新收获二、总结

Policy Gradient Methods for Reinforcement Learning with Function Approximation

一、新收获

1、对文章段落的理解和收获

abstract

(1)、Policy Gradient Theorem

(2)、 Policy Gradient with Approximation

(3)、 Application to Deriving Algorithms and Advantages

(4)、Convergence of Policy Iteration with Function Approximation

二、总结

继续阅读

今天来给大家介绍一下基于强化学习的时间行为检测自适应模型

利用DQN解决Gym库的CartPole问题

MICCAI2020论文下载获取

医学图像最新相关研究方向、论文下载及其思考---MICCAI2019论文

操作系统笔记（一）计算机系统概述一、操作系统的基本概念二、操作系统的发展与分类三、操作系统的运行环境和体系结构四、异常和中断五、系统调用

AlphaGo Zero是如何工作的？——AlphaGo Zero背后的强化学习算法原理

论文：Hourglass Module相关整理

考证大全 | 证券从业资格考试

敲黑板！2021年证券从业考试考点预测

2021年银行从业考试考情介绍,果断收藏!

证券从业合格证书什么时候打印？有哪些注意事项？

【干货满满】初级银行从业考试《个人理财》重点梳理

2020年经济师考试，难吗？

MBA提前面试纯干货分享

MBA值得学么

软考-高项-论文-信息系统项目的风险管理