天天看点

论文笔记3:Dynamic Frame skip Deep Q Network(DFDQN)

参考文献:Dynamic Frame skip Deep Q Network

我的知乎:uuummmmiiii(与CSDN同名)

如有错误,请指明,我将立即改正,谢谢。

创新点:DQN基础上增加了选择动作重复次数的输出(构建动态跳帧模型)

改进:将DQN的全连接层变成了1024个单元,并且增加一层全连接层(36个单元)

改进原因:因为游戏玩法不同,有的需要进行快速决策,有的游戏需要进行一连串的相同动作

带来益处:

进行快速决策的游戏(如),降低跳帧率,提高性能(就是玩的更好了。。。);

进行连续相同动作的游戏,提升跳帧率(the frame skip rate),使游戏一个回合时间缩短,并且可以减少动作序列

Abstract

跳帧率k:表示允许agent重复已选出的动作 k次 (A frame skip value of k allows the agent to repeat a selected action k number of times.)

DQN中将跳帧率设置为定值4,即允许agent重复已选出的动作 4次,在进行下一决策,在本文实验中,我们将跳帧率设置为动态可学习的参数。

Introduction

跳帧率低,重复动作次数少,进行决策更频繁,增加游戏一回合的结束时间(不断将一帧图像输入到CNN,进行计算最后输出动作策略耗时)

跳帧率高,重复动作次数多,进行决策不频繁,具有较少的动作序列,减少游戏一回合的结束时间。

本次实验在DQN架构上采用两种跳帧率:4、20,让agent去自行选择。

Related work(略)

Background(略)

DFDQN

论文笔记3:Dynamic Frame skip Deep Q Network(DFDQN)

输出动作

论文笔记3:Dynamic Frame skip Deep Q Network(DFDQN)

,动作重复次数γ(这里限制了为4或20)

Results

对三个游戏进行实验,将原始DQN的结构中全连接层的512个单元改成了1024,并且

论文笔记3:Dynamic Frame skip Deep Q Network(DFDQN)

的选择有差别等

在reward上的对比:

论文笔记3:Dynamic Frame skip Deep Q Network(DFDQN)
论文笔记3:Dynamic Frame skip Deep Q Network(DFDQN)
论文笔记3:Dynamic Frame skip Deep Q Network(DFDQN)
论文笔记3:Dynamic Frame skip Deep Q Network(DFDQN)
论文笔记3:Dynamic Frame skip Deep Q Network(DFDQN)

在Q值上的对比:

论文笔记3:Dynamic Frame skip Deep Q Network(DFDQN)
论文笔记3:Dynamic Frame skip Deep Q Network(DFDQN)
论文笔记3:Dynamic Frame skip Deep Q Network(DFDQN)
论文笔记3:Dynamic Frame skip Deep Q Network(DFDQN)
论文笔记3:Dynamic Frame skip Deep Q Network(DFDQN)

在Seaquest和Space Invader上表现好。

Discussion

作者提出一种使用Actor Critic的一般模型去选取结构化参数,这个模型不仅输出可能采取的动作的概率,还有持续动作的跳帧率(而前文提到的架构限制只有两个跳帧率),但作者并未实验验证

这个网络由三部分构成:

Nc(核心策略子网络)输出动作概率

Np(参数子网络)输出跳帧率γ∈[1,100]

Ncr(批评家子网络)输出标量值v,用于评估当前状态下的值函数,得到误差函数去优化整个网络的参数

论文笔记3:Dynamic Frame skip Deep Q Network(DFDQN)

继续阅读