论文笔记3：Dynamic Frame skip Deep Q Network（DFDQN）

2023-07-03 06:08:21

参考文献：Dynamic Frame skip Deep Q Network

我的知乎:uuummmmiiii（与CSDN同名）

如有错误，请指明，我将立即改正，谢谢。

创新点：DQN基础上增加了选择动作重复次数的输出（构建动态跳帧模型）

改进：将DQN的全连接层变成了1024个单元，并且增加一层全连接层（36个单元）

改进原因：因为游戏玩法不同，有的需要进行快速决策，有的游戏需要进行一连串的相同动作

带来益处：

进行快速决策的游戏（如），降低跳帧率，提高性能（就是玩的更好了。。。）；

进行连续相同动作的游戏，提升跳帧率（the frame skip rate）,使游戏一个回合时间缩短，并且可以减少动作序列

Abstract

跳帧率k：表示允许agent重复已选出的动作 k次 (A frame skip value of k allows the agent to repeat a selected action k number of times.)

DQN中将跳帧率设置为定值4，即允许agent重复已选出的动作 4次，在进行下一决策，在本文实验中，我们将跳帧率设置为动态可学习的参数。

Introduction

跳帧率低，重复动作次数少，进行决策更频繁，增加游戏一回合的结束时间（不断将一帧图像输入到CNN，进行计算最后输出动作策略耗时）

跳帧率高，重复动作次数多，进行决策不频繁，具有较少的动作序列，减少游戏一回合的结束时间。

本次实验在DQN架构上采用两种跳帧率：4、20，让agent去自行选择。

Related work（略）

Background（略）

DFDQN

论文笔记3：Dynamic Frame skip Deep Q Network（DFDQN）

输出动作

论文笔记3：Dynamic Frame skip Deep Q Network（DFDQN）

,动作重复次数γ（这里限制了为4或20）

Results

对三个游戏进行实验，将原始DQN的结构中全连接层的512个单元改成了1024，并且

论文笔记3：Dynamic Frame skip Deep Q Network（DFDQN）

的选择有差别等

在reward上的对比：

论文笔记3：Dynamic Frame skip Deep Q Network（DFDQN）

在Q值上的对比：

论文笔记3：Dynamic Frame skip Deep Q Network（DFDQN）

在Seaquest和Space Invader上表现好。

Discussion

作者提出一种使用Actor Critic的一般模型去选取结构化参数，这个模型不仅输出可能采取的动作的概率，还有持续动作的跳帧率（而前文提到的架构限制只有两个跳帧率），但作者并未实验验证

这个网络由三部分构成：

Nc(核心策略子网络)输出动作概率

Np(参数子网络)输出跳帧率γ∈[1,100]

Ncr(批评家子网络)输出标量值v，用于评估当前状态下的值函数，得到误差函数去优化整个网络的参数

论文笔记3：Dynamic Frame skip Deep Q Network（DFDQN）

论文笔记3：Dynamic Frame skip Deep Q Network（DFDQN）

Abstract

Introduction

Related work（略）

Background（略）

DFDQN

Results

Discussion

继续阅读

CNTK与深度强化学习笔记之二： Cart Pole游戏示例前言gym的Cart Pole环境CNTK的DQN模型实现

3D修复论文：Shape Inpainting using 3D Generative Adversarial Network and Recurrent Convolutional Networks 摘要一、简介二、网络结构三、实验结果

论文笔记-PSPNet-Semantic Segmentation--Pyramid Scene Parsing Network论文笔记-PSPNet-Semantic Segmentation–Pyramid Scene Parsing Network

论文笔记-Unsupervised Adversarial Depth Estimation using Cycled Generative Networks

论文笔记-Structured Coupled Generative Adversarial Networks for Unsupervised Monocular Depth Estimation

论文笔记 -《Machine vision technology for detecting the external defects of fruits - a review》1 文章背景2 摘要内容3 段落主旨

论文阅读：CVPR2019 | CSPNet: A New Backbone that can Enhance Learning Capability of CNN前言一、Introduction二、Method三、 result总结

THE WISDOM OF THE CROWD: RELIABLE DEEP REINFORCEMENT LEARNING THROUGH ENSEMBLES OF Q--FUNCTIONS

THE BODY IS NOT A GIVEN: JOINT AGENT POLICY LEARNING AND MORPHOLOGY EVOLUTION

TARMAC: TARGETED MULTI-AGENT COMMUNICATION（TARMAC：目标多代理通信）

论文笔记 - Weighted Component Hashing of Binary Aggregated Descriptors for Fast Visual Search

【论文笔记】FM: Factorization Machines

（推荐系统） FM算法：Factorization Machines摘要1. FM模型2. FM如何解决数据的稀疏性3 FM的线性复杂度4.FM与其他算法的对比5 总结

[MICCAI2019] Learning shape priors for robust cardiac MR segmentation from multi-view images

[MICCAI2019] Unified Attentional Generative Adversarial Network for Brain Tumor Segmentation From Mu

论文阅读笔记（三）：Research on Network Attack Effect Evaluation Based on Confrontational Perspective一. 论文简介二. 创新点和贡献：三. 相关领域的概述(related work)四. 作者的方案五. 主要的信息流（approach）六. 总结