深度强化学习理论学习

2023-07-27 00:48:47

强化学习-RL

1. 强化学习 是一种学习如何能够最大化当前场景中的奖励值得学习方法，实际上就是一种从状态到动作的映射关系的学习，通过奖励值最大化来终结学习。
2. 两大特征： 实验式求解方式（试错法）、奖励延迟机制
3. 核心理论：通过一个智能体来感知和该问题相关的环境状态，并且在与环境交互的过程中得到最大收益的目标。
4. 机器学习的分类：监督学习、无监督学习、强化学习
5. 监督学习：通过从带有监督信息的样例进行学习
6. 强化学习考虑的是一个整体问题---一个以目标为导向的智能体和未知环境进行交互的问题
7. 组成部分：策略、奖励函数、值函数、一个可有可无的环境模型
    7.1 策略：决定了某一时刻做出的行为，即一种从观测状态到执行动作的映射
    7.2 奖励函数：强化学习的目标，即观测环境变量到奖励值的映射，衡量该状态的内在满意度。
    7.3 值函数：从当前状态到将来的某个状态下的累计奖励值---长期满意度
    7.4 环境模型：对智能体与环境状态进行建模

深度学习-DL

1. 深度学习 = 深度神经网络
2. 组成：输入层、隐含层、输出层
3. 简单理解：一个神经元就是一个函数（f(wx)）,给定一个带权重的输入x，输出一个y，一般这个f(wx)是一个简单的非线性函数
4. 应用领域：计算机视觉、语音识别、自然语言处理、生物信息
5. 深度学习框架：深度神经网络（DNN）、卷积神经网络（CNN）、循环神经网络（RNN）

深度强化学习-DRL

1. DRL：在强化学习中使用深度学习来进行函数的拟合、模型的拟合等。函数的拟合包括值函数的拟合、Q函数的拟合等。模型的拟合包括策略的拟合。
2. 不例外乎，模型、数据、求解算法也是深度强化学习的三元素
3. 特点：无需准备数据，数据的获取通过一步一步采样获得，数据的标签延迟
4. 两类学习算法：有模型学习算法、无模型学习算法---样本采样的学习算法---蒙特卡洛算法（MC算法，如REINFOREC算法）、时序差分算法（TD算法，如Sarsa算法、Q学习算法）。
5. MC算法：很高的方差、学习过程收敛比较慢，加入一个基准可以缓解
6. TD算法：无MC算法的缺点，Q算法应用广泛

注：学习深度强化学习入手三方面：1. 理论基础 2. 仿真平台 3. 实践项目

1. 推荐学习理论书籍：Reinforecment Learning: An Introduction 、DeepMind论文、从深度Q学习到双Q学习、从确定性策略梯度算法（DDPG）到A3C算法
2. 学习平台：OpenAI的 Gym和Universe、Google的DeepMind的 DeepMind Lab
3. 项目推荐：Flappy Bird(深度Q学习）

深度强化学习理论学习

强化学习-RL

深度学习-DL

深度强化学习-DRL

继续阅读

6.DQN(Deep Q-Network)+Double DQN+Dueling DQN目录简介Double DQNDueling DQN总结

浅尝深度强化学习(一)---Deep Q-Learning with Keras and Gym-CartPole-v0

论文笔记2：Deep Attention Recurrent Q-Network

论文笔记3：Dynamic Frame skip Deep Q Network（DFDQN）

深度强化学习血泪调参史：从人工智障到人工智能背景应用深度强化学习经常遇到的问题调参大法

基于模型的自动驾驶汽车端到端深度强化学习策略

【PyTorch深度强化学习】DDPG算法的讲解及实战（超详细附源码）一、DDPG背景及简介二、DDPG算法实现结果三、代码

深度强化学习（6）Actor-Critic

机器学习 - 0范数、1范数和2范数的计算以及在机器学习中的应用

论文阅读15：Massively Parallel Methods for Deep Reinforcement Learning

【论文阅读IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space【论文阅读IJCAI-19】Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space

CNTK与深度强化学习笔记之二： Cart Pole游戏示例前言gym的Cart Pole环境CNTK的DQN模型实现

THE WISDOM OF THE CROWD: RELIABLE DEEP REINFORCEMENT LEARNING THROUGH ENSEMBLES OF Q--FUNCTIONS

THE BODY IS NOT A GIVEN: JOINT AGENT POLICY LEARNING AND MORPHOLOGY EVOLUTION

TARMAC: TARGETED MULTI-AGENT COMMUNICATION（TARMAC：目标多代理通信）