天天看点

深度强化学习理论学习

强化学习-RL

1. 强化学习 是一种学习如何能够最大化当前场景中的奖励值得学习方法,实际上就是一种从状态到动作的映射关系的学习,通过奖励值最大化来终结学习。
2. 两大特征: 实验式求解方式(试错法)、奖励延迟机制
3. 核心理论:通过一个智能体来感知和该问题相关的环境状态,并且在与环境交互的过程中得到最大收益的目标。
4. 机器学习的分类:监督学习、无监督学习、强化学习
5. 监督学习:通过从带有监督信息的样例进行学习
6. 强化学习考虑的是一个整体问题---一个以目标为导向的智能体和未知环境进行交互的问题
7. 组成部分:策略、奖励函数、值函数、一个可有可无的环境模型
    7.1 策略:决定了某一时刻做出的行为,即一种从观测状态到执行动作的映射
    7.2 奖励函数:强化学习的目标,即观测环境变量到奖励值的映射,衡量该状态的内在满意度。
    7.3 值函数:从当前状态到将来的某个状态下的累计奖励值---长期满意度
    7.4 环境模型:对智能体与环境状态进行建模
           

深度学习-DL

1. 深度学习 = 深度神经网络
2. 组成:输入层、隐含层、输出层
3. 简单理解:一个神经元就是一个函数(f(wx)),给定一个带权重的输入x,输出一个y,一般这个f(wx)是一个简单的非线性函数
4. 应用领域:计算机视觉、语音识别、自然语言处理、生物信息
5. 深度学习框架:深度神经网络(DNN)、卷积神经网络(CNN)、循环神经网络(RNN)
           

深度强化学习-DRL

1. DRL:在强化学习中使用深度学习来进行函数的拟合、模型的拟合等。函数的拟合包括值函数的拟合、Q函数的拟合等。模型的拟合包括策略的拟合。
2. 不例外乎,模型、数据、求解算法也是深度强化学习的三元素
3. 特点:无需准备数据,数据的获取通过一步一步采样获得,数据的标签延迟
4. 两类学习算法:有模型学习算法、无模型学习算法---样本采样的学习算法---蒙特卡洛算法(MC算法,如REINFOREC算法)、时序差分算法(TD算法,如Sarsa算法、Q学习算法)。
5. MC算法:很高的方差、学习过程收敛比较慢,加入一个基准可以缓解
6. TD算法:无MC算法的缺点,Q算法应用广泛
           

注:学习深度强化学习入手三方面:1. 理论基础 2. 仿真平台 3. 实践项目

1. 推荐学习理论书籍:Reinforecment Learning: An Introduction 、DeepMind论文、从深度Q学习到双Q学习、从确定性策略梯度算法(DDPG)到A3C算法
2. 学习平台:OpenAI的 Gym和Universe、Google的DeepMind的 DeepMind Lab
3. 项目推荐:Flappy Bird(深度Q学习)
           

继续阅读