为什么说强化学习是一种人工智能的通用框架？

2023-06-09 07:22:32

深度强化学习(Deep Reinforcement Learning) ，强化学习是一种人工智能的通用框架：

1、强化学习是针对一个拥有行动能力的agent 而言的

2、每个行动影响了agent 的未来状态

3、使用标量值回报信号来度量成功

一言以蔽之：选择行动来最大化未来回报。我们最终的目标是寻求得到可以解决所有人类层级的任务的单一的agent，这也是智能agent 的本质。

agent和环境

强化学习结构：

在每个时间步t、agent：

–接受状态St

–接受标量回报rt

–执行行动at

强化学习的环境：

–接受行动at

–产生状态St

–产生标量回报rt

为什么说强化学习是一种人工智能的通用框架？

强化学习的场景和例子

1、控制物理系统：行走、飞行、驾驶、游泳、……

2、与用户进行交互：客户维护retain customers、个性化频道personalisechannel、用户体验优化optimiseuser experience、……

3、解决物流问题：规划scheduling、带宽分配bandwidth allocation、电梯控制、认知无线电cognitive radio、电力优化power optimisation、……

4、玩游戏：棋类、扑克、围棋、Atari 游戏、……

5、学习序列化算法：注意力attention、记忆memory、条件计算conditional computation、激活activation

策略policy 和估值value 函数

策略π 是给定状态下选择行动的行为函数：

a=π(s)

估值函数Qπ(s, a)是从状态s开始在策略π 下采取行动a 的期望全回报：

为什么说强化学习是一种人工智能的通用框架？

估值就是评估在状态s 时采取行动a 的好坏。

强化学习的几个方向

基于策略的强化

–直接搜索最优策略π*

–目标就是得到最大未来回报的策略

基于估值的强化

–估计最优值函数Q*(s, a)

–在任何策略下可获得的最大值

基于模型的强化

–构建一个环境的迁移模型

–使用该模型进行规划（通过查找规则）

技术知识函数人工智能框架信息处理

上一篇: TextField的使用

下一篇: TIOBE 8 月编程语言榜：Python 差点拿下第 3 名

继续阅读