為什麼說強化學習是一種人工智能的通用架構？

2023-06-09 07:22:32

深度強化學習(Deep Reinforcement Learning) ，強化學習是一種人工智能的通用架構：

1、強化學習是針對一個擁有行動能力的agent 而言的

2、每個行動影響了agent 的未來狀态

3、使用标量值回報信号來度量成功

一言以蔽之：選擇行動來最大化未來回報。我們最終的目标是尋求得到可以解決所有人類層級的任務的單一的agent，這也是智能agent 的本質。

agent和環境

強化學習結構：

在每個時間步t、agent：

–接受狀态St

–接受标量回報rt

–執行行動at

強化學習的環境：

–接受行動at

–産生狀态St

–産生标量回報rt

為什麼說強化學習是一種人工智能的通用架構？

強化學習的場景和例子

1、控制實體系統：行走、飛行、駕駛、遊泳、……

2、與使用者進行互動：客戶維護retain customers、個性化頻道personalisechannel、使用者體驗優化optimiseuser experience、……

3、解決物流問題：規劃scheduling、帶寬配置設定bandwidth allocation、電梯控制、認知無線電cognitive radio、電力優化power optimisation、……

4、玩遊戲：棋類、撲克、圍棋、Atari 遊戲、……

5、學習序列化算法：注意力attention、記憶memory、條件計算conditional computation、激活activation

政策policy 和估值value 函數

政策π 是給定狀态下選擇行動的行為函數：

a=π(s)

估值函數Qπ(s, a)是從狀态s開始在政策π 下采取行動a 的期望全回報：

為什麼說強化學習是一種人工智能的通用架構？

估值就是評估在狀态s 時采取行動a 的好壞。

強化學習的幾個方向

基于政策的強化

–直接搜尋最優政策π*

–目标就是得到最大未來回報的政策

基于估值的強化

–估計最優值函數Q*(s, a)

–在任何政策下可獲得的最大值

基于模型的強化

–建構一個環境的遷移模型

–使用該模型進行規劃（通過查找規則）

技術知識函數人工智能架構資訊處理

上一篇: TextField的使用

下一篇: TIOBE 8 月程式設計語言榜：Python 差點拿下第 3 名

繼續閱讀