天天看點

為什麼說強化學習是一種人工智能的通用架構?

深度強化學習(Deep Reinforcement Learning) ,強化學習是一種人工智能的通用架構:

1、強化學習是針對一個擁有行動能力的agent 而言的

2、每個行動影響了agent 的未來狀态

3、使用标量值回報信号來度量成功

一言以蔽之:選擇行動來最大化未來回報。我們最終的目标是尋求得到可以解決所有人類層級的任務的單一的agent,這也是智能agent 的本質。

agent和環境

強化學習結構:

在每個時間步t、agent:

–接受狀态St

–接受标量回報rt

–執行行動at

強化學習的環境:

–接受行動at

–産生狀态St

–産生标量回報rt

為什麼說強化學習是一種人工智能的通用架構?

強化學習的場景和例子

1、控制實體系統:行走、飛行、駕駛、遊泳、……

2、與使用者進行互動:客戶維護retain customers、個性化頻道personalisechannel、使用者體驗優化optimiseuser experience、……

3、解決物流問題:規劃scheduling、帶寬配置設定bandwidth allocation、電梯控制、認知無線電cognitive radio、電力優化power optimisation、……

4、玩遊戲:棋類、撲克、圍棋、Atari 遊戲、……

5、學習序列化算法:注意力attention、記憶memory、條件計算conditional computation、激活activation

政策policy 和估值value 函數

政策π 是給定狀态下選擇行動的行為函數:

a=π(s)

估值函數Qπ(s, a)是從狀态s開始在政策π 下采取行動a 的期望全回報:

為什麼說強化學習是一種人工智能的通用架構?

估值就是評估在狀态s 時采取行動a 的好壞。

強化學習的幾個方向

基于政策的強化

–直接搜尋最優政策π*

–目标就是得到最大未來回報的政策

基于估值的強化

–估計最優值函數Q*(s, a)

–在任何政策下可獲得的最大值

基于模型的強化

–建構一個環境的遷移模型

–使用該模型進行規劃(通過查找規則)

繼續閱讀