深度強化學習(Deep Reinforcement Learning) ,強化學習是一種人工智能的通用架構:
1、強化學習是針對一個擁有行動能力的agent 而言的
2、每個行動影響了agent 的未來狀态
3、使用标量值回報信号來度量成功
一言以蔽之:選擇行動來最大化未來回報。我們最終的目标是尋求得到可以解決所有人類層級的任務的單一的agent,這也是智能agent 的本質。
agent和環境
強化學習結構:
在每個時間步t、agent:
–接受狀态St
–接受标量回報rt
–執行行動at
強化學習的環境:
–接受行動at
–産生狀态St
–産生标量回報rt
強化學習的場景和例子
1、控制實體系統:行走、飛行、駕駛、遊泳、……
2、與使用者進行互動:客戶維護retain customers、個性化頻道personalisechannel、使用者體驗優化optimiseuser experience、……
3、解決物流問題:規劃scheduling、帶寬配置設定bandwidth allocation、電梯控制、認知無線電cognitive radio、電力優化power optimisation、……
4、玩遊戲:棋類、撲克、圍棋、Atari 遊戲、……
5、學習序列化算法:注意力attention、記憶memory、條件計算conditional computation、激活activation
政策policy 和估值value 函數
政策π 是給定狀态下選擇行動的行為函數:
a=π(s)
估值函數Qπ(s, a)是從狀态s開始在政策π 下采取行動a 的期望全回報:
估值就是評估在狀态s 時采取行動a 的好壞。
強化學習的幾個方向
基于政策的強化
–直接搜尋最優政策π*
–目标就是得到最大未來回報的政策
基于估值的強化
–估計最優值函數Q*(s, a)
–在任何政策下可獲得的最大值
基于模型的強化
–建構一個環境的遷移模型
–使用該模型進行規劃(通過查找規則)