強化學習新思潮1：值分布強化學習（01）

經典強化學習：

在标準強化學習任務中，智能體與環境之間的互動作用常常模組化為馬爾科夫決策過程，本專欄的第一講就是馬爾科夫決策過程，不熟悉的讀者可以到第一講去看看。為了保證行文連貫性，這裡再簡單重複下馬爾科夫決策過程。

馬爾科夫決策過程可以用五元組來描述，即

，其中

和

分别表示狀态空間和動作空間，

為狀态和動作依賴的立即回報函數，

為狀态轉移矩陣，

為折扣因子。政策用

來表示，即狀态空間向動作空間分布上的映射，即

。

智能體從狀态

開始，采用政策

與環境進行互動，可以得到一個狀态-動作-立即回報序列，則這些序列立即回報的折扣累計回報我們用

來表示，則

，由于狀态轉移機率的随機性和政策的随機性，該折扣累積回報

是一個随機變量，即

可能會取不同的值。行為值函數

定義為随機變量

的期望，即：

行為值函數的貝爾曼方程為：

強化學習的目标就是找到最優的政策

，以最大化行為值函數，也就是說最大化随機變量

的期望

，即在所有的狀态行為對處，對于所有的政策

，應該有

。

從經典強化學習到值分布強化學習

從上面經典強化學習算法的形式化我們可以看到，經典強化學習算法的目标函數是最大化行為值函數，即最大化折扣累計回報

的期望。這個目标函數是個标量，有很多很好的性質，可是……

可是，不要忘了，折扣累計回報

是一個随機變量，而随機變量是有分布的，這個分布所包含的資訊量要比均值所包含的資訊量多太多東西了。折扣累計回報的分布包含更多的環境互動資訊。

從這個視角來看，經典強化學習的形式化的過程其實已經忽略了很多有價值的東西。或許這就直接導緻了現有的強化學習算法不魯棒、學習速度慢、樣本效率低，調試難、訓練難等等問題。

一個很自然的問題是：我們能不能考慮這些分布資訊，重新将強化學習的問題進行形式化呢？

答案是肯定的。

那麼該如何去用這個分布呢？

在回答這個問題之前，我們先看一看，什麼時候這個分布是有用的。

答案很簡單：當這個分布确實是個分布時，也就是說在政策

下，狀态-動作對

處的折扣累計回報

确實是個随機變量的時候。

這個答案看上去很平凡，但是意義非凡。

比如：對于确定性環境，确定性政策，從理論上來說折扣累計回報

是一個确定的數，而非随機變量。但是，當狀态空間無窮大時，值函數往往采用函數逼近的方法進行表示，而函數逼近的方法從本質上來說是将無窮的狀态空間進行編碼，這就導緻了對應不同值函數的狀态編成距離很近甚至是相同的編碼，進而使得相同編碼所對應的折扣累計回報具有不同的值，使得該折扣累計回報變成了随機變量。即函數逼近的引入帶入了狀态表示的随機性。這也是為什麼函數逼近的方法難以像表格型強化學習那樣有很好的收斂性保證。

是以，當采用函數逼近的方法表示值函數時，這個分布是有意義的。2013年以來的深度強化學習便是采用深度神經網絡逼近值函數或者強化學習形式化中的其他元素，如狀态表示，回報，折扣因子。這些深度神經網絡的表示都會引入随機性。

是以值分布強化學習在深度強化學習算法中效果非常明顯。

那麼如何利用這個分布呢？

在接下來的文章中，我會逐漸介紹強化學習大神Marc G. Bellemare在值分布強化學習領域的一些探索性工作。

下一篇要介紹的工作為：

Bellemare M G , Dabney W , Munos, Rémi. A Distributional Perspective on Reinforcement Learning. 2017.

小夥伴們可以先下載下傳下來自己看看，然後坐等我下一篇的分析和講解

作者：柒月

強化學習新思潮1：值分布強化學習（01）

繼續閱讀

THE WISDOM OF THE CROWD: RELIABLE DEEP REINFORCEMENT LEARNING THROUGH ENSEMBLES OF Q--FUNCTIONS

THE BODY IS NOT A GIVEN: JOINT AGENT POLICY LEARNING AND MORPHOLOGY EVOLUTION

Temporal Difference Variational Auto-Encoder文章動機：

TARMAC: TARGETED MULTI-AGENT COMMUNICATION（TARMAC：目标多代理通信）

今天來給大家介紹一下基于強化學習的時間行為檢測自适應模型

利用DQN解決Gym庫的CartPole問題

作業系統筆記（一）計算機系統概述一、作業系統的基本概念二、作業系統的發展與分類三、作業系統的運作環境和體系結構四、異常和中斷五、系統調用

AlphaGo Zero是如何工作的？——AlphaGo Zero背後的強化學習算法原理

考證大全 | 證券從業資格考試

敲黑闆！2021年證券從業考試考點預測

2021年銀行從業考試考情介紹,果斷收藏!

證券從業合格證書什麼時候列印？有哪些注意事項？

【幹貨滿滿】初級銀行從業考試《個人理财》重點梳理

2020年經濟師考試，難嗎？

MBA提前面試純幹貨分享

MBA值得學麼