天天看點

強化學習新思潮1:值分布強化學習(01)

經典強化學習:

在标準強化學習任務中,智能體與環境之間的互動作用常常模組化為馬爾科夫決策過程,本專欄的第一講就是馬爾科夫決策過程,不熟悉的讀者可以到第一講去看看。為了保證行文連貫性,這裡再簡單重複下馬爾科夫決策過程。

馬爾科夫決策過程可以用五元組來描述,即 

強化學習新思潮1:值分布強化學習(01)

 ,其中 

強化學習新思潮1:值分布強化學習(01)

 和 

強化學習新思潮1:值分布強化學習(01)

 分别表示狀态空間和動作空間, 

強化學習新思潮1:值分布強化學習(01)

 為狀态和動作依賴的立即回報函數, 

強化學習新思潮1:值分布強化學習(01)

 為狀态轉移矩陣, 

強化學習新思潮1:值分布強化學習(01)

 為折扣因子。政策用 

強化學習新思潮1:值分布強化學習(01)

 來表示,即狀态空間向動作空間分布上的映射,即 

強化學習新思潮1:值分布強化學習(01)

智能體從狀态 

強化學習新思潮1:值分布強化學習(01)

 開始,采用政策 

強化學習新思潮1:值分布強化學習(01)

 與環境進行互動,可以得到一個狀态-動作-立即回報序列,則這些序列立即回報的折扣累計回報我們用 

強化學習新思潮1:值分布強化學習(01)

 來表示,則 

強化學習新思潮1:值分布強化學習(01)

 ,由于狀态轉移機率的随機性和政策的随機性,該折扣累積回報 

強化學習新思潮1:值分布強化學習(01)

 是一個随機變量,即 

強化學習新思潮1:值分布強化學習(01)

 可能會取不同的值。行為值函數 

強化學習新思潮1:值分布強化學習(01)

定義為随機變量 

強化學習新思潮1:值分布強化學習(01)

 的期望,即: 

強化學習新思潮1:值分布強化學習(01)

行為值函數的貝爾曼方程為:

強化學習新思潮1:值分布強化學習(01)

強化學習的目标就是找到最優的政策 

強化學習新思潮1:值分布強化學習(01)

 ,以最大化行為值函數,也就是說最大化随機變量

強化學習新思潮1:值分布強化學習(01)

 的期望 

強化學習新思潮1:值分布強化學習(01)

 ,即在所有的狀态行為對處,對于所有的政策 

強化學習新思潮1:值分布強化學習(01)

 ,應該有

強化學習新思潮1:值分布強化學習(01)

 。

從經典強化學習到值分布強化學習

從上面經典強化學習算法的形式化我們可以看到,經典強化學習算法的目标函數是最大化行為值函數,即最大化折扣累計回報 

強化學習新思潮1:值分布強化學習(01)

 的期望。這個目标函數是個标量,有很多很好的性質,可是……

可是,不要忘了,折扣累計回報 

強化學習新思潮1:值分布強化學習(01)

 是一個随機變量,而随機變量是有分布的,這個分布所包含的資訊量要比均值所包含的資訊量多太多東西了。折扣累計回報的分布包含更多的環境互動資訊。

從這個視角來看,經典強化學習的形式化的過程其實已經忽略了很多有價值的東西。或許這就直接導緻了現有的強化學習算法不魯棒、學習速度慢、樣本效率低,調試難、訓練難等等問題。

一個很自然的問題是:我們能不能考慮這些分布資訊,重新将強化學習的問題進行形式化呢?

答案是肯定的。

那麼該如何去用這個分布呢?

在回答這個問題之前,我們先看一看,什麼時候這個分布是有用的。

答案很簡單:當這個分布确實是個分布時,也就是說在政策 

強化學習新思潮1:值分布強化學習(01)

 下,狀态-動作對 

強化學習新思潮1:值分布強化學習(01)

處的折扣累計回報 

強化學習新思潮1:值分布強化學習(01)

 确實是個随機變量的時候。

這個答案看上去很平凡,但是意義非凡。

比如:對于确定性環境,确定性政策,從理論上來說折扣累計回報 

強化學習新思潮1:值分布強化學習(01)

是一個确定的數,而非随機變量。但是,當狀态空間無窮大時,值函數往往采用函數逼近的方法進行表示,而函數逼近的方法從本質上來說是将無窮的狀态空間進行編碼,這就導緻了對應不同值函數的狀态編成距離很近甚至是相同的編碼,進而使得相同編碼所對應的折扣累計回報具有不同的值,使得該折扣累計回報變成了随機變量。即函數逼近的引入帶入了狀态表示的随機性。這也是為什麼函數逼近的方法難以像表格型強化學習那樣有很好的收斂性保證。

是以,當采用函數逼近的方法表示值函數時,這個分布是有意義的。2013年以來的深度強化學習便是采用深度神經網絡逼近值函數或者強化學習形式化中的其他元素,如狀态表示,回報,折扣因子。這些深度神經網絡的表示都會引入随機性。

是以值分布強化學習在深度強化學習算法中效果非常明顯。

那麼如何利用這個分布呢?

在接下來的文章中,我會逐漸介紹強化學習大神Marc G. Bellemare在值分布強化學習領域的一些探索性工作。

下一篇要介紹的工作為:

Bellemare M G , Dabney W , Munos, Rémi. A Distributional Perspective on Reinforcement Learning. 2017.

小夥伴們可以先下載下傳下來自己看看,然後坐等我下一篇的分析和講解

作者:柒月

繼續閱讀