天天看點

視訊 | NeurIPS 2019分享:清華大學孫富春組提出全新模仿學習理論

在 NeurIPS 2019正式召開以前,機器之心精心策劃了 NeurIPS 2019 專題,包括線上分享、論文解讀、現場報道等内容。11月14日,第一期分享已經圓滿結束。本文介紹的是「全新智能體觀測模仿學習」,這是清華計算機系類腦計算與認知團隊最新提出的一種學習理論,也是學界首次将生成式對抗方法推廣到觀測模仿學習中。

在上周四的

第一期線上分享

中,清華計算機系博士後黃文炳為大家詳細解讀了大會接收的這篇 Spotlight 論文《Imitation Learning from Observations by Minimizing Inverse Dynamics Disagreement》。

以下是本期視訊回顧:    

視訊 | NeurIPS 2019分享:清華大學孫富春組提出全新模仿學習理論
點選檢視原視訊

PPT下載下傳:

https://pan.baidu.com/s/1Zj59PAe4hYhDDh5zd4gWZg

引言 

觀測模仿學習(Imitation learning from observations)是示教學習(Learning from demonstrations,模仿學習)的前沿發展方向,目前的示教學習是在給出一定數量的專家(稱為示教者)示教軌迹的前提下,通過監督學習、強化學習等機器學習方法訓練智能體(稱為學習者)控制政策,讓智能體的行為盡可能與專家相似,進而使得智能體表現出專家行為的過程。 模仿學習主要分為兩類,一類是行為克隆(Behavioral Clone),另一類是逆強化學習(Inverse Reinforcement Learning), 标準的行為克隆方法是一類通過監督學習方法實作模仿學習的途徑,是模仿學習中最簡單最直覺的方式,這類方法可以了解成智能體接受專家提供的示教樣本并轉換成狀态-動作對形式,采用分類器(離散控制政策)或回歸器(連續控制政策)拟合專家政策的過程。然而這類方法中智能體不進行環境互動與探索,訓練的政策往往存在累積誤差,而且性能受限于專家樣本。 是以有更多的研究人員關注到通過逆強化學習實作示教學習問題,通過示教樣本學習獎懲函數(動作好壞的規則),進而利用強化學習方法讓智能體在學到的獎懲函數下探索環境并利用探索樣本學習控制政策,學習性能在大多場景下往往超過行為克隆方法。 在逆強化學習實習的模仿學習中,GAIL[1] 算法首次将對抗訓練機制引入模仿學習中,本文在 GAIL 的方法基礎上,進一步探讨當專家示教不完備情況下如何完成模仿學習,特别是在實際機器人學習場景中最常見的【專家樣本中不包含動作資訊】情況,我們稱這類模仿學習為觀測模仿學習。本文理論上發現了觀測模仿學習與正常的模仿學習之間的鴻溝差異,證明了該鴻溝差異存在優化上界,并提出了一種模型無關的優化方法。 模仿學習,特别是觀測模仿學習,高效地讓機器人學會人所掌握的技能或處理任務的能力,是未來智能機器人得以廣泛應用的保證。

視訊 | NeurIPS 2019分享:清華大學孫富春組提出全新模仿學習理論

方法

基于逆強化學習的模仿學習代表性工作 Generative Adversarial Imitation Learning (GAIL),将對抗訓練過程引入智能體模仿學習中,其中判别器用于區分智能體探索樣本(Fake Sample)與專家樣本(Real Sample),進而利用判别器描述的獎懲函數探索環境并通過強化學習訓練智能體政策。提供專家樣本為:

視訊 | NeurIPS 2019分享:清華大學孫富春組提出全新模仿學習理論

,其優化目标可以表示為:

視訊 | NeurIPS 2019分享:清華大學孫富春組提出全新模仿學習理論

其中

視訊 | NeurIPS 2019分享:清華大學孫富春組提出全新模仿學習理論

分别表示智能體與專家的狀态 (s)-動作 (a) 的占用率度量(State-Action Occupancy Measure),是刻畫控制政策對應表現行為的數學統計量,對于平穩随機過程,該占用率度量為唯一确定的統計量,

視訊 | NeurIPS 2019分享:清華大學孫富春組提出全新模仿學習理論

為計算 Kullback-Leibler (KL) 散度(文章附錄部分進一步推導了 Jensen-Shannon (JS) 散度下的占用率度量逼近過程)。在 GAIL 論文中證明了最小化專家與學習者的占用率度量的 Jensen-Shannon (JS) 散度,可以有效解決模仿專家政策問題。

進一步地,當專家示教不完備情況下,考慮專家示教中不包含動作資訊,即專家樣本為:

視訊 | NeurIPS 2019分享:清華大學孫富春組提出全新模仿學習理論

,觀測模仿學習的一種直覺地改進優化方法 GAIfO [2] 為:

視訊 | NeurIPS 2019分享:清華大學孫富春組提出全新模仿學習理論

該優化目标直接将狀态-動作占用率度量替換為狀态轉移占用率度量,在後面的證明中會說明這樣的優化目标僅能适用于特定的動力學系統的情形,在更多的動力學系統情況下這樣的優化方法将會失效。

具體步驟

首先,對于專家與智能體具有相同動力學系統的情形,可以證明觀測模仿學習與正常的模仿學習之間存在一定的關聯(證明過程請檢視文章附錄):定理1:如果智能體與專家之間共享相同的動力學系統模型,那麼正常的模仿學習、樸素的觀測模仿學習與逆動力學系統差異之間的關聯可以表示成以下形式:

視訊 | NeurIPS 2019分享:清華大學孫富春組提出全新模仿學習理論

其中,

視訊 | NeurIPS 2019分享:清華大學孫富春組提出全新模仿學習理論

為專家與智能體的逆動力學系統機率分布的 KL 測度,這裡稱之為 Inverse dynamics disagreement(IDD), 描述二者間的逆動力學系統差異程度,根據貝葉斯公式

視訊 | NeurIPS 2019分享:清華大學孫富春組提出全新模仿學習理論

,可以知道智能體的逆動力學系統

視訊 | NeurIPS 2019分享:清華大學孫富春組提出全新模仿學習理論

是與控制政策

視訊 | NeurIPS 2019分享:清華大學孫富春組提出全新模仿學習理論

有關的,是以逆動力學系統的差異也一定程度上刻畫了專家與智能體的控制政策的差異,進一步分析,當智能體動力學系統的單射變換時,可以證明:

推論1:當動力學模型為單射變換時,樸素的觀測模仿學習等效于正常的模仿學習。

視訊 | NeurIPS 2019分享:清華大學孫富春組提出全新模仿學習理論

然後,建立了觀測模仿學習與正常模仿學習的關系後,可以看出對于模仿學習問題,除了優化樸素的觀測模仿學習目标(公式(2))外,還需要進一步去優化 IDD 這一項,可以證明 IDD 的優化上界可以表示為:

定理2:令、
視訊 | NeurIPS 2019分享:清華大學孫富春組提出全新模仿學習理論
分别代表智能體與專家的狀态-動作占用率度量的資訊熵,當
視訊 | NeurIPS 2019分享:清華大學孫富春組提出全新模仿學習理論
最小化的時候:

視訊 | NeurIPS 2019分享:清華大學孫富春組提出全新模仿學習理論

其中,最大化資訊熵

視訊 | NeurIPS 2019分享:清華大學孫富春組提出全新模仿學習理論

可以轉換成最大化政策熵

視訊 | NeurIPS 2019分享:清華大學孫富春組提出全新模仿學習理論

與互資訊

視訊 | NeurIPS 2019分享:清華大學孫富春組提出全新模仿學習理論

之和,具體推導可以檢視論文公式(8-9)。 最後綜合上述,推導出觀測模仿學習問題的優化目标為:

視訊 | NeurIPS 2019分享:清華大學孫富春組提出全新模仿學習理論
視訊 | NeurIPS 2019分享:清華大學孫富春組提出全新模仿學習理論

實驗

在實驗中,研究者先設計了一個 GridWorld 的導航任務,用于說明 IDD 在觀測模仿學習中的存在性,如下圖所示,網格中相鄰位置之間的轉移動作方式由 1 到 11 種變化,當隻有 1 種動作轉移方式的時候,也就是環境的動力學為單射變換的情況,GAIL,GAIfO 以及本研究的方法表現相當的性能,與推論 1 中的結論一緻,随着相鄰位置之間的轉移動作方式逐漸增多時,GAIfO 的性能逐漸下降,但本項研究的方法仍能較好提升觀測模仿學習效果。

視訊 | NeurIPS 2019分享:清華大學孫富春組提出全新模仿學習理論

圖 1.(右圖)三個網格實驗圖分别表示在導航任務中即使在相同的路線下(代表狀态轉移分布

視訊 | NeurIPS 2019分享:清華大學孫富春組提出全新模仿學習理論

一樣),可能出現不同的動作方式

視訊 | NeurIPS 2019分享:清華大學孫富春組提出全新模仿學習理論

。(左圖)三種方法在随着轉移動作種類逐漸增多過程中,表現效果的變化趨勢。注:GAIL 方法中是正常的模仿學習問題,示教樣本中包含動作資訊,屬于 GAIfO 和本方法的理論上限。 

另外,研究者在 Gym 下的 Mujoco 實驗中 6 個任務中進一步驗證了本研究方法的模仿效果,相比于其他觀測模仿學習方法(關于其他觀測模仿學習方法的具體介紹,可以檢視論文的 Related Work 部分),本研究方法均取得了最好效果。更多消融實驗與參數敏感性分析實驗可以檢視論文及論文附錄。

視訊 | NeurIPS 2019分享:清華大學孫富春組提出全新模仿學習理論

表 1. 本研究方法與基準方法在标準的 Mujoco 實驗環境下的 6 種 task 的定量表現結果,所有數值均為标準任務下的 reward 定義。其中 GAIfO-s*方法是将 GAIfO 方法中的狀态轉移占用率度量

視訊 | NeurIPS 2019分享:清華大學孫富春組提出全新模仿學習理論

替換為狀态占用率度量

視訊 | NeurIPS 2019分享:清華大學孫富春組提出全新模仿學習理論

的樸素觀測模仿學習方法。

視訊 | NeurIPS 2019分享:清華大學孫富春組提出全新模仿學習理論

圖 2. 政策可視化運作結果圖,左邊為專家示教樣本(通過強化學習訓練得來),中間為樸素的觀測模仿學習優化結果,右邊是本研究方法的表現結果。

參考文獻:

[1] Ho J, Ermon S. Generative adversarial imitation learning[C]//Advances in neural information processing systems. 2016: 4565-4573.[2] Torabi F, Warnell G, Stone P. Generative adversarial imitation from observation[J]. arXiv preprint arXiv:1807.06158, 2018.

繼續閱讀