天天看點

強化學習與視覺語言模型之間的碰撞,UC伯克利提出語言獎勵調節LAMP架構

作者:将門創投

在強化學習(RL)領域,一個重要的研究方向是如何巧妙的設計模型的獎勵機制,傳統的方式是設計手工獎勵函數,并根據模型執行任務的結果來回報給模型。後來出現了以學習獎勵函數(learned reward functions,LRF)為代表的稀疏獎勵機制,這種方式通過資料驅動學習的方式來确定具體的獎勵函數,這種方法在很多複雜的現實任務中展現出了良好的性能。

本文介紹一篇來自UC伯克利研究團隊的最新論文,本文作者質疑,使用LRF來代替任務獎勵的方式是否合理。是以本文以當下火熱的視覺語言模型(Vision-Language Models,VLMs)的zero-shot能力為研究對象,作者認為這種zero-shot能力可以作為RL模型的預訓練監督信号,而不是将其單純作為下遊任務中的獎勵,并提出了一種稱為語言獎勵調節預訓練模型LAMP,LAMP首先使用參數當機的預訓練VLMs,并且通過在内容豐富的語言指令集上與代理捕獲的視覺資訊進行對比查詢,來生成多樣化的預訓練獎勵,随後通過強化學習算法來優化這些獎勵。作者通過廣泛的實驗表明,LAMP不同于以往的VLMs預訓練方式,可以在機器人操縱任務領域實作非常驚人的樣本高效學習。

強化學習與視覺語言模型之間的碰撞,UC伯克利提出語言獎勵調節LAMP架構

文章連結:

https://arxiv.org/abs/2308.12270

代碼倉庫:

https://github.com/ademiadeniji/lamp

強化學習與視覺語言模型之間的碰撞,UC伯克利提出語言獎勵調節LAMP架構

一、介紹

回過頭看,強化學習領域也經曆了從手工設計獎勵函數到網絡自主學習的發展曆程。手工設計的獎勵函數往往會過度工程化,這使得其無法适用于新的代理程式和新的環境,是以發展出來通過從大量示範資料中學習所需的最優獎勵函數,但是這種方式也會帶來大量的噪聲和錯誤的獎勵,這在高精密機器人操縱等複雜的任務領域是不可靠的。本文作者受現有大型預訓練VLMs的啟發,VLM可以在多種任務上展現出高效的zero-shot性能,且擁有快速适應新任務的能力。同時VLMs的訓練過程是通過計算代理模型對圖像的特征表示與任務特定文本語言之間的對齊分數來實作,這種方式具有一種隐含的多任務适應能力,即其隻需要使用不同的語言指令進行提示,就可以生成多種不同獎勵的可擴充方法。這一特性尤其符合RL預訓練的假設,即将這種跨任務的獎勵作為RL通用代理的預訓練工具,而不再依靠之前的含噪LRF來訓練隻能在單一任務上運作的專家RL模型。

強化學習與視覺語言模型之間的碰撞,UC伯克利提出語言獎勵調節LAMP架構

上圖展示了本文所提LAMP模型的整體架構,在預訓練階段,LAMP可以利用高度多樣化的語言提示和從代理模型中提取到的視覺特征來構成文本視覺對,并将這些資料對輸入到VLMs中進行查詢,進而生成多樣化的、形狀各異的預訓練獎勵。而在下遊任務微調階段,可以使用一種簡單的以語言為條件的多任務強化學習算法來優化這些獎勵,通過實驗證明,LAMP在真實的機器人環境中可以有效的降低下遊任務微調的樣本數量,但同時保持較好的操縱性能。

二、方法

下圖展示了LAMP的具體實作過程,LAMP主要包含兩個訓練階段:(1)與任務無關的RL預訓練階段,使用一系列語言指令來從VLMs模型中查詢獎勵,來對RL代理模型進行預訓練。(2)下遊任務的微調階段,使用新任務的指令,并以這些語言指令為條件調整預訓練學習到的政策,通過最大化新任務獎勵來解決目标任務。

強化學習與視覺語言模型之間的碰撞,UC伯克利提出語言獎勵調節LAMP架構

2.1 語言獎勵調節

為了從VLMs中提取RL的預訓練獎勵信号,作者選取了R3M[1]作為視覺語言特征提取器,R3M從大規模第一人稱視角的人類視訊資料集Ego4D中提取特征語義表示,有效提升了現實世界機器人領域中模仿學習的資料效率。語言輸入使用

來處理,

是一種預訓練的DistilBERT transformer模型,可以高效的聚合文本指令中每個單詞的嵌入編碼。作者使用R3M作為文本指令與視覺觀察特征之間的獎勵分數生成器,作者認為R3M分數更适合于提供視覺層面上的動作獎勵,因為它的表征經過了明确的訓練,可以了解視訊中的時序資訊。具體來說,使用R3M分數定義的獎勵如下:

強化學習與視覺語言模型之間的碰撞,UC伯克利提出語言獎勵調節LAMP架構

其中

表示R3M中的分數預測器,

分别表示圖像

之間的視覺特征,作者發現,與其他的VLMs相比,使用R3M分數得到的獎勵與專家示範中的獎勵非常接近,下圖展示了R3M與其他兩種模型InternVideo[2]和ZeST[3]在RLBench下遊任務上的視覺語言對齊效果,但是從獎勵曲線來看,三種方法的獎勵走向并不穩定,這表明我們很難直接使用這些獎勵來優化最終模型,是以作者僅在預訓練階段将這些獎勵作為一種探索信号。

強化學習與視覺語言模型之間的碰撞,UC伯克利提出語言獎勵調節LAMP架構

2.2 以語言為條件進行行為學習

為了使訓練得到的RL模型可以用于多種不同的下遊任務,作者為LAMP設計了一組具有視覺效果和各種對象的任務,首先基于RLBench仿真工具包建構了一個自定義環境,為了模拟逼真的視覺場景,作者從Ego4D資料集中下載下傳了大量的真實場景圖像,并将其作為紋理疊加在環境的桌面和背景上。為了制作多樣化的物體和功能,作者将大量的ShapeNet 3D物體網格導入到環境中,這樣可以使得訓練過程中出現的視覺紋理和物體在每次疊代時都是随機的。由于LAMP得到的獎勵分數可以被用來衡量代理模型解決任務與實際任務要求之間的距離,是以它可以很容易地與一些無監督的RL方法相結合。是以,為了激發LAMP對新任務的探索能力,作者将LAMP獎勵與Plan2Explore算法[4]的内在獎勵結合起來,Plan2Explore是一種傾向于探索任務新穎性的無監督強化學習算法,其利用與未來時刻的隐藏狀态預測之間的差異作為新穎性得分,這個新穎性分數可以表示為

,因而可以得到預訓練階段的代理目标函數,表示為如下的權重獎勵總和:

強化學習與視覺語言模型之間的碰撞,UC伯克利提出語言獎勵調節LAMP架構

作者使用ChatGPT來生成一系列的機器人操縱任務,例如“按下按鈕(Push Button)”、“拿起水杯(Pick up Cup)”等,LAMP每次會從這些任務中随機抽取一些語言提示

,然後得到其對應的視覺嵌入

,之後根據上一節中描述的方法計算得到最終的獎勵。在預訓練結束後,LAMP就得到了一種較為通用的語言條件政策,它能夠引導機器人完成語言

指定的各種行為。具體如下圖所示,預訓練過程主要基于Ego4D紋理的随機環境上進行。

強化學習與視覺語言模型之間的碰撞,UC伯克利提出語言獎勵調節LAMP架構

由于LAMP已經學習到了一定的語言條件政策,是以隻需要選擇與下遊任務語義大緻對應的語言指令

,即可對預訓練代理進行下遊任務的條件化,作者強調這是LAMP的一個顯著的優勢,它使用語言作為任務說明符,這使得我們可以以極低成本的方式對模型進行下遊任務的微調。

三、 實驗效果

本文的實驗在96個随機域環境上進行,這些環境是通過随機采樣不同的Ego4D紋理得到的,同時作者還以0.2的機率對RLBench預設環境紋理的環境進行采樣,對于機器人的操作空間,作者設定了4維的連續動作空間,其中前三個次元表示機器人末端執行器的位置資訊,最後一個次元用來控制機械臂的夾具動作。作者選取了一個從頭訓練的代理模型以及Plan2Explore(P2E)方法作為對比baseline進行實驗

3.1 模型微調效果

作者選取了Pick Up Cup(拿起杯子)、Take Lid Off Saucepan(打開鍋蓋)、Push Button(按下按鈕)、Close Microwave(關閉微波爐)和Turn Tap(打開水龍頭)五個常見的操作任務進行實驗,下圖展示了實驗結果對比。

強化學習與視覺語言模型之間的碰撞,UC伯克利提出語言獎勵調節LAMP架構

可以看出,從頭開始對随機初始化的代理進行新任務訓練會表現出較高的樣本複雜度,在大多數的RLBench任務中,采用無監督探索的Plan2Explore方法明顯超過了從頭開始訓練的性能,進而可以觀察到,本文提出的LAMP方法的性能更好,作者分析認為,LAMP使用VLMs獎勵進行預訓練,可以使代理模型得到更加多樣化的獎勵,這樣學習到的表征使其能夠在微調期間快速适應到全新的任務上。

3.2 對語言提示進行消融實驗

使用預訓練VLMs的一個優勢是可以通過輸入多樣性的查詢文本來獲得近乎無限的獎勵,作者對預訓練階段使用的不同提示樣式進行了消融研究,使用的6種語言提示風格如下:

強化學習與視覺語言模型之間的碰撞,UC伯克利提出語言獎勵調節LAMP架構

其中提示樣式1-5主要對比了動詞和名詞相關和多種不相關情況的對比,而提示樣式 6,作者直接選擇了較高難度的莎士比亞的文本片段,以觀察完全在預訓練分布之外的樣本适應情況,下圖中展示了使用不同提示樣式預訓練之後的模型微調效果對比。

強化學習與視覺語言模型之間的碰撞,UC伯克利提出語言獎勵調節LAMP架構

其中提示1-5都是基于任務動作的提示,這裡選擇了任務“拿起杯子”,因為該任務名稱簡單,而且與預訓練中的提示非常相似,可以看到,在這項任務中,語義相似但提示語呈現多樣化的提示樣式2達到了最佳性能。而在上圖右側作者重點分析了莎士比亞文本對模型微調的影響,其中作為對比的是使用最佳提示樣式2的模型,可以看到,在去除掉P2E模型後,LAMP Prompt 6和LAMP Prompt 2的性能表現基本上持平,但是當加入P2E模型後,使用這些分布外的語言提示,會嚴重影響LAMP的性能。

3.3 與其他視覺語言獎勵模型進行比較

除了對語言提示進行研究之外,作者還對預訓練階段使用不同VLMs的效果進行了對比,這裡作者選擇了ZeST模型,ZeST大體上與CLIP模型的訓練方式相同,也是通過提取文本特征與圖像特征之間的相似度來作為獎勵模型。

強化學習與視覺語言模型之間的碰撞,UC伯克利提出語言獎勵調節LAMP架構

上圖展示了LAMP使用R3M和ZeST在“Pick Up Cup”下遊任務上的微調效果對比,其中R3M似乎能帶來更好的持續性能,但ZeST預訓練的性能也不差。由此作者得出結論,本文的方法本質上并不依賴于特定的VLM,未來可以更換更加強大的VLMs來進一步提高性能。

四、總結

在這項工作中,作者研究了如何利用VLMs的靈活性作為多樣化強化學習獎勵生成的一種手段,并且提出了一種基于語言提示的獎勵調節模型LAMP,LAMP突破了傳統深度強化學習中學習獎勵函數的諸多限制,并且利用VLMs強大的zero-shot泛化能力,可以在模型預訓練期間産生很多不同的獎勵。此外作者發現,基于VLMs的獎勵模型可以與很多新型的RL優化方法相結合,例如其與Plan2Explore結合可以帶來強大的性能。本文通過大量的實驗表明,LAMP方法在多種具有挑戰性的場景中表現出了更加優越的強化學習優化能力。

參考

[1] Suraj Nair, Aravind Rajeswaran, Vikash Kumar, Chelsea Finn, and Abhinav Gupta. R3m: A universal visual representation for robot manipulation, 2022.[2] Yi Wang, Kunchang Li, Yizhuo Li, Yinan He, Bingkun Huang, Zhiyu Zhao, Hon jie Zhang, Jilan Xu, Yi Liu, Zun Wang, Sen Xing, Guo Chen, Junting Pan, Jiashuo Yu, Yali Wang, Limin Wang, and Yu Qiao. Internvideo: General video foundation models via generative and discriminative learning, 2022.[3] Yuchen Cui, Scott Niekum, Abhinav Gupta, Vikash Kumar, and Aravind Rajeswaran. Can foundation models perform zero-shot task specification for robot manipulation?, 2022.[4] Ramanan Sekar, Oleh Rybkin, Kostas Daniilidis, Pieter Abbeel, Danijar Hafner, and Deepak Pathak. Planning to explore via self-supervised world models. CoRR, abs/2005.05960, 2020

作者:seven_

Illustration by IconScout Store from IconScout

-The End-

掃碼觀看!

本周上新!

“AI技術流”原創投稿計劃

TechBeat是由将門創投建立的AI學習社群(www.techbeat.net)。社群上線500+期talk視訊,3000+篇技術幹貨文章,方向覆寫CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高品質、知識型交流平台,希望為AI人才打造更專業的服務和體驗,加速并陪伴其成長。

投稿内容

// 最新技術解讀/系統性知識分享 //

// 前沿資訊解說/心得經曆講述 //

投稿須知

稿件需要為原創文章,并标明作者資訊。

我們會選擇部分在深度技術解析及科研心得方向,對使用者啟發更大的文章,做原創性内容獎勵

投稿方式

發送郵件到

[email protected]

或添加從業人員微信(chemn493)投稿,溝通投稿詳情;還可以關注“将門創投”公衆号,背景回複“投稿”二字,獲得投稿說明。

>>> 添加小編微信!

關于我“門”▼

将門是一家以專注于數智核心科技領域的新型創投機構,也是北京市标杆型孵化器。公司緻力于通過連接配接技術與商業,發掘和培育具有全球影響力的科技創新企業,推動企業創新發展與産業更新。

将門成立于2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬建構而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。

如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投後服務,歡迎發送或者推薦項目給我“門”:

強化學習與視覺語言模型之間的碰撞,UC伯克利提出語言獎勵調節LAMP架構

⤵一鍵送你進入TechBeat快樂星球

繼續閱讀