編輯:LRS
【新智元導讀】李飛飛朝着她的北極星「具身智能」又前進了一步!
人工智能領域的下一個發展機會,有可能是給AI模型裝上一個「身體」,與真實世界進行互動來學習。
相比現有的自然語言處理、計算機視覺等在特定環境下執行的任務來說,開放領域的機器人技術顯然更難。
比如prompt-based學習可以讓單個語言模型執行任意的自然語言處理任務,比如寫代碼、做文摘、問答,隻需要修改prompt即可。
但機器人技術中的任務規範種類更多,比如模仿單樣本示範、遵照語言訓示或者實作某一視覺目标,這些通常都被視為不同的任務,由專門訓練後的模型來處理。
最近來自英偉達、斯坦福大學、瑪卡萊斯特學院、加州理工、清華大學和得克薩斯大學奧斯汀分校的研究人員共同提出一個基于Transformer的通用機器人智能體VIMA,利用多模态的prompt,實作極高的泛化性能,能夠處理大量的機器人操作任務。
論文連結:https://arxiv.org/abs/2210.03094
項目連結:https://vimalabs.github.io/
代碼連結:https://github.com/vimalabs/VIMA
輸入prompt為交錯使用的文字和視覺符号。
為了訓練和評估VIMA,研究人員提出了一個新的模拟基準資料集,包含上千個由程式生成的帶有多模态提示的桌面任務,和60多萬條專家軌迹用于模仿學習,以四個等級來評估模型的泛化性能。
在同等尺寸的模型、等量訓練資料的情況下,VIMA在最難的zero-shot的泛化設定下任務成功率為當下sota方法的2.9倍。
在訓練資料減少10倍的情況下,VIMA的表現仍然比其他方法好2.7倍。
目前所有的代碼、預訓練模型、資料集和模拟基準都已完全開源。
論文的第一作者是Yunfan Jiang,斯坦福大學碩士二年級學生,目前在英偉達研究院實習。2020年大學畢業于愛丁堡大學。他的主要研究方向為具身人工智能(embodied AI),即通過與環境的互動來學習。具體研究内容為如何利用大規模的基礎模型來實作開放式的的具身智能體(embodied agents)
論文包含兩位導師,均為李飛飛曾經的學生。
朱玉可,大學畢業于浙江大學,并取得了浙江大學和加拿大西蒙弗雷澤大學的雙學位。碩士和博士研究所學生就讀于斯坦福大學,師從李飛飛,并于2019年8月取得博士學位。朱玉可現任UT Austin計算機科學系助理教授,同時是機器人感覺和學習實驗室的主任,以及英偉達研究院進階研究科學家。
範麟熙,博士畢業于斯坦福大學,師從李飛飛,目前是NVIDIA AI的研究科學家。主要研究方向為開發通用且強大的自主智能體(generally capable autonomous agents),具體的研究工作涵蓋了基礎模型、政策學習、機器人技術、多模式學習和大規模系統。
機器人與多模态prompt
Transformer在NLP領域多任務已經實作相當高的性能,僅一個模型就能同時完成問答、機器翻譯、文本摘要等。
實作不同任務的接口就在于輸入的文本提示,進而将具體的任務需求傳遞給通用大模型。
能不能把這種prompt接口用在通用機器人智能體上呢?
對于一個家務機器人來說,理想情況下,隻需要輸入給我拿<杯子的圖像>,機器人就可以按照圖檔把杯子拿過來。
當機器人需要學習新技能時,最好可以通過輸入視訊示範就能學習。如果機器人需要與不熟悉的物體進行互動時,隻需要通過圖例即可輕松解釋。
同時為了確定安全部署,使用者可以進一步指定視覺限制,比如不要進入<圖像>房間
為了實作這些功能,VIMA模型主要包含三部分:
1、 形式化多模态提示,将機器人操縱任務轉化為一個序列模組化問題;
2、一個新的機器人智能體模型,能夠進行多任務操作
3、一個具有不同任務的大規模基準,以系統地評估智能體的可擴充性和通用性
首先,由多模态提示帶來的靈活性可以讓開發者指定和建構一個模型即可支援大量的任務規範,這篇論文中主要考慮六類任務:
1、簡單物體操縱(Simple object manipulation),任務提示形如put <object> into <container>,其中對應的槽位為物體的圖像;
2、實作視覺目标(Visual goal reaching),操縱物體實作目标設定,比如重新排列(rearragement);
3、接納新概念(Novel concept grounding),提示中包含一些不常見的詞,例如dax, blicket等,可以通過在提示内的圖像進行解釋,然後直接在指令中使用,可以測試智能體對新概念的認知速度;
4、單樣本視訊模仿(One-shot video imitation),觀看視訊示範,并學習如何以相同的移動路徑對一個特定物體進行複現;
5、滿足視覺限制(Visual constraint satisfaction),機器人必須小心地操縱物體,來避免觸犯安全性限制;
6、視覺推理(Visual reasoning),有一些任務要求智能體需要會推理,比如「把所有和<object>相同紋理的物體都放到一個容器中」,或者要求視覺記憶,如「把<object>放到容器中,然後再放回到原位」
需要注意的是,這六類任務并非互斥,比如有的任務可能會通過示範視訊(imitation)引入了一個之前沒見過的動詞(Novel Concept)
新基準VIM-BENCH
巧婦難為無米之炊,為了訓練模型,研究人員同時準備了一些配套資料作為多模态機器人學習基準VIMA-BENCH。
在仿真環境(Simulation Environment)上,現有的基準一般都是針對特定的任務規範,目前還沒有一個基準能夠提供豐富的多模态任務套件和全面的測試平台來有針對性地探測代理能力。
為此,研究人員通過擴充Ravens機器人模拟器來建立VIMA-BENCH,支援可擴充的物體和紋理集合,以組成多模态提示,并按程式生成大量的任務。
具體來說,VIMA-BENCH提供了17個帶有多模态提示模闆的元任務,可以被執行個體化為1000個獨立的任務。每個元任務屬于上述6種任務規範方法中的一種或多種。
VIMA-BENCH可以通過腳本化的oracle智能體生成大量的模仿學習資料。
在觀察和行動(Observation and Actions)上,模拟器的觀察空間包括從正視圖和自上而下視圖渲染的RGB圖像,基準還提供真實的物體分割和邊界框,用于訓練以物體為中心的模型。
VIM-BENCH從前人工作中繼承了進階動作空間,由最基礎的運動技能組成,如「取放」、「擦拭」等,具體由終端效果的姿勢所決定。
模拟器還具有腳本化的oracle程式,可以通過使用特權模拟器的狀态資訊,如所有物體的精确位置,以及多模态指令的基礎解釋,生成專家示範。
最終,研究人員通過預程式設計的oracles生成了一個大型的專家軌迹離線資料集用于模仿學習。資料集包括每個元任務的5萬條軌迹,共計65萬條成功的軌迹。
同時保留一個物體模型和紋理的子集友善評估,并将17個元任務中的4個用于zero-shot泛化性測試。
VIMA-BENCH的每個任務标準隻有成功和失敗,不存在中間狀态的獎勵信号。
在測試時,研究人員在實體模拟器中執行智能體政策,以計算出成功率,所有評估的元任務的平均成功率為最終報告的名額。
評估協定包含四個層次以系統地探測智能體的泛化能力,每一級都更多地偏離訓練分布,是以嚴格來說一級比一級難。
1、放置泛化(Placement generalization):在訓練過程中,所有的提示都是逐字逐句的,但在測試時,桌面上的物體放置是随機的。
2、組合泛化(Combinatorial generalization):所有的材料(形容詞)和三維物體(名詞)在訓練中都能看到,但在測試中會出現一些新的組合形式。
3、新物體泛化(Novel object generalization):測試提示和模拟的工作空間包括新的形容詞和物體。
4、新任務泛化(Novel task generalization):測試時帶有新提示模闆的新型元任務
VIMA模型
多模态prompt中總共包含三種格式:
1、文本,使用預訓練的T5模型進行分詞及擷取詞向量;
2、整個桌面的場景,首先使用Mask R-CNN識别出所有的獨立物體,每個物體由一個bounding box和裁剪圖像表示,然後使用一個bounding bo編碼器和ViT分别進行編碼。
3、單個物體的圖像,同樣使用ViT獲得tokens,然後将結果序列輸入到預訓練的T5編碼器模型中。
機器人控制器(Robot Controller),即解碼器的輸入為提示序列上進行多次交叉注意力層後的表示和軌迹曆史序列。
這樣的設計可以增強對prompt的連接配接度;更好地保留且更深地處理原始prompt tokens;更好的計算效率。
在測試階段的實驗設計,主要為了回答三個問題:
1、VIMA和之前的SOTA基于Transformer的智能體在多模态提示的多種任務上的性能對比;
2、VIMA在模型容量和資料量上的縮放性(scaling properties);
3、不同的視覺分詞器,條件提示和條件編碼是否會影響到最終的決策。
對比的基線模型包括Gato, Flamingo和Decision Transformer(DT)
首先在模型縮放(Model scaling)上,研究人員對所有方法從2M到200M參數量進行訓練,編碼器的尺寸始終保持為T5-base,在所有層次的zero-shot泛化性評估上,VIMA都絕對好于其他工作。
盡管Gato和Flamingo在更大尺寸的模型上性能有所提升,VIMA也仍然好于所有模型。
在資料縮放(Data scaling)上,研究人員對各個方法的訓練資料采取0.1%, 1%, 10%和全量模仿學習資料集的不同實驗,VIMA僅需1%的資料,就能實作其他方法用10倍的資料訓練的L1和L2泛化性名額。在L4名額上,僅需1%的訓練資料,VIMA就已經要比其他模型在全量資料上訓練效果要好了。
在漸進泛化(Progressive Generalization)性能對比中,在面向更難的泛化任務中,沒有采用任何微調。VIMA模型的性能倒退最少,尤其是從L1到L2和L1到L3,而其他模型退化超過了20%,這也意味着VIMA學習到了更泛化的政策,更健壯的表征。
參考資料:
https://arxiv.org/abs/2210.03094