首個無師自通、泛化使用各種家具家電的具身三維圖文大模型系統

機器之心專欄

機器之心編輯部

這幾天，家務活都被機器人搶着幹了。

前腳來自斯坦福的會用鍋的機器人剛剛登場，後腳又來了個會用咖啡機的機器人 Figure-01 。

隻需給它觀看示範視訊，加上10個小時的訓練，Figure-01 就能學會使用咖啡機，放咖啡膠囊到按下啟動鍵，一氣呵成。

但是想要讓機器人無師自通，第一次見到各式各樣的家具家電，就能在沒有示範視訊的情況下熟練使用。這是個難以解決的問題，不僅需要機器人擁有強大的視覺感覺、決策規劃能力，更需要精确的操縱技能。

現在，一個三維具身圖文大模型系統為以上難題提供了新思路。該系統将基于三維視覺的精準幾何感覺模型與擅長規劃的二維圖文大模型結合了起來，無需樣本資料，即可解決與家具家電有關的複雜長程任務。

這項研究由斯坦福大學的 Leonidas Guibas 教授、北京大學的王鶴教授團隊，與智源人工智能研究院合作完成。

論文連結：https://arxiv.org/abs/2312.01307

項目首頁：https://geometry.stanford.edu/projects/sage/

代碼：https://github.com/geng-haoran/SAGE

研究問題概述

圖 1：根據人類指令，機械臂能夠無師自通地使用各種家用電器。

近日，PaLM-E 和 GPT-4V 帶動了圖文大模型在機器人任務規劃中的應用，視覺語言引導下的泛化機器人操控成為了熱門研究領域。

以往的常見方法是建立一個兩層的系統，上層的圖文大模型做規劃和技能排程，下層的操控技能政策模型負責實體地執行動作。但當機器人在家務活中面對各種各樣從未見過并且需要多步操作的家用電器時，現有方法中的上下兩層都将束手無策。

以目前最先進的圖文大模型 GPT-4V 為例，雖然它可以對單張圖檔進行文字描述，但涉及可操作零部件檢測、計數、定位及狀态估計時，它仍然錯誤百出。圖二中的紅色高亮部分是 GPT-4V 在描述抽屜櫃、烤箱和立櫃的圖檔時出現的各種錯誤。基于錯誤的描述，機器人再進行技能排程，顯然不太可靠。

圖 2：GPT-4V 不能很好處理計數，檢測，定位，狀态估計等泛化操控所關注的任務。

下層的操控技能政策模型負責在各種各樣的實際情況中執行上層圖文大模型給出的任務。現有的研究成果大部分是基于規則生硬地對一些已知物體的抓取點位和操作方式進行了編碼，無法泛應對沒見過的新物體類别。而基于端到端的操作模型（如 RT-1，RT-2 等）隻使用了 RGB 模态，缺乏對距離的準确感覺，對新環境中如高度等變化的泛化性較差。

受王鶴教授團隊之前的 CVPR Highlight 工作 GAPartNet [1] 啟迪，研究團隊将重點放在了各種類别的家用電器中的通用零部件（GAPart）之上。雖然家用電器千變萬化，但總有幾樣零件不可或缺，每個家電和這些通用的零件之間存在相似的幾何和互動模式。

由此，研究團隊在 GAPartNet [1] 這篇論文中引入了 GAPart 這一概念。GAPart 指可泛化可互動的零部件。GAPart 出現在不同類别的鉸接物體上，例如，在保險箱，衣櫃，冰箱中都能找到鉸接門這種零件。如圖 3，GAPartNet [1] 在各類物體上标注了 GAPart 的語義和位姿。

圖3：GAPart：可泛化可互動的零部件[1]。

在之前研究的基礎上，研究團隊創造性地将基于三維視覺的 GAPart 引入了機器人的物體操控系統 SAGE 。SAGE 将通過可泛化的三維零件檢測 (part detection)，精确的位姿估計 (pose estimation) 為 VLM 和 LLM 提供資訊。新方法在決策層解決了二維圖文模型精細計算和推理能力不足的問題；在執行層，新方法通過基于 GAPart 位姿的魯棒實體操作 API 實作了對各個零件的泛化性操作。

SAGE 構成了首個三維具身圖文大模型系統，為機器人從感覺、實體互動再到回報的全鍊路提供了新思路，為機器人能夠智能、通用地操控家具家電等複雜物體探尋了一條可行的道路。

系統介紹

圖 4 展示了 SAGE 的基本流程。首先，一個能夠解讀上下文的指令解釋子產品将解析輸入機器人的指令和其觀察結果，将這些解析轉化為下一步機器人動作程式以及與其相關的語義部分。接下來，SAGE 将語義部分（如容器 container）與需要進行操作部分（如滑動按鈕 slider button）對應起來，并生成動作（如按鈕的「按壓 press」動作）來完成任務。

圖 4：方法概覽。

為了友善大家了解整個系統流程，一起來看看在無需樣本的情況下，讓機械臂使用操作一款沒見過的微波爐的例子。

指令解析：從視覺和指令輸入到可執行的技能指令

輸入指令和 RGBD 圖像觀測後，解釋器首先使用 VLM 和 GAPartNet [1] 生成了場景描述。随後，LLM（GPT-4）将指令和場景描述作為輸入，生成語義零件和動作程式。或者也可以在這個環節輸入一個特定的使用者手冊。LLM 将基于輸入生成一個可操作零件的目标。

圖 5：場景描述的生成（以 zero-shot 使用微波爐為例）。

為了更好地協助動作生成，場景描述包含物體資訊、零件資訊以及一些與互動相關的資訊。在生成場景描述之前，SAGE 還将采用專家級 GAPart 模型 [1] 為 VLM 生成專家描述作為提示。這種兼收了兩種模型的優點的方法效果良好。

圖 6：指令了解和運動規劃（以 zero-shot 使用微波爐為例）。

零件互動資訊的了解與感覺

圖 7：零件了解。

在輸入觀察結果的過程中，SAGE 綜合了來自 GroundedSAM 的二維（2D）提示和來自 GAPartNet 的三維（3D）提示，然後這些提示被用作可操作零件的具體定位。研究團隊利用 ScoreNet、非極大值抑制（NMS）和 PoseNet 等展示了新方法的感覺結果。

其中：（1）對于零件感覺評估基準，文章直接采用了 SAM [2]。然而，在操作流程中，文章使用了 GroundedSAM，它也考慮到了作為輸入的語義零件。（2）如果大型語言模型（LLM）直接輸出了一個可操作零件的目标，那麼定位過程将被繞過。

圖 8：零件了解（以 zero-shot 使用微波爐為例）。

動作生成

一旦将語義零件定位到可操作零件之上，SAGE 将在這個零件上生成可執行的操作動作。首先，SAGE 将估計零件的姿态，根據鉸接類型（平移或旋轉）計算鉸接狀态（零件軸線和位置）和可能的運動方向。然後，它再根據以上估算生成機器人操作零件的動作。

在啟動微波爐這個任務中，SAGE 首先預測機械臂應該以一個初始夾爪姿态作為主要動作。再根據 GAPartNet [1] 中定義的預定政策産生動作。這個政策是根據零件姿态和鉸接狀态确定的。例如，為了打開一個帶有旋轉鉸接的門，起始位置可以在門的邊緣或把手上，其軌迹是沿着門鉸鍊定向的圓弧。

互動回報

到目前為止，研究團隊隻使用了一個初始觀測來生成開環互動。這時，他們引入了一種機制，可以進一步利用在互動過程中獲得的觀測結果，更新感覺結果并相應調整操作。為了實作這一目标，研究團隊為互動過程中引入了一個兩部分的回報機制。

應當注意，在首次觀測的感覺過程中可能出現遮擋和估算錯誤。

圖 9：直接開門不能打開，該輪互動失敗（以 zero-shot 使用微波爐為例）。

為了解決這些問題，研究者們進而提出了一個模型，利用互動式觀測 (Interactive Perception) 來增強操作。在整個互動過程中，目标夾持器和零件狀态的跟蹤得以保持。如果出現顯著的偏差，規劃器可以自行選擇以下四種狀态之一：「繼續」、「轉移到下一步」、「停止并重新規劃」或「成功」。

例如，如果設定夾持器沿着一個關節旋轉 60 度，但門隻打開了 15 度，大型語言模型（LLM）規劃器會選擇「停止并重新規劃」。這種互動跟蹤模型確定 LLM 在互動過程中能夠具體問題具體分析，在微波爐啟動失敗的挫折中也能重新「站起來」。

圖 10：通過互動回報和重新規劃，機器人意識到按鈕打開的方法并成功。

實驗結果

研究團隊首先搭建了一個大規模語言指導的鉸接物體互動的測試基準。

圖 11：SAPIEN 模拟實驗。

他們使用了 SAPIEN 環境 [4] 進行了模拟實驗，并設計了 12 項語言引導的鉸接物體操作任務。對于微波爐、儲物家具和櫥櫃的每個類别，各設計了 3 個任務，包括在不同初始狀态下的開啟狀态和關閉狀态。其他任務為「打開鍋蓋」、「按下遙控器的按鈕」和「啟動攪拌器」。實驗結果顯示，在幾乎所有任務中 SAGE 都表現卓越。

圖 12：真機示範。

研究團隊同時也進行了大規模真實世界實驗，他們使用 UFACTORY xArm 6 和多種不同的鉸接物體進行操作。上圖的左上部分展示了一個啟動攪拌器的案例。攪拌器的頂部被感覺為一個用于裝果汁的容器，但其實際功能需要按下一個按鈕來開啟。SAGE 的架構有效地連接配接了其語義和動作了解，并成功執行了任務。

上圖右上部分展示了機器人，需要按下（下壓）緊急停止按鈕來停止操作，旋轉（向上）來重新開機。借助使用者手冊的輔助輸入，在 SAGE 指導下的機械臂完成了這兩個任務。上圖底部的圖檔展示了開啟微波爐任務中的更多細節。

圖 13：更多真機示範和指令解讀示例。

總結

SAGE是首個能夠生成通用的家具家電等複雜鉸接物體操控指令的三維視覺語言模型架構。它通過在零件級别上連接配接物體語義和可操作性了解，将語言指令的動作轉化為可執行的操控。

此外，文章還研究了将通用的大型視覺 / 語言模型與領域專家模型相結合的方法，以增強網絡預測的全面性和正确性，更好地處理這些任務并實作最先進的性能。實驗結果表明，該架構具有強大的泛化能力，可以在不同物體類别和任務上展示出優越的性能。此外，文章還為語言指導的鉸接物體操作提供了一個新的基準測試。

團隊介紹

SAGE 這一研究成果來自斯坦福大學 Leonidas Guibas 教授實驗室、北京大學王鶴教授具身感覺和互動（EPIC Lab）以及智源人工智能研究院。論文的作者為北京大學學生、斯坦福大學通路學者耿浩然（共同一作）、北京大學博士生魏松林（共同一作）、斯坦福大學博士生鄧叢悅，沈博魁，指導老師為 Leonidas Guibas 教授和王鶴教授。

參考文獻：

[1] Haoran Geng，Helin Xu，Chengyang Zhao，Chao Xu，Li Yi，Siyuan Huang，and He Wang。Gapartnet: Cross-category domaingeneralizable object perception and manipulation via generalizable and actionable parts。arXiv preprint arXiv:2211.05272，2022.

[2] Kirillov，Alexander，Eric Mintun，Nikhila Ravi，Hanzi Mao，Chloe Rolland，Laura Gustafson，Tete Xiao et al。"Segment anything." arXiv preprint arXiv:2304.02643 (2023).

[3] Zhang，Hao，Feng Li，Shilong Liu，Lei Zhang，Hang Su，Jun Zhu，Lionel M。Ni，and Heung-Yeung Shum。"Dino: Detr with improved denoising anchor boxes for end-to-end object detection." arXiv preprint arXiv:2203.03605 (2022).

[4] Xiang，Fanbo，Yuzhe Qin，Kaichun Mo，Yikuan Xia，Hao Zhu，Fangchen Liu，Minghua Liu et al。"Sapien: A simulated part-based interactive environment." In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition，pp。11097-11107。2020.

首個無師自通、泛化使用各種家具家電的具身三維圖文大模型系統

繼續閱讀

美國拟封殺開源AI大模型出口，科技界震動！

大神李沐被曝離職！投身大模型創業，GitHub項目已開

火山引擎的汽車大模型開始爆發

“考古挖掘”、制作模型、鑒寶……今天，金山這裡好熱鬧！

海拔3200米的無影雲教室：雪山下的孩子遇見AI大模型

購買大紅酸枝家具，怎麼判斷它是精品？

明制家具——古典家具的黃金時代，特點是什麼？

小鑫分享：元胞自動機模型

男子偷走800元手機模型被拘留

隻有谷歌受傷的世界達成了，但“全能模型”到底該不該跟？

揭秘記憶之謎：艾賓浩斯遺忘曲線與思維模型撲克牌法助你成長飛躍

誕生于1910年帶有原始複古家具的鄉村别墅

GPU之後，NPU再成标配，手機、PC如何承載AI大模型？

搶先看！位元組跳動破天荒！大模型驚豔亮相，價格低至99%！

如何讓舊家具找到“安身之處”？

3900 萬人圍觀雷軍直播試駕；馬斯克招募第二名腦機實驗患者；DeepMind 推出大模型危險性評估架構