天天看點

機器人真·漲姿勢了:比肩人類抓取能力,上海交大、非夕科技聯合提出全新方法AnyGrasp

基于視覺的機器人通用抓取,一直是學界和業界的關注重點,也是機器人智能領域亟待解決的問題之一。

針對物體抓取,業界通常需要先對物體進行三維模組化,然後訓練網絡,在實際中先進行位姿檢測,再進行抓取

機器人真·漲姿勢了:比肩人類抓取能力,上海交大、非夕科技聯合提出全新方法AnyGrasp

此前對于簡單場景簡單物體的抓取,學術界也有研究涉獵。但是機器人日常面對的都是大量堆疊的、複雜的、沒有見過的物體,同時場景呈現極度的雜亂性,還沒有相關研究可直接面對任意複雜場景進行抓取。

我們能否期待一個通用算法,能像人類一樣具備面向任意場景、任意物體的抓取能力? 

譬如,當杯子被敲碎,每個碎片都是未曾出現過的,機器人可以将這些從未見過、更未被模組化的碎片一片片撿起來:

機器人真·漲姿勢了:比肩人類抓取能力,上海交大、非夕科技聯合提出全新方法AnyGrasp
同時,它還要能适應更多的不确定性。比如一堆來自新疆戈壁灘的瑪瑙石,細小且局部複雜:
機器人真·漲姿勢了:比肩人類抓取能力,上海交大、非夕科技聯合提出全新方法AnyGrasp
再比如在日常場景經常會遇到的會随機形變的柔性袋裝零食或者布娃娃:
機器人真·漲姿勢了:比肩人類抓取能力,上海交大、非夕科技聯合提出全新方法AnyGrasp
以及各種玩具、五金件、日常用品:
機器人真·漲姿勢了:比肩人類抓取能力,上海交大、非夕科技聯合提出全新方法AnyGrasp
甚至人造的形狀複雜的對抗樣本 [1]:
機器人真·漲姿勢了:比肩人類抓取能力,上海交大、非夕科技聯合提出全新方法AnyGrasp
更極端的,如果光照情況不好,同時有探照燈的幹擾,桌面還會變化,機器人能不能穩定地抓取?
機器人真·漲姿勢了:比肩人類抓取能力,上海交大、非夕科技聯合提出全新方法AnyGrasp

在這些方面,尚且沒有研究能達到穩定的抓取效果,甚至沒有前期可論證的 DEMO。此前來自 UCB 的研究團隊發表于《Science Robotics》的成果

DexNet4.0 [2],也隻局限于低自由度的垂直抓取,同時需要搭配價值數萬元的工業級高精度深度相機,計算一次耗時數十秒。

近日,上海交大-非夕科技聯合實驗室在 ICRA 大會上展示了最新研究成果

「AnyGrasp」,基于二指夾爪的通用物體抓取。這是第一次機器人對于任意場景的任意物體,有了比肩人類抓取的能力,無需物體 CAD 模型與檢測的過程,對硬體構型、相機也沒有限制。

僅需要一台 1500 元的 RealSense 深度相機,AnyGrasp 即可在數十毫秒的時間内,得到其觀測視野内整個場景的數千個抓取姿态,且均為六自由度,以及一個額外的寬度預測。在五小時複雜堆疊場景的抓取中,單臂 MPPH(Mean Pick Per Hour, 機關小時内平均抓取次數)可達到 850+,為 DexNet4.0 的三倍多,這是該名額第一次在複雜場景抓取上接近人類水準(900-1200 MPPH)。

以下為搭載 AnyGrasp 的最新成果展示,在六軸機械臂上:

機器人真·漲姿勢了:比肩人類抓取能力,上海交大、非夕科技聯合提出全新方法AnyGrasp
點選檢視原視訊 在七軸機械臂上:
機器人真·漲姿勢了:比肩人類抓取能力,上海交大、非夕科技聯合提出全新方法AnyGrasp
在ICRA2021的展區内,搭載AnyGrasp的機器人更是走出了實驗室,在現場直接對沒見過的物體進行抓取,同時與參會觀衆進行互動,由現場觀衆自由發揮,用随身的物品、捏的橡皮泥對它進行考驗,機器人都能進行穩定的抓取。
機器人真·漲姿勢了:比肩人類抓取能力,上海交大、非夕科技聯合提出全新方法AnyGrasp
研究團隊介紹,目前 AnyGrasp 有以下優勢:

  • 普适性:對未曾見過、複雜場景中的任意物體均可抓取,包括剛體、可變形物體、無紋理的物體等;
  • 高速度:數十毫秒内即可生成數千個穩定的抓取姿态;
  • 穩定性:對背景、光照、桌面角度等不敏感;
  • 低成本:無需高精度工業相機,千元價位的深度相機(如 Intel RealSense)即可勝任。

技術層面上,AnyGrasp 的實作是基于研究團隊提出的一個全新方法論,即真實感覺與幾何分析的孿生聯結。真實感覺與密集幾何标注原本是沖突的兩方面,因為真實感覺往往需要人工标注,而幾何分析需依賴仿真環境,此前未曾有團隊在這方面進行過嘗試。

在 CVPR 2020 會議上,上海交大團隊提出了 GraspNet-1Billion 資料集 [3],其中包含數萬張單目攝像頭采集的真實場景的 RGBD 圖像,每張圖檔中包含由基于實體受力分析得到的數十萬個抓取點,資料集中總共包含超過十億有效抓取姿态。為了達到真實感覺與幾何分析的孿生聯結目标,團隊設計了一個半自動化的資料收集與标注方法,使得大規模地生成包含真實視覺感覺與實體分析标簽的資料成為可能。該資料集及相關代碼目前已經開源。

基于 GraspNet-1Billion 資料集,團隊開發了一套新的可抓取性(graspness)嵌入端到端三維神經網絡結構,在單目點雲上直接預測整個場景可行的抓取姿态,根據采樣密度,抓取姿态可從數千到數萬不等,整個過程僅需數十毫秒。基于全場景的密集的抓取姿态,後續任務可根據目标及運動限制選擇合适的抓取位姿。

機器人真·漲姿勢了:比肩人類抓取能力,上海交大、非夕科技聯合提出全新方法AnyGrasp

目前,AnyGrasp 還在持續開發與疊代中,後續研究團隊計劃建構抓取算法資料社群 ,并開放抓取任務線上測評。相關的學術資料集、SDK、學術算法庫将在 www.graspnet.net 上開放。

繼續閱讀