天天看點

谷歌新論文:讓機器人依靠視覺識别抓取特定物體實驗介紹實驗結果

本文來自AI新媒體量子位(QbitAI)

近日,谷歌團隊在arXiv上釋出了新論文《End-to-End Learning of Semantic Grasping》,這篇文章由谷歌成員Eric Jang、Sudheendra Vijayanarasimhan、Julian Ibarz、Sergey Levine和Peter Pastor五人共同完成。

量子位選取論文中關鍵資訊,編譯整理分享給大家。

谷歌新論文:讓機器人依靠視覺識别抓取特定物體實驗介紹實驗結果

這篇論文首先讨論了機器人的語義抓取任務,即機器人借助單目圖像抓取使用者指定類别的相應物體。受視覺神經處理模型中雙流假說的啟發,研究人員提出了一種語義抓取架構,它允許用端對端的方式學習物體識别、分類并設計抓取路線。

谷歌新論文:讓機器人依靠視覺識别抓取特定物體實驗介紹實驗結果

△ 從業人員根據使用者指定,将測試用的雜物分為16類

受雙流假說的啟發,研究人員将模型分為“腹流”和“背流”。

谷歌新論文:讓機器人依靠視覺識别抓取特定物體實驗介紹實驗結果

△ 背流(綠色)與腹流(紫色)源于視覺皮層的同一區域/維基百科

在這個模型中,腹流負責識别物體類别,背流同時解釋正确抓取所需的幾何圖形關系。測試人員利用機器人自主資料采集能力擷取了大量自監督資料集來訓練背流,并用半監督學習中的标簽傳播算法訓練腹流,同時佐以适當的人力監督。

谷歌新論文:讓機器人依靠視覺識别抓取特定物體實驗介紹實驗結果

△ 受雙流假設的影響,将模型分為了腹流和背流

論文用實驗方法展示了改進後的抓取系統方法。當然這不僅僅包含端對端内容,還包括用邊界框檢測的基線處理方法。不僅如此,還展示了用輔助資料、無語義抓取資料和無掌握操作以及語義标記圖像共同訓練的模型,這可能會大大提高語義抓取性能。

谷歌新論文:讓機器人依靠視覺識别抓取特定物體實驗介紹實驗結果

△ 實驗所用的機器人手臂,具有兩隻手指和單目圖像相機

在本次實驗中,通過讓機器人在不同類别的物體中,抓取随機指定的五個物體來評估機器人的語義抓取能力。每次實驗重複10次,抓取的物體包含一組30個訓練對象和30個未經測試對象。研究人員通過基線比較證明各種架構在決策語義抓取模型中的作用。

谷歌新論文:讓機器人依靠視覺識别抓取特定物體實驗介紹實驗結果

△ 對比實驗結果統計表

本實驗的結果可總結為如下6點:

1)端對端的語義抓取優于傳統的檢測分類方法

2)雙流語義分解預測優于單流模型

3)分離架構的了解能力勝過雙支路架構

4)9層含attention的CNN表現勝過16層無attention的CNN

5)輔助語義資料能夠增強雙流架構的分類表現

6)反映物體分布的輔助語義資料提高了分類抓取的準确性

最後,附上論文位址:

https://arxiv.org/abs/1707.01932

【完】

本文作者:安妮

原文釋出時間:2017-07-10 

繼續閱讀