天天看點

隻需看一眼,伯克利最新機器人就可以copy你的動作!

通過觀察另一個人的做法來學習一項新技能,即模仿的能力,是人類和動物智力的關鍵部分。我們能讓機器人做同樣的事情嗎?

伯克利研究中心近日po出的一個新的研究成果中,機器人也可以通過一次性觀察,模仿人類的某個動作了。

讓機器人具備這種“模仿”能力有什麼意義呢?

伯克利稱,這或許将成為我們與機器人溝通的一種新的方式。

之前,人類與機器人的溝通多基于要遠端操作機器人或設計獎勵函數。這種方法依賴一個成熟的感覺系統,是以比較困難。而在模仿系統下,想要讓機器人完成一個任務,我們隻需簡單地向機器人展示我們想讓它們做什麼就可以了。

其實,這一領域已有很多精彩的研究,比如模仿學習——機器人如何從自己的同類專家(即通過遠端操作或動覺教學)中學習。

然而,基于視覺技能的模仿學習通常需要專家多次示範一項技能。

例如,使用原始像素輸入通路單個固定對象,這樣的任務需要多達200次示範,才能獲得良好的性能。

如果示範次數太少,機器人一般很難學會。

此外,當機器人需要模仿表現出某種操作技能的人類時,這個問題變得更加具有挑戰性。

首先,機器人的手臂看起來和人類的手臂有很大的不同;

第二,在人類示範和機器人示範之間建立正确的對應關系是非常難的。

隻是跟蹤和重新繪制運動圖還不夠簡單:這項任務更關鍵地取決于這個運動如何影響世界中的物體,需要建立起一個基于互動的通信。

為了讓機器人能夠從一個人類的視訊中模仿技能,伯克利這一研究的創新之處在于,讓機器人融合以前的經驗,而不是從頭開始學習每一項技能。

通過結合以前的經驗,機器人還應該能夠快速地學習操作新對象,同時不改變域的改變,這種改變包括:提供示範的人、變化的背景場景或不同的視角。

伯克利希望通過學習從示範資料中學習來實作這兩種能力:小樣本模仿(few-shot imitation)和域不變性。這項技術,也被稱為元學習,是我們如何讓機器人具備通過觀察并模仿人類的能力的關鍵。

點選檢視元學習相關資料:

http://bair.berkeley.edu/blog/2017/07/18/learning-to-learn/

一次性模仿學習(One-Shot Imitation Learning)

那麼,如何利用元學習讓機器人快速适應不同的對象呢?

伯克利的方法是将元學習和模仿學習結合起來,使一次性模仿學習成為可能。其核心思想是提供一個特定任務的單一示範,即操縱一個特定對象,機器人可以快速識别任務是什麼,并在不同的環境下成功地解決它。

伯克利之前一項關于一次性模仿學習的研究通過學習成千上萬的示範,獲得了卓越的結果,比如在塊堆疊等模拟任務上。

如果想要一個實體機器人能夠模仿人類并操縱各種各樣的新事物,我們需要開發一個新的系統,它可以學習如何從視訊示範中學習,用一個可以在現實世界中實際收集的資料集。首先,讨論通過遠端操作收集的單個示範的視覺模拟方法。然後,展示如何将它擴充到從人類的視訊中學習。

一次性視覺模拟學習(One-Shot Visual Imitation Learning)

為了使機器人能夠從觀看視訊中學習,伯克利的本次研究結合了模拟學習和有效的元學習算法,也即model-agnostic meta learning(MAML)。

點選檢視元學習算法

在這個方法中,伯克利用帶有參數θ的卷積神經網絡作為政策表示。從機器人相機和機器人結構(如關節角度和關節速度)的圖像映射到機器人在t時刻的動作(如抓手的線速度和角速度)。

以下是伯克利算法的三個主要步驟:

隻需看一眼,伯克利最新機器人就可以copy你的動作!

伯克利元學習算法的三個步驟

首先,收集一個巨大的資料集,其中包含遠端操作機器人執行許多不同任務的示範,在伯克利提供的例子中,這些任務對應于操作不同的對象。在第二步中,運用MAML學習一組初始的政策參數θ,這樣,在被提供了某個對象的一個示範之後,可以對那個對象運作梯度下降法找到可概括的政策參數。當使用遠端操作示範時,可以通過比較政策的預測動作來計算政策更新:

隻需看一眼,伯克利最新機器人就可以copy你的動作!

然後,通過驅動更新政策比對來自同一對象的另一個示範的操作來優化初始參數θ。在元訓練之後,可以要求機器人通過使用該任務的一個示範來計算梯度步驟來操作完全不可見的對象。這一步叫做元測試。

由于該方法沒有為元學習和優化引入任何額外的參數,結果證明它是非常資料有效的。是以,隻需觀看遠端的機器人示範,就可以完成推放等多種控制任務:

通過域自适應元學習觀察人類的一次性模仿

上述方法仍然依賴于遠端操作機器人的示範而非人類的示範。為此,伯克利還在上述算法的基礎上,設計了一種域自适應一次性模拟方法。

伯克利收集了遠端操作機器人和人類完成的許多不同任務的示範。然後,提供人工示範來計算政策更新,并使用執行相同任務的機器人示範來評估更新的政策。該算法的圖示如下:

隻需看一眼,伯克利最新機器人就可以copy你的動作!

圖:域自适應元學習概覽

遺憾的是,由于人工示範隻是一個人執行任務的視訊,它不包含專家操作,是以伯克利也提出,無法計算上面定義的政策更新。是以,其建議學習一個更新政策的損失函數,一個不需要動作标簽的損失函數。

學習損失函數背後的直覺是,可以獲得一個函數,該函數隻使用可獲得的輸入、未标記的視訊,但仍然可以生成用于更新政策參數的梯度,進而産生一個成功的政策。

雖然這似乎是一項不可能完成的任務,但重要的是要記住,在梯度步之後,元訓練過程仍然用真正的機器人動作來管理政策。是以,學習損失的作用可能被解釋為簡單地指導參數更新,以修改政策,以在場景中擷取正确的視覺線索,以便元訓練的動作輸出将産生正确的動作。用時間卷積表示學習的損失函數,它可以在視訊示範中提取時間資訊:

隻需看一眼,伯克利最新機器人就可以copy你的動作!

伯克利将這種方法稱為域自适應元學習算法,因為它是從來自不同域的資料中學習(在這裡指人類視訊),機器人的政策在這個域中運作。伯克利通過這種方法,使PR2機器人能夠有效地學習如何将在元訓練中看不到的許多不同的物體推向目标位置

伯克利還使用在不同房間用不同的錄影機收集的人類示範來評估這種方法。

下一步是什麼?

伯克利稱,既然其已經教機器人通過觀看一個視訊學會操縱新對象,下一步自然是進一步擴充這些方法,設定不同的任務對應于完全不同的運動和目标,比如使用各種各樣的工具或玩各種各樣的運動。

通過在任務的底層配置設定中考慮更多的多樣性,我們希望這些模型能夠實作泛化,允許機器人快速地為新情況制定政策。此外,在這裡開發的技術并不是局限于機器人操縱甚至控制的。例如,模仿學習和元學習都被用于語言環境中,在語言和其他順序決策環境中,學會模仿一些示範是未來工作的一個有趣的方向。

原文釋出時間為:2018-07-12

本文作者:文摘菌

本文來自雲栖社群合作夥伴“

大資料文摘

”,了解相關資訊可以關注“

”。

繼續閱讀