天天看點

BAIR論文:通過“元學習”和“一次性學習”算法,讓機器人快速掌握新技能

我們都知道,深度學習是在大資料的背景下火起來的,傳統的基于梯度的深度神經網絡需要大量的資料學習,而絕大多數的深度學習内容否基于大資料量下的廣泛疊代訓練,當遇到新資訊時往往會出現模型失效的情況進而需要重新進行學習。在機器人領域,深度神經網絡可以是機器人展示出複雜的技能,但在實際應用中,一旦環境發生變化,從頭學習技能并不可行。是以,如何讓機器“一次性學習”,即在“看”了一次示範後無需事先了解新的環境場景,能在不同環境中重複工作尤為重要。

研究發現,具有增強記憶能力的架構如神經圖靈機(NTMs)可以快速編碼和見多新資訊,進而起到消除正常模型的缺點。在本論文中,作者介紹了一種元-模拟學習(Meta-Imitation Learning,MIL)算法,使機器人可以更有效學習如何自我學習,進而在一次示範後即可學得新的技能。與之前的單次學習模拟方法不同的是,這一方法可以擴充到原始像素輸入,并且需要用于學習新技能的訓練資料明顯減少。從在模拟平台和真實的機器人平台上的試驗也表明了這一點。

目标:賦予機器人在隻“看過”一次示範的情況下,學習與新物品互動的能力。

做法:

收集大量任務的Demo;

使用元-模拟學習進行訓練;

在未知的新任務中進行測試。

創新内容:在第一個全連接配接層通過偏差轉換增加梯度表現。

模拟測試環節,這一環節使用算法提供的虛拟3D物品進行模拟,MIL比Contexual和LSTM更好地完成了任務。

在實際場景測試環節,該團隊設計了一個抓取物品并将其放到指定容器中的任務。從上圖我們可以看到,在這一環節用于訓練的物品與實際測試的物品無論在形狀、大小、紋理上都有着差别,MIL算法同樣較好地完成了任務。

雷鋒網發現,除了BAIR,Google Deepmind(參見雷鋒網(公衆号:雷鋒網)之前文章《隻訓練一次資料就能識别出物體,谷歌全新 AI 算法“單次學習”》)、OpenAI也有在進行關于“一次性學習”的研究。“一次性學習”通常被認為是計算機視覺中的對象分類問題,旨在從一個或僅少數幾個訓練圖像中學習關于對象類别的資訊,并且已經成功應用到包括計算機視覺和藥物研發在内的具有高維資料的領域。今年5月,OpenAI也釋出了類似的在虛拟場景下通過一次性學習,完成堆疊方塊等任務的論文。

在《人類的由來》中,達爾文這樣寫道:“人和其他高等動物在精神上的差異雖然很大,但這種差别肯定隻是程度上、而非種類上的差别。”而這些在一次性學習和元學習上的研究也證明,目前的人工智能與未來世界的超級人工智能之間的差異,或許也隻是程度上的差異,而非種類上的差異。在深度學習發展的過程中,類似的優化看起來隻是一小步,但加速化發展的趨勢已經很明顯:當你在閱讀傳統期刊上的論文時,在Arxiv上或許已經出現了新的替代版本。或許在不久之後,創造出更聰明、具有适應力的實用機器人并不是難事。

本文作者:岑大師

繼續閱讀