天天看點

擀面皮包餃子,MIT、CMU等的研究員讓機器人自己學會了

你能想象讓機器人揉面團,擀面皮,包餃子嗎?對機器人來說,操縱衣物、面團等柔軟無堅固形狀的可形變材料一直是個棘手的問題。面團的形狀可以以多種方式變化,而這些變化很難用方程式表示。

此外,從面團中建立新形狀需要多個步驟并使用不同的工具。對于機器人來說,學習具有長步驟序列的操作任務尤其困難,因為學習通常是通過反複試驗完成的,其中有許多可能的選擇。

擀面皮包餃子,MIT、CMU等的研究員讓機器人自己學會了

當地時間3月30日,麻省理工學院、卡内基梅隆大學和加州大學聖地亞哥分校的研究人員為這種任務提出了一種更好的方法。他們創造了一種“兩階段學習架構”,名為“Teacher”(老師)的算法解決機器人要完成任務所必需的每個步驟,然後它訓練“Student”(學生)機器學習模型去學習關于何時及如何執行任務所需的每項技能的抽象概念,比如用擀面杖。有了這些知識,系統就會推理出如何執行技能來完成整個任務。

研究人員認為,這種他們稱之為DiffSkill的方法可以在模拟中執行複雜的操作任務,例如切和揉面團,或從砧闆周圍收集面團,同時優于其他機器學習方法。

除了制作披薩、餃子外,這種方法還可以應用于機器人需要操縱可形變物體的其他環境中,如為老年人或運動障礙者喂食、洗澡或穿衣的護理機器人。

“這種方法更接近我們人類計劃行動的方式。當一個人執行一項長期任務時,我們并沒有寫下所有的細節。我們有一個更進階别的計劃者,它大緻告訴我們在此過程中需要實作哪些階段以及一些中間目标,然後我們執行它們,”論文作者之一,MIT計算機科學與人工智能專業的研究所學生李雲珠說道。

分開來看具體的工作原理。DiffSkill架構中的“Teacher”是一種軌迹優化算法,可以解決物體初始狀态和目标位置很接近的短視界(short-horizon)任務。軌迹優化器在模拟現實世界的實體模拟器中工作(稱為可微實體模拟器,它将“Diff”放入“DiffSkill”中)。“Teacher”算法使用模拟器中的資訊來學習面團在每個階段必然如何移動,一次一個,然後輸出這些軌迹。

然後“Student”神經網絡學會模仿老師的動作。作為輸入,它使用兩個攝像頭圖像,一個顯示目前狀态的面團,另一個顯示任務結束時的面團。神經網絡生成一個進階計劃,以确定如何将不同的技能聯系起來以達到目标。然後,它為每個技能生成特定的、短視界的軌迹,并将指令直接發送到工具。

研究人員使用這種技術對三種不同的模拟面團操作任務進行了實驗。在一項任務中,機器人使用抹刀将面團舉到砧闆上,然後使用擀面杖将其壓平。在另一個例子中,機器人使用抓手從櫃台上收集面團,将其放在抹刀上,然後将其轉移到砧闆上。在第三個任務中,機器人用刀将一堆面團切成兩半,然後使用夾具将每一塊面團運送到不同的位置。

“DiffSkill能夠勝過依賴強化學習的流行技術,在強化學習中,機器人通過反複試驗來學習任務。事實上,DiffSkill是唯一能夠成功完成所有三個面團操作任務的方法。有趣的是,我們發現‘Student’神經網絡甚至能夠勝過‘Teacher’算法,”卡内基梅隆大學 (CMU) 研究所學生林興宇說道。

林興宇認為,這個架構為機器人獲得新技能提供了一種新穎的方式,可以将這些技能連結起來,以解決更複雜的任務。這些任務超出了以前的機器人系統的能力。

因為他們的方法側重于控制工具(抹刀、刀、擀面杖等),是以它可以應用于不同的機器人,但前提是它們要使用研究人員定義的特定工具。未來,他們計劃将工具的形狀整合到“Student”網絡的推理中,以便将其應用于其他裝置。

研究人員打算通過使用3D資料作為輸入來提高DiffSkill的性能,而不是使用難以從模拟傳輸到現實世界的2D圖像。他們還希望使神經網絡規劃過程更高效,并收集更多樣的訓練資料,以增強DiffSkill對新情況的泛化能力。從長遠來看,他們希望将 DiffSkill應用到更多樣化的任務中,包括布料操作。

這項研究由卡内基梅隆大學(CMU)研究所學生林興宇,加州大學聖地亞哥分校研究所學生黃志奧,麻省理工學院腦與認知科學系認知科學與計算職業發展教授Joshua B. Tenenbaum,CMU助理教授David Held,以及MIT-IBM Watson AI Lab的研究科學家 Chuang Gan合作完成。其得到了美國國家科學基金會、LG電子、麻省理工學院-IBM 沃森人工智能實驗室、美國海軍研究辦公室和國防進階研究計劃局的部分支援。

繼續閱讀