編輯:桃子 Aeneas
【新智元導讀】昨天的斯坦福炒蝦機器人,一日内爆紅中文網際網路。谷歌DeepMind今天也毫不示弱地放出了自家的家務機器人,端茶倒水擦桌子,也是樣樣拿手。網友稱,2024年是妥妥的機器人年了。
火爆全網的斯坦福炒蝦機器人,一天之内人氣暴漲。
畢竟這樣能炒菜能洗碗的全能機器人,誰不想帶一個回家,把自己從家務中解放出來呢!
據說,這個項目是斯坦福華人團隊花了三個月的時間做出來的。
今天,團隊直接放出了更多細節。
這個機器人的技能多種多樣,令人眼花缭亂。
以前,聊天機器人惬意地吟詩作畫,人類苦逼地收拾打掃,這畫風怎麼看怎麼不對。
如今終于有人想起來了:機器人的一大任務,就該是幫人類幹家務啊!
你還有什麼驚喜是我們不知道的?
斯坦福的這個炒菜機器人,它還能——
澆花。
掃地。
煮咖啡。
幫主人刮胡子。
揪一片衛生紙,擦幹淨桌子上的牛奶。
把洗碗機裡的碗拿出來。
陪貓玩。
洗衣服(包括把一袋髒衣服倒進洗衣機、從袋子中拿出洗衣凝珠、擰開洗衣液倒進去、按下洗衣機按鈕等過程)。
推着小筐子收衣服。
整理床單、換枕套。
疊衣服(注意,它甚至還能完成拉拉鍊這種程度的精細操作)。
擰開瓶蓋,給工作中的主人送去一瓶啤酒。
跟主人道晚安,幫躺在床上的主人蓋好杯子。
最後,還有一個彩蛋:忙碌的一天結束後,機器人還會自己給自己充電,迎接元氣滿滿的一天,繼續為主人服務了!
擂台對打,谷歌DeepMind機器人研究三連彈
谷歌DeepMind這邊,當然也不甘落後。
今天,谷歌DeepMind也官宣了一系列進展,就是為了能讓機器人技術在日常生活中幫助我們。
谷歌DeepMind的這個機器人,可以幫我們撿水果。
從抽屜裡拿出一罐可樂。
幫我們擺好牙刷。
總之,斯坦福炒蝦機器人能做的,它也不差。
解決兩大關鍵挑戰
谷歌采用了AutoRT、SARA-RT和RT-Trajectory等技術,讓機器人能夠更快地做出決策,更好地了解環境,在環境中導航。
為了生産真正有能力的機器人,就必須解決兩個基本挑戰:
一個是提高它們将行為泛化到新情況的能力;第二個,就是提高它們的決策速度。
谷歌DeepMind團隊,在這兩個領域都進行了重大改進。
SARA-RT:讓機器人Transformer更高效
首先,系統SARA-RT使用一種新穎的「向上訓練」方法,将機器人Transformer模型轉換為更高效的版本。
這樣,就降低了機器人部署所需的計算要求,在保持品質的同時,提高 了速度。
當研究者将SARA-RT應用于谷歌最先進的RT-2模型時,在獲得簡短的圖像曆史後,最佳版本的準确率提高了10.6%,速度提高了14%。
雖然Transformer很強大,但它們可能會受到計算需求的限制,這會減緩它們的決策速度。
Transformer嚴重依賴于二次複雜度的注意力子產品。
這意味着,如果RT模型的輸入增加1倍,處理該輸入所需的計算資源就會增加4倍,進而導緻決策速度減慢。
如上所述,SARA-RT「向上訓練」的方法來提高效率。「向上訓練」是将二次複雜度轉化為單純的線性複雜度,大大降低了計算要求。這種轉換不僅提高了原始模型的速度,而且還能保持其性能。
研究者表示,可以相信這是第一個可擴充的注意力機制,可以在不損失品質的情況下提供計算改進。
谷歌這一系統的設計是為了可用性,同時也希望更多的研究人員和從業者将其應用于機器人學和其他領域。
因為SARA提供了加速Transformer的通用方法,且不需要算力昂貴的預訓練,這種方法有助于擴大Transformer技術的使用。
與此同時,SARA-RT不需要任何額外的代碼,因其可以使用各種開源的線性變量。
SARA-RT-2模型用于操作任務,機器人的行動以圖像和文本指令為條件
SARA-RT可以應用于各種Transformer模型。比如,将SARA-RT應用于點雲Transformer,用于處理機器人深度攝像頭的空間資料,并且速度提高了一倍多。
RT-Trajectory:讓機器人學會泛化
第二,RT-Trajectory模型通過自動将描述機器人運動的視覺輪廓添加到其訓練中,來學習如何遵循指令。
要知道,人類可以很直覺地了解該如何擦桌子,但機器人,則需要通過多種方式,将指令轉化為實際的身體動作。
這個RT-Trajectory模型,可以在訓練資料集中擷取每個視訊,并在執行任務時将其與機械臂抓手的2D軌迹草圖疊加在一起。
這樣,這些軌迹就以RGB圖像的形式,在模型學習其機器人控制政策時,為它提供了低級的、實用的視覺提示。
它還可以通過觀看人工示範、了解草圖甚至VLM生成的圖紙來建立軌迹。
當對訓練資料中看不見的41項任務進行測試時,由RT-Trajectory控制的手臂取得了63%的成功率。
傳統上,訓練機械臂依賴于将抽象的自然語言(「擦桌子」)映射到特定的動作(關閉抓手、向左移動、向右移動),這使得模型很難推廣到新的任務。
相比之下,RT-Trajectory模型使RT模型能夠通過解釋特定的機器人運動(如視訊或草圖中包含的運動),來了解完成任務時應該「如何做」。
這個系統的用途很廣泛,它還可以通過觀看所需任務的人類示範來建立軌迹,甚至可以接受手繪草圖。
它可以很容易地适應不同的機器人平台。
AutoRT:大模型訓練機器人
第三,AutoRT利用基礎模型的強大功能來建立一個系統,該系統可以了解人類的實際目标,并使機器人能夠在新環境中收集訓練資料。
這可以幫助擴充機器人的學習範圍。
AutoRT将基礎模型(如LLM、VLM)與機器人控制模型(RT-1、RT-2)相結合,以建立一個可以部署機器人在新環境中收集訓練資料的系統。
AutoRT可以同時指揮多個機器人,每個機器人都配備了一個攝像頭,以及一個末端執行器,在一系列設定中執行不同的任務。
在這個過程中,系統首先使用的是VLM,來了解其周圍環境。
(1)自主輪式機器人發現有多個對象的位置。(2)VLM向LLM描述場景和對象。(3)LLM建議機器人執行不同的操作任務,并在做出選擇之前決定機器人可以在沒有輔助的情況下完成哪些任務,哪些任務需要人類遠端控制,哪些任務不可能完成。(4)嘗試所選任務,收集經驗資料,并對資料的多樣性/新穎性進行評分。以此往複。
接下來,LLM為每個機器人提出創造性的任務,并選擇他們應該執行的任務。
在7個月的評估中,AutoRT安全地同時協調了多達20個機器人,讓它們有條不紊地穿梭在各個辦公室。
不過,有一個關鍵問題:怎麼確定機器人一定會保護人類的安全呢?
首先,AutoRT就具有安全護欄,能夠為基于LLM的決策者提供「機器人憲法」。在為機器人選擇任務時,必須遵守這些安全提示。
這個「機器人憲法「,一定程度上受到了阿西莫夫機器人三定律的啟發。首先,機器人不得傷害人類。另外,機器人也不得嘗試涉及人類、動物、尖銳物體或電器的任務。
不過,這也不能保證安全性,是以,AutoRT系統由經典機器人技術的使用安全措施組成。
比如,通過程式設計可以設定,如果機器人關節上的力超過給定門檻值,就會自動自動停止。
并且,所有活動機器人都必須通過實體停用機關,保持在人類主管的視線範圍内。
網友:今年是機器人的爆發年
2024年開局第一周,各種機器人研究就開始大爆發,讓每個人為之興奮。
一邊是斯坦福代表着學術界的機器人成果,另一邊是谷歌帶着工業界的成果,雙雙亮相。
網友稱,機器人和人工智能智能體今年開局強勁。為接下來的幾個月做好準備。
還有人将這周,稱為「機器人周」。
我認為,在未來2年的某個時候,人工智能和機器人技術的交叉,将同生成式AI一樣爆炸。
「ChatGPT」時刻即将來臨。
英偉達進階科學家Jim Fan表示——
2024年是機器人年。
Mobile-Aloha是一個開源的機器人硬體,它可以靈活地完成雙手任務,比如做飯(人類遠端操控)。很快,硬體将不再是我們實作人類級别的機器人的瓶頸,而是「大腦」。
這項工作是由3名研究人員用學術預算完成的。多麼令人難以置信的工作!斯坦福大學太棒了!
由于資源限制,學術界不再是最前沿的LLM的發源地。但至少在短期内,機器人技術讓學術界和産業界的競争環境更加公平。
硬體價格更實惠是必然趨勢。給有抱負的博士生的建議:擁抱機器人,至少人沒有那麼多,更有空間發揮實力。
不知道,接下來幾個月裡,機器人領域還會有怎樣的驚喜等着我們。
參考資料:
https://twitter.com/GoogleDeepMind/status/1742932234892644674 https://deepmind.google/discover/blog/shaping-the-future-of-advanced-robotics/?utm_source=twitter&utm_medium=social
https://twitter.com/zipengfu/status/1742973258528612724