天天看點

李飛飛新成果!機器人接入大模型,0訓練就能完成複雜指令...

作者:寫下來

李飛飛團隊最新成果。

李飛飛團隊的具身智能研究取得了新進展。他們成功地将大模型內建到機器人中,無需額外的資料或訓練,便可使用自然語言向機器人下達指令。例如,“打開上面的抽屜,小心花瓶”。大語言模型和視覺語言模型結合起來,可以從3D空間中分析目标和障礙,并幫助機器人進行行動規劃。

李飛飛新成果!機器人接入大模型,0訓練就能完成複雜指令...

在真實世界中,機器人在沒有接受教育訓練的情況下也能直接執行這個任務,并可以操作任何物體,無需事先劃定範圍。例如,打開瓶子、按下開關或拔下充電線。目前,該項目的首頁和論文已經上線,代碼即将釋出。學術界對此也非常感興趣,已經引起了廣泛的讨論。一位前微軟研究員評價說,這項研究走在了人工智能系統最重要和最複雜的前沿。

李飛飛新成果!機器人接入大模型,0訓練就能完成複雜指令...
李飛飛新成果!機器人接入大模型,0訓練就能完成複雜指令...

如何讓機器人直接聽懂人話?李飛飛團隊将這個系統命名為Vox Poser。其原理非常簡單。首先,需要輸入環境資訊和要執行的自然語言指令。然後,LLM大語言模型會根據内容編寫代碼。生成的代碼将與VLM視覺語言模型互動,以指導系統生成相應的操作訓示。Vox Poser使用的地圖是3DValue Map。

李飛飛新成果!機器人接入大模型,0訓練就能完成複雜指令...

生成的3D地圖将作為動作規劃器的目标函數,并合成最終要執行的操作軌迹。這直接解決了機器人訓練資料稀缺的問題。軌迹合成時,通過緩存輸出使用閉環視覺回報,并在遇到幹擾時快速重新規劃。是以,Vox Poser具有很強的抗幹擾能力。

大約一年前,李飛飛在美國文理學會會刊上發表了一篇文章,指出計算機視覺的發展方向有三個:具身智能、視覺推理和場景了解。機器執行任務需要視覺推理、了解場景中的三維關系,以及了解場景中的人,包括人類意圖和社會關系。将大模型與機器人結合起來,正是解決這些問題的一種方法。

繼續閱讀