天天看点

李飞飞新成果!机器人接入大模型,0训练就能完成复杂指令...

作者:写下来

李飞飞团队最新成果。

李飞飞团队的具身智能研究取得了新进展。他们成功地将大模型集成到机器人中,无需额外的数据或训练,便可使用自然语言向机器人下达指令。例如,“打开上面的抽屉,小心花瓶”。大语言模型和视觉语言模型结合起来,可以从3D空间中分析目标和障碍,并帮助机器人进行行动规划。

李飞飞新成果!机器人接入大模型,0训练就能完成复杂指令...

在真实世界中,机器人在没有接受培训的情况下也能直接执行这个任务,并可以操作任何物体,无需事先划定范围。例如,打开瓶子、按下开关或拔下充电线。目前,该项目的主页和论文已经上线,代码即将发布。学术界对此也非常感兴趣,已经引起了广泛的讨论。一位前微软研究员评价说,这项研究走在了人工智能系统最重要和最复杂的前沿。

李飞飞新成果!机器人接入大模型,0训练就能完成复杂指令...
李飞飞新成果!机器人接入大模型,0训练就能完成复杂指令...

如何让机器人直接听懂人话?李飞飞团队将这个系统命名为Vox Poser。其原理非常简单。首先,需要输入环境信息和要执行的自然语言指令。然后,LLM大语言模型会根据内容编写代码。生成的代码将与VLM视觉语言模型交互,以指导系统生成相应的操作指示。Vox Poser使用的地图是3DValue Map。

李飞飞新成果!机器人接入大模型,0训练就能完成复杂指令...

生成的3D地图将作为动作规划器的目标函数,并合成最终要执行的操作轨迹。这直接解决了机器人训练数据稀缺的问题。轨迹合成时,通过缓存输出使用闭环视觉反馈,并在遇到干扰时快速重新规划。因此,Vox Poser具有很强的抗干扰能力。

大约一年前,李飞飞在美国文理学会会刊上发表了一篇文章,指出计算机视觉的发展方向有三个:具身智能、视觉推理和场景理解。机器执行任务需要视觉推理、理解场景中的三维关系,以及理解场景中的人,包括人类意图和社会关系。将大模型与机器人结合起来,正是解决这些问题的一种方法。

继续阅读