天天看点

机器人用上大模型,buff叠满!AI学术女神李飞飞发布具身智能成果

作者:头部科技

#暑期创作大赛#

机器人用上大模型,buff叠满!AI学术女神李飞飞发布具身智能成果
机器人用上大模型,buff叠满!AI学术女神李飞飞发布具身智能成果
机器人用上大模型,buff叠满!AI学术女神李飞飞发布具身智能成果

文丨Congerry

AI统治世界的日子又近了?

斯坦福大学的 AI 科学家李飞飞带领的研究团队日前公布了一项具身智能领域的新成果,利用大型语言模型(LLMs)和视觉语言模型(VLMs)来驱动机器人。

机器人能够根据人类用自然语言给出的复杂指令,规划并执行相应的操作任务。直白点说,大白话就可以指挥机器人了。

机器人用上大模型,buff叠满!AI学术女神李飞飞发布具身智能成果

打开最上面的抽屉,小心那个花瓶!

更重要的是,在大模型的支持下,机器人不仅能够与环境有效地交互,而且能够在无需额外数据和训练的情况下完成各种任务,如绕过障碍,开瓶子、按开关、拔充电线等。

这个系统被李飞飞团队命名为VoxPoser,它不像传统方法那样需要额外的预训练过程,而是直接解决了机器人训练数据稀缺的问题。

机器人用上大模型,buff叠满!AI学术女神李飞飞发布具身智能成果

论文地址:https://voxposer.github.io/voxposer.pdf

机器人用上大模型,buff叠满!AI学术女神李飞飞发布具身智能成果

VoxPoser是怎样炼成的?

VoxPoser是如何做到既能理解自然语言指令,又无需预定义的运动原语或额外的数据和训练的?

机器人用上大模型,buff叠满!AI学术女神李飞飞发布具身智能成果

首先,机器人用相机采集环境信息。

机器人用上大模型,buff叠满!AI学术女神李飞飞发布具身智能成果

其次,根据语言指令,大型语言模型(LLMs)生成与视觉语言模型(VLMs)交互的代码。

机器人用上大模型,buff叠满!AI学术女神李飞飞发布具身智能成果

然后生成一张3D地图。

机器人用上大模型,buff叠满!AI学术女神李飞飞发布具身智能成果

最后机器人根据地图信息规划路线完成动作。

机器人用上大模型,buff叠满!AI学术女神李飞飞发布具身智能成果
机器人用上大模型,buff叠满!AI学术女神李飞飞发布具身智能成果

映射到现实世界就完成了开抽屉的操作。

机器人用上大模型,buff叠满!AI学术女神李飞飞发布具身智能成果

这个过程让机器人更加像人了,不再依赖于提前录入的数据库,从而实现了零样本能力。(收到指令→眼睛获取信息→行动)

除了打开抽屉,机器人还可以“将垃圾分类到蓝色托盘”、“从烤面包机中取出面包”、“拿出一张餐巾纸”、“打开维生素瓶”、“测量苹果的重量”、“关闭顶部抽屉”、“将垃圾扫到簸箕中”、“拔掉手机充电器”、“将毛巾挂在架子上”、“按下保湿霜泵”、“放下勺子”、“打开灯”等。

机器人用上大模型,buff叠满!AI学术女神李飞飞发布具身智能成果

并且,即使在被干扰的情况下,机器人依旧可以完成任务。

机器人用上大模型,buff叠满!AI学术女神李飞飞发布具身智能成果

此外,VoxPoser还涌现出了四种行为能力。

机器人用上大模型,buff叠满!AI学术女神李飞飞发布具身智能成果
  • 评估物理特性:给定两个质量未知的方块,机器人的任务是利用可用的工具进行物理实验,确定哪个方块更重。
  • 行为常识推理:在机器人摆餐具的任务中,用户可以指定行为偏好,比如“我是左撇子”,这要求机器人在任务的上下文中理解其含义。
  • 细粒度语言校正:对于需要高精度的任务,比如“给茶壶盖上盖子”,用户可以给机器人准确的指令,比如“你偏离了1厘米”。
  • 多步视觉程序:给定一个任务“将抽屉精确地打开一半”,由于没有对象模型导致的信息不足,机器人可以根据视觉反馈提出多步操作策略,即首先完全打开抽屉同时记录手柄位移,然后将其推回至中点就可以满足要求。

目前,VoxPoser还有一些局限性,比如它需要外部的感知模块,需要为内置的大模型手动输入提示词,需要通用的动力学模型来实现更多样的动作等。

机器人用上大模型,buff叠满!AI学术女神李飞飞发布具身智能成果

具身智能,李飞飞指出计算机视觉发展方向

李飞飞何许人也?

李飞飞是世界顶尖的华裔女AI专家,斯坦福大学终身教授和人工智能实验室主任,曾是谷歌副总裁和谷歌云首席科学家,研究领域涉及计算机视觉、机器学习、深度学习、认知神经科学等。

机器人用上大模型,buff叠满!AI学术女神李飞飞发布具身智能成果

她还培养了许多优秀的AI人才,比如前Open AI研究员、现任特斯拉人工智能和自动驾驶视觉总监的Andrej Karpathy。

之所以完成VoxPoser,是因为李飞飞深知数据对机器学习的重要性和获取的困难。

李飞飞于2006年领导创建了ImageNet数据集,这是第一个用于计算机视觉算法的大规模标注图像数据集,它包含了千万级别的有标签图片,可以训练复杂的机器学习模型,被认为是人工智能历史上的里程碑。

机器人用上大模型,buff叠满!AI学术女神李飞飞发布具身智能成果

但这些数据的采集和处理非常耗时,需要来自167个国家的近5万名众包工作者花了三年时间才完成。

2022年,李飞飞和Krishna R.撰写的一篇题为《寻找计算机视觉的北极星》论文发表在《Daedalus》杂志上。

机器人用上大模型,buff叠满!AI学术女神李飞飞发布具身智能成果

在论文中,李飞飞指出在ImageNet和目标识别取得成功之后,计算机视觉领域还有许多令人兴奋的研究方向和挑战,比如具身智能、视觉推理、场景理解等。

李飞飞认为具身智能是人工智能的一个重要且有挑战的方向,它要求机器人或其他智能体能够在复杂多变的环境中,结合视觉、语言、推理等能力,实现与物理世界的交互。

并且,具身智能不局限于人形机器人,任何有形态的空间移动智能机器都属于具身智能。

除了李飞飞之外,英伟达创始人黄仁勋、特斯拉CEO马斯克也都非常看好具身智能的前景。

当下,李飞飞团队已经迈出第一步,这是否意味着AI统治世界的脚步又近了一步?

如果您有什么想说的,欢迎屏幕前你们在评论7区留言讨论!我们将为点赞、评论、关注的同学们送上红包不限量哟~

继续阅读