机器人用上大模型，buff叠满！AI学术女神李飞飞发布具身智能成果

#暑期创作大赛#

文丨Congerry

AI统治世界的日子又近了？

斯坦福大学的 AI 科学家李飞飞带领的研究团队日前公布了一项具身智能领域的新成果，利用大型语言模型（LLMs）和视觉语言模型（VLMs）来驱动机器人。

机器人能够根据人类用自然语言给出的复杂指令，规划并执行相应的操作任务。直白点说，大白话就可以指挥机器人了。

打开最上面的抽屉，小心那个花瓶！

更重要的是，在大模型的支持下，机器人不仅能够与环境有效地交互，而且能够在无需额外数据和训练的情况下完成各种任务，如绕过障碍，开瓶子、按开关、拔充电线等。

这个系统被李飞飞团队命名为VoxPoser，它不像传统方法那样需要额外的预训练过程，而是直接解决了机器人训练数据稀缺的问题。

论文地址：https://voxposer.github.io/voxposer.pdf

VoxPoser是怎样炼成的？

VoxPoser是如何做到既能理解自然语言指令，又无需预定义的运动原语或额外的数据和训练的？

首先，机器人用相机采集环境信息。

其次，根据语言指令，大型语言模型（LLMs）生成与视觉语言模型（VLMs）交互的代码。

然后生成一张3D地图。

最后机器人根据地图信息规划路线完成动作。

映射到现实世界就完成了开抽屉的操作。

这个过程让机器人更加像人了，不再依赖于提前录入的数据库，从而实现了零样本能力。（收到指令→眼睛获取信息→行动）

除了打开抽屉，机器人还可以“将垃圾分类到蓝色托盘”、“从烤面包机中取出面包”、“拿出一张餐巾纸”、“打开维生素瓶”、“测量苹果的重量”、“关闭顶部抽屉”、“将垃圾扫到簸箕中”、“拔掉手机充电器”、“将毛巾挂在架子上”、“按下保湿霜泵”、“放下勺子”、“打开灯”等。

并且，即使在被干扰的情况下，机器人依旧可以完成任务。

此外，VoxPoser还涌现出了四种行为能力。

评估物理特性：给定两个质量未知的方块，机器人的任务是利用可用的工具进行物理实验，确定哪个方块更重。
行为常识推理：在机器人摆餐具的任务中，用户可以指定行为偏好，比如“我是左撇子”，这要求机器人在任务的上下文中理解其含义。
细粒度语言校正：对于需要高精度的任务，比如“给茶壶盖上盖子”，用户可以给机器人准确的指令，比如“你偏离了1厘米”。
多步视觉程序：给定一个任务“将抽屉精确地打开一半”，由于没有对象模型导致的信息不足，机器人可以根据视觉反馈提出多步操作策略，即首先完全打开抽屉同时记录手柄位移，然后将其推回至中点就可以满足要求。

目前，VoxPoser还有一些局限性，比如它需要外部的感知模块，需要为内置的大模型手动输入提示词，需要通用的动力学模型来实现更多样的动作等。

具身智能，李飞飞指出计算机视觉发展方向

李飞飞何许人也？

李飞飞是世界顶尖的华裔女AI专家，斯坦福大学终身教授和人工智能实验室主任，曾是谷歌副总裁和谷歌云首席科学家，研究领域涉及计算机视觉、机器学习、深度学习、认知神经科学等。

她还培养了许多优秀的AI人才，比如前Open AI研究员、现任特斯拉人工智能和自动驾驶视觉总监的Andrej Karpathy。

之所以完成VoxPoser，是因为李飞飞深知数据对机器学习的重要性和获取的困难。

李飞飞于2006年领导创建了ImageNet数据集，这是第一个用于计算机视觉算法的大规模标注图像数据集，它包含了千万级别的有标签图片，可以训练复杂的机器学习模型，被认为是人工智能历史上的里程碑。

但这些数据的采集和处理非常耗时，需要来自167个国家的近5万名众包工作者花了三年时间才完成。

2022年，李飞飞和Krishna R.撰写的一篇题为《寻找计算机视觉的北极星》论文发表在《Daedalus》杂志上。

在论文中，李飞飞指出在ImageNet和目标识别取得成功之后，计算机视觉领域还有许多令人兴奋的研究方向和挑战，比如具身智能、视觉推理、场景理解等。

李飞飞认为具身智能是人工智能的一个重要且有挑战的方向，它要求机器人或其他智能体能够在复杂多变的环境中，结合视觉、语言、推理等能力，实现与物理世界的交互。

并且，具身智能不局限于人形机器人，任何有形态的空间移动智能机器都属于具身智能。

除了李飞飞之外，英伟达创始人黄仁勋、特斯拉CEO马斯克也都非常看好具身智能的前景。

当下，李飞飞团队已经迈出第一步，这是否意味着AI统治世界的脚步又近了一步？

如果您有什么想说的，欢迎屏幕前你们在评论7区留言讨论！我们将为点赞、评论、关注的同学们送上红包不限量哟~

机器人用上大模型，buff叠满！AI学术女神李飞飞发布具身智能成果

继续阅读

2023年医学人工智能领域九大前沿成果发布！

猜猜李飞怎么瘦的：生物黑科技还是饥饿游戏现场版？

歼-15“飞鲨”是中国航空工业在自主研发道路上取得一项重要成果

李飞怎么瘦成这样了？网友：这还是我认识的小老头吗？

中关村论坛开幕！十项重大科技成果发布，涉脑机接口、芯片等

OpenAI或将推搜索引擎，挑战谷歌；李飞飞AI公司获融资，主打「空间智能」；嫦娥六号发射成功，开启月球之旅

AGI要闻：斯坦福李飞飞首次创业，瞄准“空间智能”；OpenAI下周发布搜索产品挑战谷歌｜钛媒体AGI

2024 AUA中国之声 | 国研新药创新成果持续涌现，再登国际学术舞台

农林下路小学举行2024校园红领巾劳动成果爱心义卖活动

李飞飞被曝AI创业！做空间智能，已筹集种子轮融资

听考古人讲考古让公众乐享考古成果

AI教母李飞飞首次创业！成立“空间智能”公司，已完成种子轮

AI教母李飞飞创办空间智能公司，力图克服大模型AI技术的现有局限

李飞飞创业了！公司方向是“空间智能”

“AI教母”李飞飞创办空间智能公司，力图克服大模型等AI技术的现有局限

李飞飞最新报告：美去年AI领域私人投资是中国近9倍，中国仍是