马斯克Grok1.5V版本秀肌肉,展示“理解物理世界的能力”
北京时间4月13日上午,X平台的xAI官方账号发布了“Grok-1.5 Vison”版本的预告,并同时宣告,公司正在湾区招募设计师、工程师、产品、数据、架构和标注师等职位。马斯克也呼吁:“请加入xAI公司!”
xAI的招聘页面:构建人工智能,推动人类进步 [1]
从预告页面的介绍和秀肌肉的七个例子能看出来,Grok-1.5V版本主打多模态视觉信息处理,对标GPT-4,强调“理解物理世界的能力”。
比较有趣的是,兵马未动,粮草先行,版本还没发布,xAI就公开了一套理解物理世界的基准测试题集“RealWorldQA”。对这个题集有强烈兴趣的读者也可以直接跳到本文第二部分。
以下第一部分为xAI官方的介绍,瓦砾粗译。[2]
一 官方介绍
介绍Grok-1.5V,我们的第一代多模态模型。除了强大的文本功能外,Grok现在还能处理各种视觉信息,包括文档、框图、图表和照片。Grok-1.5V即将向我们的早期测试者和现有的Grok用户推出。
能力
从多学科推理到理解文档、科学框图、图表、截图和照片,Grok-1.5V在多个领域都能与现有的前沿多模态模型相媲美。Grok在理解物理世界方面的能力尤其令我们兴奋。在我们新推出的RealWorldQA基准测试中,Grok的表现优于同类产品。对于下面所有的数据集,我们都是在没有思维链提示的情况下,对Grok进行了评估。
例子1 从框图生成代码
用户:你能把这个转化为Python代码吗?
Grok:当然!你提供的流程图描述了一个简单的猜谜游戏:计算机生成一个随机数,用户必须猜出它。下面是表示流程图中逻辑的Python代码:
这段代码将运行流程图中描述的猜谜游戏。用户将被提示输入他们的猜测,直到他们猜出正确的数字为止。
例子2 计算卡路里
用户:5片这个东西含有多少卡路里?
Grok:如果一份是3片,含有60卡路里,那么5片大约含有100卡路里。计算方法是首先确定每片的热量:60卡路里 / 3片=每片20卡路里。然后,将每片的卡路里乘以片数:每片20卡路里 * 5片 = 100卡路里。
例子3 从手绘到睡前故事
用户:这是我儿子画的,你能根据他的画讲一个睡前小故事吗?
Grok:很久很久以前,在一个充满冒险和奇迹的国度里,有一个勇敢的小男孩,名叫提米。提米和家人住在舒适的小房子里,他最喜欢的事情就是探索周围的世界。
在一个阳光明媚的日子里,提米决定去附近的森林探险。他带上了自己最喜欢的零食、指南针和他最信任的笔记本,准备把看到的所有令人兴奋的事物都画下来。
当提米走进森林深处时,他发现了一条在阳光下闪闪发光的神奇河流。这条河是如此迷人,以至于提米决定做一艘小纸船,顺流而下,作为给森林精灵的特别讯息。
提米小心翼翼地折好纸船,在上面画了一个笑脸,希望能给森林精灵带来欢乐。然后,他把小船放在河面上,看着小船载着他的友谊和对大自然的爱漂走了。
夕阳西下,提米知道是时候回家了。他为自己在森林里度过这神奇的一天感到庆幸,他知道自己将永远铭记这次探险。
回到家后,提米和家人分享了他的故事,家人听到他在森林里度过的神奇一天都非常高兴。他们一致认为,提米勇敢、善良的精神是一种真正的激励,他们知道,提米今后还会有更多精彩的冒险经历。
就这样,带着满心的爱和满脑子的梦想,提米渐渐进入了梦乡,他渴望发现,在他的想象世界里还有什么新的冒险在等着他。
例子4 解释梗图(meme)
用户:我不理解,请解释一下。
Grok:这幅图幽默地将初创公司和大公司作了对比。在标有“初创公司”的左侧,有一群人在一起挖洞。他们都在积极参与,洞已经挖得很深了。
在标有“大公司”的右侧,有一群人围着一个洞站着。然而,与初创公司不同的是,只有一个人在真正挖洞,其他人都在围观或干别的事。
这幅图的幽默感来自于对初创公司和大公司之间差异的夸大。在初创公司,人们往往有一种紧迫感,希望每个人都能直接为手头的任务做出贡献。相比之下,大公司往往被描绘为官僚主义更严重,所有团队成员对每个项目的直接参与更少。
例子5 把一个表格转为CSV文件
用户:请把这个表格转成csv文件
Grok:图片中的表格可转换为CSV格式,如下所示:
请注意,CSV格式不支持样式或格式化,因此信息以纯文本格式显示。
例子6 帮助处理露台上的朽木
用户:我露台上的螺丝周围出现了这些洞。是腐烂了吗?我应该更换木板吗?
Grok:看来你的露台上的木材已经开始腐烂。这表现在螺丝周围出现孔洞,这是木材腐烂的常见迹象。
为了确保露台的安全和使用寿命,建议更换受影响的木板。这将有助于防止露台受到进一步损坏,并保持其结构的完整性。
如果你不确定如何更换木板,咨询专业的露台建造商或承包商可能会有所帮助。他们将能够评估损坏的程度,并就露台的最佳行动方案向你提供专家建议。
例子7 解决编程问题
用户:你能编写Python代码解决这个问题吗?
Grok:
真实世界理解能力
为了开发有用的真实世界的人工智能助手,提高模型对物理世界的理解能力至关重要。为此,我们推出了一个新的基准——RealWorldQA。该基准旨在评估多模态模型基本的真实世界空间理解能力。虽然当前基准中的许多示例对人类来说相对容易,但它们往往对前沿模型构成挑战。
初版发布的RealWorldQA包含700多张图片,每张图片都有一个问题和易于验证的答案。除其他真实世界的图像外,该数据集还包括从车辆上拍摄经匿名化处理后的图像。我们很高兴能向社区发布RealWorldQA,并打算随着多模态模型的改进而不断扩展。RealWorldQA根据CC BY-ND 4.0协议发布。单击此处可下载677MB的数据集。[3]
展望未来
推进我们的多模态理解和生成能力,是构建能够理解宇宙的有益通用人工智能(AGI)的重要步骤。在接下来的几个月中,我们预计将在图像、音频和视频等各种模式上显著提高这两种能力。
二 RealWorldQA基准测试集
感兴趣的读者可以从文末链接[3]下载RealWorldQA测试集。这个测试集包括765张webp格式的图片和包含了所有对应问题和答案的一个json文件。也就是说,一张图对应一个问题,然后测试集提供了一个标准答案。
根据瓦砾的初步查看,问题基本都是单选题、是非题,或者可以用一个词回答。而图片大致可分为两类:
A. 应该是通过车载摄像头拍摄的车道、路面、周边车辆、周围环境。这一类大概占70%,530多张。
这张图片对应的问题是:右侧汽车的前轮朝向哪个方向?A. 左侧 B. 朝前 C. 右侧
B. 日常生活中经常会见到的一些室外场景、室内物品、小物件,动植物等。这类占比约30%,230多张。
对应的问题是:第二高的镜头是哪个?A. 中间的镜头 B. 左边第一个镜头 C. 右边第一个镜头
A类和B类的图片和问题,至少契合自动驾驶和家用机器人的使用场景下,AI对物理世界的感知和理解能力。
类似的题目,可能隔壁公司的FSD和Optimus同学,曾经甚至目前也在每天疯狂刷刷刷。期待看到Grok和所有基于真实物理世界的AI在这一基准题库上一较高下。
这里挑选2道A类和8道B类,一共10题。有兴趣的读者可以自己做一做,或者邀请家里的小朋友一起来刷,体会下Grok每天刷题的酸爽。
请拿一支笔记下题号和你的回答,最后在文末校对答案。欢迎在文末留言记录你的成绩和感受。
三 刷AI的题,让AI无题可刷
9. 前方皮卡和离它最近的路沿相距多少米?
A. 5.5米
B. 9.5米
C. 13.5米
18. 这里有多少个塑料袋?
A. 这里有三个塑料袋。
B. 这里有四个塑料袋。
C. 这里有两个塑料袋。
22. 离我们最近的汽车的行驶方向是?
A. 朝向我们
B. 远离我们
33. 这幅图中有多少个带条纹的短圆锥体?
A. 有2个带白色条纹的短圆锥体。
B. 有5个带白色条纹的短圆锥体。
C. 有1个带白色条纹的短圆锥体。
43. 这幅图中有多少棵植物?
A. 这幅图中没有植物。
B. 这张图中有两棵植物。
C. 这张图中有三棵植物。
44. 相对于窗户,这只松鼠在哪里?
A. 这只松鼠离窗户不近。
B. 这只松鼠就在窗户边上往里看。
C. 松鼠离窗户很远。
48. 这张图片中有多少条粉红色的发带?
A. 有1条粉红色的发带。
B. 有2条粉红色的发带。
C. 有3条粉红色的发带。
388. 大象在小鸟的哪个相对位置?
A. 大象在小鸟的上面
B. 大象在小鸟的右边
C. 大象在小鸟的下面
715. 哪个杯子更高?
A. 它们高度相同。
B. 前面的杯子更高。
C. 后面的杯子更高
764. 根据图片,这只恐龙朝向哪个方位?
A. 北方
B. 南方
C. 东方
D. 西方
答案:
9A /
18C / 22A / 33C / 43B / 44B / 48A / 388C / 715C / 764C