I-JEPA: The first AI model based on Yann LeCun’s vision for more human-like AI @June 13, 2023 Meta AI

去年，Meta 的首席人工智能科学家 Yann LeCun 提出了一种新的架构，旨在克服当前最先进的人工智能系统所面临的局限性。他的愿景是创建能够学习世界内部运作方式的内部模型，以便它们能够更快地学习，规划如何完成复杂任务，并轻松适应陌生情况。

Meta推出了基于 LeCun 愿景关键组成部分的第一个人工智能模型。这个模型，名为 Image Joint Embedding Predictive Architecture（I-JEPA），通过创建世界内部模型来学习，将图像的抽象表示进行比较（而不是比较像素本身）。I-JEPA 在多个计算机视觉任务上表现出强大的性能，且比其他广泛使用的计算机视觉模型在计算效率上高出许多。I-JEPA 学到的表示还可以应用于许多不同的场景，而无需进行大量的微调。例如，我们在不到 72 小时内使用 16 个 A100 GPU 训练了一个拥有 632M 参数的视觉transformer模型，它在 ImageNet 的低样本分类任务上仅使用每类 12 个标记样本便取得了最先进的性能。其他方法在使用相同数量的数据进行训练时通常需要花费两到十倍的 GPU 小时，并且错误率更高。

关于 I-JEPA 的论文将在下周的 CVPR 2023 上展示，也将开源训练代码和模型checkpoints。

使用自监督学习捕捉常识知识

关于 I-JEPA（以及更广泛的联合嵌入预测架构（JEPA）模型）的研究基于这样一个事实，即人类仅通过被动观察世界就能学到大量关于世界的背景知识。有人猜测，这种常识信息对于实现智能行为至关重要，例如高效地获取新概念、实现概念的基础和进行计划。

人工智能研究人员试图设计一种能够捕捉关于世界的常识背景知识的学习算法，然后将其编码成算法稍后可以访问的数字表示。为了有效，系统必须以自监督的方式学习这些表示，也就是说，直接从未标记的数据（如图像或声音）中学习，而不是从手工组装的已标记数据集中学习。

在较高层面上，JEPA 旨在从同一输入（例如图像或文本片段）的其他部分的表示来预测输入的某一部分的表示。由于它不涉及将多个视图/增强的图像表示折叠到单个点上，因此希望 JEPA 能够避免与另一种被广泛使用的被称为不变性预训练的方法相关的偏见和问题。

与此同时，通过在较高抽象层面上预测表示，而不是直接预测像素值，希望直接学习有用的表示，同时避免生成方法的局限性，这些方法是近期引起极大关注的大型语言模型的基础。

相反，生成型架构通过移除或扭曲输入模型的部分来进行学习，例如，擦除照片的一部分或隐藏文本段落中的一些单词。然后，它们尝试预测被损坏或丢失的像素或单词。然而，生成方法的一个显著缺陷是，模型试图填补每一位缺失的信息，即使世界本质上是不可预测的。因此，生成方法可能容易犯一个人永远不会犯的错误，因为它们过于关注无关紧要的细节，而不是捕捉高层次的可预测概念。例如，生成模型准确生成人类手部是非常困难的（它们经常添加额外的数字或犯其他明显的错误）。

常见的自监督学习架构，系统学会捕捉输入之间的关系。目标是为不兼容的输入分配高能量，为兼容的输入分配低能量。 (a) 联合嵌入（不变性）架构学习为兼容输入 x，y 输出相似的嵌入，为不兼容输入输出不相似的嵌入。 (b) 生成型架构学习直接从兼容信号 x 重构信号 y，使用一个解码器网络，该网络基于额外的（可能是潜在的）变量 z 来促进重构。 (c) 联合嵌入预测架构学习从兼容信号 x 预测信号 y 的嵌入，使用一个预测器网络，该网络基于额外的（可能是潜在的）变量 z 来促进预测。

朝着广泛应用的联合嵌入预测架构迈出的第一步

I-JEPA 背后的想法是在更类似于人类一般理解的抽象表示中预测缺失信息。与预测像素/标记空间中生成方法相比，I-JEPA 使用可能消除不必要的像素级细节的抽象预测目标，从而使模型学习更多语义特征。引导 I-JEPA 生成语义表示的另一个核心设计选择是提出的多块遮盖策略。具体来说，我们展示了预测包含语义信息的大型块（具有足够大的规模）的重要性，使用一个信息丰富（空间分布）的上下文。

基于图像的联合嵌入预测架构（I-JEPA）使用单个上下文块来预测来自同一图像的各种目标块的表示。上下文编码器是一个仅处理可见上下文贴片的视觉变换器（ViT）。预测器是一个窄的 ViT，接收上下文编码器的输出，并根据目标位置的位置标记（以颜色显示）预测特定位置的目标块的表示。目标表示对应于目标编码器的输出，其权重在每次迭代时通过上下文编码器权重的指数移动平均值进行更新。

I-JEPA 中的预测器可以看作是一种原始（和受限）的世界模型，能够从部分可观察的上下文中对静态图像中的空间不确定性进行建模。此外，这个世界模型是语义的，因为它预测图像中未见区域的高级信息，而不是像素级细节。

说明预测器如何学习建模世界的语义。对于每个图像，蓝色框外的部分被编码并作为上下文提供给预测器。预测器输出一个表示，表示它预期蓝色框内区域的内容。为了可视化预测，我们训练了一个生成模型，该模型生成由预测器输出表示的内容的草图，并在蓝色框内显示一个样本输出。显然，预测器识别了应该填充哪些部分的语义（狗头顶部、鸟腿、狼腿、建筑物另一侧）。

为了了解模型捕捉到的内容，Meta训练了一个随机解码器，将 I-JEPA 预测的表示映射回像素空间，显示模型在蓝色框内进行预测时的输出。这种定性评估表明模型正确捕捉了位置不确定性，并以正确的姿势生成了高级对象部件（例如，狗头、狼前腿）。简而言之，I-JEPA 能够在不丢弃图像中的局部位置信息的情况下学习对象部件的高级表示。

更高的效率和强大的性能

I-JEPA 预训练在计算上也是高效的。它不涉及将更计算密集的数据增强应用于生成多个视图所带来的开销。目标编码器只需要处理图像的一个视图，上下文编码器只需要处理上下文块。

从经验上看， I-JEPA 在不使用手工制作的视图增强的情况下，学习到了强大的现成语义表示 - 参见下图。在 ImageNet-1K 线性探测和半监督评估中，它的性能也优于像素和标记重构方法。

随着预训练 GPU 小时数的增加，ImageNet-1k 上的线性评估性能。

I-JEPA 在语义任务上也能与依赖手工制作数据增强的先前预训练方法相媲美。与这些方法相比，I-JEPA 在低级视觉任务（如对象计数和深度预测）上表现更好。通过使用更简单、归纳偏差较小的模型，I-JEPA 可应用于更广泛的任务。

低射击分类准确率：在 ImageNet-1k 上进行半监督评估，使用 1% 的标签（每类大约有 12 个标记的图像）。

人工智能向人类水平智能迈进的一步

I-JEPA 展示了在无需通过手工制作图像变换来编码额外知识的情况下，学习具有竞争力的现成图像表示的架构的潜力。特别有趣的是，通过更丰富的模态推进 JEPAs 学习更通用的世界模型，例如，使人们能够根据简短的上下文对视频中未来事件进行长距离的空间和时间预测，并根据音频或文本提示对这些预测进行条件化。

Meta期待着将 JEPA 方法扩展到其他领域，如图像-文本配对数据和视频数据。在未来，JEPA 模型可能在诸如视频理解等任务上具有激动人心的应用。这是将自监督方法应用于学习通用世界模型并扩大规模的重要一步。

论文地址：https://arxiv.org/abs/2301.08243

【变革】杨乐昆发布首个更具人类特性的人工智能模型

使用自监督学习捕捉常识知识

朝着广泛应用的联合嵌入预测架构迈出的第一步

更高的效率和强大的性能

人工智能向人类水平智能迈进的一步

继续阅读

号称人工智能发动机的“算力”是什么？

基于实验室检验的人工智能模型可准确诊断卵巢癌：一项中国的多中心、回顾性队列研究

科学家用STEM数据集评测神经网络模型基础，加快人工智能实现进程

人工智能行业周刊（2024年4月22日—4月28日）——智研咨询发布

通用人工智能，是个啥智能？

体验人工智能魅力感受科技创新力量

美年健康荣膺“2024福布斯中国人工智能创新场景应用企业TOP10”奖项

杨燕青：人工智能是重要的新质生产力

从高山奔向大海，智慧眼迈向通用人工智能重要一步

李轩豪，终于迎来天王山之战，“人工智能”的名称究竟有多强！

首批18个！“人工智能+高等教育”应用场景典型案例名单公布，你的高校有入选吗？【附人工智能人才发展情况】

大道至简：这一轮人工智能（AI）突破的原因其实很「简单」

诺奖得主斯宾塞：推进人工智能在国家内部和全球经济中的可获得性和扩散

万字解析Al+ Web3：新型生产关系赋能人工智能时代

英语新闻选译：人工智能为中美在非洲竞争开辟了又一个新战场

这样开车不出事故才怪？近日，网络上一个视频广为流传，一辆问界M7在高速上狂奔，车上有5个人，其中3个人包括司机在打王者荣