In-Context Learning开卷视觉任务，DeepMind提出快速适应新任务的“蜂鸟”模型

近来，随着ChatGPT和GPT-4等大模型的火热，使得学术界开始更多的关注于大模型背后的一些关键新技术，例如与ChatGPT高度相关的In-Context Learning（情景学习，也可以称为上下文学习）、Chain-of-thoughts（思维链推理）以及Reinforcement Learning from Human Feedback（人类反馈强化学习）等全新学习范式。在自然语言理解和生成领域，In-Context Learning极大程度地缓解了模型对特征任务进行微调的需求，研究人员可以仅仅通过设计一些更专业的prompts，来使模型获得解决多种下游任务的能力。

相比之下，计算机视觉社区中的大模型尚未达到这一效果。对于目前的视觉模型而言，针对一个特定的视觉任务，通常需要专门的解码器和微调策略才可以使模型适应到一个新的下游任务中。本文介绍一篇来自Google DeepMind研究团队的最新工作，他们探讨了如何在像语义分割、深度估计等密集视觉任务中设计类似的上下文学习机制，提出了一种名为Hummingbird（蜂鸟）的大型视觉模型，Hummingbird基于检索记忆机制实现了视觉任务中的上下文学习，并且提出了一种新的预训练模式来产生适应于多种下游任务的视觉表示。研究团队进行了广泛的实验评估，表明Hummingbird可以通过调整输入prompts的方式，实现无需微调模型执行各种场景理解任务的能力，同时也可以达到与使用标准微调方法相当的模型性能。

In-Context Learning开卷视觉任务，DeepMind提出快速适应新任务的“蜂鸟”模型

论文链接：

https://arxiv.org/abs/2306.01667

In-Context Learning开卷视觉任务，DeepMind提出快速适应新任务的“蜂鸟”模型

一、引言

本文主要针对的视觉任务为密集场景理解任务，例如语义分割和深度估计。作者首先对完成这些任务所需要的视觉组件进行了研究，并且从（1）通用性、（2）参数效率和（3）快速适应三个方面对这些组件进行设计。为了实现与自然语言领域类似的In-Context Learning效果，作者团队首先将传统的非参数最近邻（NN）检索方法[1]拓展到密集场景预测任务中，这种基于检索的解码机制的优点就是不需要针对特定任务进行参数微调。因而作者认为这种方式是目前实现视觉In-Context Learning效果的最佳方案，其可以直接加载常见的标准视觉编码器（例如ResNet或ViT）来轻松的适应到其他下游任务中，同时保持一定的模型预测性能。下图展示了本文方法与其他标准微调方法在PASCAL和ADE20K数据集上的语义分割效果，可以看到，本文的最近邻检索方法可以在较少样本的情况下获得更好的微调效果。

此外，研究团队还发现，现有的视觉Transformer（例如MAE和DINO模型）虽然使用相同的预训练方式，但是他们在场景理解方面的差异却很大。因此作者提出了一种新型预训练方法来整合这一方面以产生相对通用的视觉表示，具体来说，作者主要做了以下两步操作：

在标准自监督预训练模式进行简单修改，称为上下文预训练，它通过使用从记忆池检索的特征来更新每个图像块的空间表示，随后再进行跨图像块的注意力计算。
提出了一种空间注意力池化机制（attention-pooling），其与常规的标准平均池化不同，通过计算图像内各块间的注意力权重，将整个网格区域内的特征以一种“上下文聚集”的方式转换为单个图像级的特征，随后送入到自监督损失函数中进行优化。

作者发现，通过这种方式得到的自监督特征具有很强的跨任务适应能力，在下游任务上的性能也与标准微调方法的性能非常接近。因此作者将本文方法命名为Hummingbird，以突出其在多种任务场景中的快速适应能力。

二、本文方法

2.1 基于检索机制的场景理解框架

一个通用的图像特征表示应该在无需进行参数更新的条件下，直接在各种场景理解任务中达到开箱即用的效果。为了达到这一效果，作者将传统的图像级最近邻检索（NN）解码机制扩展到了密集预测任务中来。具体来说，给定一个下游任务的训练图像及其对应的标签

构成的图像提示，模型的目标是在给定一个新的查询图像

时，直接使用预训练的图像编码器

进行预测。

上图展示了Hummingbird模型的操作流程，作者首先将每个提示图像编码为一个空间特征图

，其中每个特征块的尺寸为 32

32。随后对这些特征块及其对应的局部标签进行采样，采样得到的子集存储到记忆池中形成key-value对：

当给定一个新的测试图像

时，使用图像编码器

得到测试特征

，并且使用每个空间位置上的特征块

作为查询向量到记忆池

中检索与当前查询最接近的记忆项，然后使用交叉注意力权重来组合相应的标签并形成局部预测

：

在这一过程中，记忆池

可以看作是视觉任务形成的上下文，并且模型得到的最终预测结果完全是通过

检索得到，只是将每个块的局部预测

进行组合和上采样。因此基于这种机制，可以使得普通的图像编码器适应到多种下游任务中。

2.2 上下文预训练

检索记忆机制可以使得图像编码器以组合样本局部标签的方式来执行各种下游任务，为了确保模型在这种情况下能够达到良好的性能，作者认为也应该在预训练阶段入手，使网络在特征提取时对每个块强制表示为周围表示的组合。在训练过程中，直接使用根据先前批次中训练图像

来计算出特征key-values对来填充记忆池

：

随后，对于当前批次的输入训练图像

，首先提取其特征表示为

，然后使用每个空间位置特征

以交叉注意力计算的形式参与到记忆池的更新

，作者将这样得到的特征称为是经过上下文处理（contextualized）后的特征：

其中

是一个简单的线性层，最终得到的新图像表示

本质上只是多个局部特征

的组合，此外作者提到，在模型测试阶段，预训练得到的记忆池

会被完全丢弃，模型会基于输入测试样本重新构建

。

2.3 自监督训练目标函数

虽然通过上下文预训练可以使特征编码器聚焦于整合周围块的特征来更新表示，但是作者认为这还远远不够。对于语义分割等密集视觉预测任务，网络应该具有一定的细粒度理解能力，因此作者结合注意力池化和对比学习来训练编码器使其能够定位到图像中最为显著的区域。首先，作者使用随机数据增强方式来构建

的多视角样本，随后将每个视角的图像编码为

，然后使用注意力池化和检索记忆机制计算得到更新后的特征表示

和

，计算过程如下：

随后，针对每个不同视角特征生成另一个视角目标的预测结果

，在预测时，模型使用完全相同的架构，但是针对每个视角时的预测权重

会发生变化，作者使用标准对比损失来优化这些预测权重

：

三、实验效果

本文的实验主要在两个密集场景理解任务上进行，对于语义分割实验，作者选取PASCAL VOC和ADE20K数据集，评价指标使用mIoU，对于单目深度估计实验，选择NYUv2数据集，评价指标使用均方根误差（RMSE）作为评价指标。作者选取了包括MAE和DINO等多种自监督方法作为对比方法，并且使用ViT-B版本作为基础视觉backbone。下表展示了本文方法使用检索记忆机制在场景理解任务上的性能对比，其中Hummingbird++代表使用监督学习进行训练。

从上表可以看出，本文方法与其他使用ViT-B编码器的方法相比，性能有很大的提升，同时随着数据集规模从ImageNet-1k增加到ImageNet-22k后，本文方法展现出了良好的扩展能力，但是其他方法（例如MAE）相比之下有些逊色。此外，作者还研究了本文方法在跨架构情况下的性能表现，如上图底部展示了该方法的性能随着编码器参数规模的增加而有了显著提高，并且明显优于其他方法，甚至是一些经过监督学习微调的方法。

此外，作者还重点评估了本文方法在下游任务的快速适应能力，作者选取了目前快速适应任务领域中两个常用基线（Linear + frozen和Linear + E2E FT，E2E FT代表端到端标准微调）进行对比，下表展示了它们在PASCAL VOC和ADE20K数据集上的微调性能对比，可以看到，本文方法的性能明显优于其他两种方案。

同时，作者也评估这些方法在微调过程中的用时情况，如下图所示，对于本文方法，仅需要5分钟（通过在下游训练集上训练1个epoch）就可以构建一个高性能的NN解码器（PASCAL VOC上为70% mIoU，ADE20K 上为 28%）。相比之下，Linear + frozen方法的收敛速度仅次于本文方法，但是其峰值性能明显低于Hummingbird中的NN解码器。

四、总结

本文受大语言模型中上下文学习（In-Context Learning）的启发，重点探讨了在计算机视觉密集预测任务中引入上下文学习范式所必须的基础结构，为此，本文研究团队提出了一种非常简单的非参数最近邻检索机制，它不仅与下游任务无关，而且不需要微调专门的解码器。随后，作者进一步提出了Hummingbird，作为一种新型的自监督预训练方法，Hummingbird可以在预训练阶段重点关注跨图像块之间的上下文注意力，使其具有快速适应到下游任务中的能力。通过将Hummingbird预训练后的模型作为一种通用编码器，并且与基于检索记忆机制的解码器相结合，本文带领视觉社区向上下文学习领域迈出了重要的一步。

参考

[1] O. Boiman, E. Shechtman, and M. Irani. In defense of nearest-neighbor based image classification. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2008.

作者：seven_

Illustration by IconScout Store from IconScout-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线480+期talk视频，2400+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

[email protected]

或添加工作人员微信（chemn493）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

>>> 添加小编微信！

关于我“门”▼将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构，旗下涵盖将门投资基金、将门创新服务以及TechBeat人工智能社区。公司致力干通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

⤵一键送你进入TechBeat快乐星球

In-Context Learning开卷视觉任务，DeepMind提出快速适应新任务的“蜂鸟”模型

二、本文方法

2.1 基于检索机制的场景理解框架

2.2 上下文预训练

2.3 自监督训练目标函数

三、实验效果

四、总结

参考

继续阅读

深度学习资料整理--有用的网站

deepmind dnc 是干什么的下面是转载的介绍文章

DeepMind 发布 VQVAE-2，图片生成效果超越 BigGAN

3. 2020年《DeepMind＆UCL深度学习讲座》第3讲：卷积神经网络的图像识别【中文字幕】

deepmind dnc 相关的软件下载资源

优维低代码实践：Context / State

从一个崩溃再谈Context

Android Context 详解1、Context概念2、Context与ApplicationContext3、引用的保持4、Context的应用场景

深入分析JavaWeb Item6 -- servletConfig 与servletContext详解

修改Tomcat的默认上下文路径

iOS8 UILabel BUG ? text不显示

text——为android系统添加一种默认字体，类似“sans”,“serif”,“monospace”

Java Ajax输出out.print

Context你真的了解吗？前言

综合案例【session、context、filter、listener...】

elasticlunr.js 最新版本v0.6.7发布啦应用示例为什么你需要elasticlunr.js?