天天看點

In-Context Learning開卷視覺任務,DeepMind提出快速适應新任務的“蜂鳥”模型

作者:将門創投

近來,随着ChatGPT和GPT-4等大模型的火熱,使得學術界開始更多的關注于大模型背後的一些關鍵新技術,例如與ChatGPT高度相關的In-Context Learning(情景學習,也可以稱為上下文學習)、Chain-of-thoughts(思維鍊推理)以及Reinforcement Learning from Human Feedback(人類回報強化學習)等全新學習範式。在自然語言了解和生成領域,In-Context Learning極大程度地緩解了模型對特征任務進行微調的需求,研究人員可以僅僅通過設計一些更專業的prompts,來使模型獲得解決多種下遊任務的能力。

相比之下,計算機視覺社群中的大模型尚未達到這一效果。對于目前的視覺模型而言,針對一個特定的視覺任務,通常需要專門的解碼器和微調政策才可以使模型适應到一個新的下遊任務中。本文介紹一篇來自Google DeepMind研究團隊的最新工作,他們探讨了如何在像語義分割、深度估計等密集視覺任務中設計類似的上下文學習機制,提出了一種名為Hummingbird(蜂鳥)的大型視覺模型,Hummingbird基于檢索記憶機制實作了視覺任務中的上下文學習,并且提出了一種新的預訓練模式來産生适應于多種下遊任務的視覺表示。研究團隊進行了廣泛的實驗評估,表明Hummingbird可以通過調整輸入prompts的方式,實作無需微調模型執行各種場景了解任務的能力,同時也可以達到與使用标準微調方法相當的模型性能。

In-Context Learning開卷視覺任務,DeepMind提出快速适應新任務的“蜂鳥”模型

論文連結:

https://arxiv.org/abs/2306.01667

In-Context Learning開卷視覺任務,DeepMind提出快速适應新任務的“蜂鳥”模型

一、引言

本文主要針對的視覺任務為密集場景了解任務,例如語義分割和深度估計。作者首先對完成這些任務所需要的視覺元件進行了研究,并且從(1)通用性、(2)參數效率和(3)快速适應三個方面對這些元件進行設計。為了實作與自然語言領域類似的In-Context Learning效果,作者團隊首先将傳統的非參數最近鄰(NN)檢索方法[1]拓展到密集場景預測任務中,這種基于檢索的解碼機制的優點就是不需要針對特定任務進行參數微調。因而作者認為這種方式是目前實作視覺In-Context Learning效果的最佳方案,其可以直接加載常見的标準視覺編碼器(例如ResNet或ViT)來輕松的适應到其他下遊任務中,同時保持一定的模型預測性能。下圖展示了本文方法與其他标準微調方法在PASCAL和ADE20K資料集上的語義分割效果,可以看到,本文的最近鄰檢索方法可以在較少樣本的情況下獲得更好的微調效果。

In-Context Learning開卷視覺任務,DeepMind提出快速适應新任務的“蜂鳥”模型

此外,研究團隊還發現,現有的視覺Transformer(例如MAE和DINO模型)雖然使用相同的預訓練方式,但是他們在場景了解方面的差異卻很大。是以作者提出了一種新型預訓練方法來整合這一方面以産生相對通用的視覺表示,具體來說,作者主要做了以下兩步操作:

  1. 在标準自監督預訓練模式進行簡單修改,稱為上下文預訓練,它通過使用從記憶池檢索的特征來更新每個圖像塊的空間表示,随後再進行跨圖像塊的注意力計算。
  2. 提出了一種空間注意力池化機制(attention-pooling),其與正常的标準平均池化不同,通過計算圖像内各塊間的注意力權重,将整個網格區域内的特征以一種“上下文聚集”的方式轉換為單個圖像級的特征,随後送入到自監督損失函數中進行優化。

作者發現,通過這種方式得到的自監督特征具有很強的跨任務适應能力,在下遊任務上的性能也與标準微調方法的性能非常接近。是以作者将本文方法命名為Hummingbird,以突出其在多種任務場景中的快速适應能力。

二、本文方法

2.1 基于檢索機制的場景了解架構

一個通用的圖像特征表示應該在無需進行參數更新的條件下,直接在各種場景了解任務中達到開箱即用的效果。為了達到這一效果,作者将傳統的圖像級最近鄰檢索(NN)解碼機制擴充到了密集預測任務中來。具體來說,給定一個下遊任務的訓練圖像及其對應的标簽

構成的圖像提示,模型的目标是在給定一個新的查詢圖像

時,直接使用預訓練的圖像編碼器

進行預測。

In-Context Learning開卷視覺任務,DeepMind提出快速适應新任務的“蜂鳥”模型

上圖展示了Hummingbird模型的操作流程,作者首先将每個提示圖像編碼為一個空間特征圖

,其中每個特征塊的尺寸為 32

32。随後對這些特征塊及其對應的局部标簽進行采樣,采樣得到的子集存儲到記憶池中形成key-value對:

當給定一個新的測試圖像

時,使用圖像編碼器

得到測試特征

,并且使用每個空間位置上的特征塊

作為查詢向量到記憶池

中檢索與目前查詢最接近的記憶項,然後使用交叉注意力權重來組合相應的标簽并形成局部預測

在這一過程中,記憶池

可以看作是視覺任務形成的上下文,并且模型得到的最終預測結果完全是通過

檢索得到,隻是将每個塊的局部預測

進行組合和上采樣。是以基于這種機制,可以使得普通的圖像編碼器适應到多種下遊任務中。

2.2 上下文預訓練

檢索記憶機制可以使得圖像編碼器以組合樣本局部标簽的方式來執行各種下遊任務,為了確定模型在這種情況下能夠達到良好的性能,作者認為也應該在預訓練階段入手,使網絡在特征提取時對每個塊強制表示為周圍表示的組合。在訓練過程中,直接使用根據先前批次中訓練圖像

來計算出特征key-values對來填充記憶池

随後,對于目前批次的輸入訓練圖像

,首先提取其特征表示為

,然後使用每個空間位置特征

以交叉注意力計算的形式參與到記憶池的更新

,作者将這樣得到的特征稱為是經過上下文處理(contextualized)後的特征:

其中

是一個簡單的線性層,最終得到的新圖像表示

本質上隻是多個局部特征

的組合,此外作者提到,在模型測試階段,預訓練得到的記憶池

會被完全丢棄,模型會基于輸入測試樣本重新建構

2.3 自監督訓練目标函數

雖然通過上下文預訓練可以使特征編碼器聚焦于整合周圍塊的特征來更新表示,但是作者認為這還遠遠不夠。對于語義分割等密集視覺預測任務,網絡應該具有一定的細粒度了解能力,是以作者結合注意力池化和對比學習來訓練編碼器使其能夠定位到圖像中最為顯著的區域。首先,作者使用随機資料增強方式來建構

的多視角樣本,随後将每個視角的圖像編碼為

,然後使用注意力池化和檢索記憶機制計算得到更新後的特征表示

,計算過程如下:

随後,針對每個不同視角特征生成另一個視角目标的預測結果

,在預測時,模型使用完全相同的架構,但是針對每個視角時的預測權重

會發生變化,作者使用标準對比損失來優化這些預測權重

三、實驗效果

本文的實驗主要在兩個密集場景了解任務上進行,對于語義分割實驗,作者選取PASCAL VOC和ADE20K資料集,評價名額使用mIoU,對于單目深度估計實驗,選擇NYUv2資料集,評價名額使用均方根誤差(RMSE)作為評價名額。作者選取了包括MAE和DINO等多種自監督方法作為對比方法,并且使用ViT-B版本作為基礎視覺backbone。下表展示了本文方法使用檢索記憶機制在場景了解任務上的性能對比,其中Hummingbird++代表使用監督學習進行訓練。

In-Context Learning開卷視覺任務,DeepMind提出快速适應新任務的“蜂鳥”模型

從上表可以看出,本文方法與其他使用ViT-B編碼器的方法相比,性能有很大的提升,同時随着資料集規模從ImageNet-1k增加到ImageNet-22k後,本文方法展現出了良好的擴充能力,但是其他方法(例如MAE)相比之下有些遜色。此外,作者還研究了本文方法在跨架構情況下的性能表現,如上圖底部展示了該方法的性能随着編碼器參數規模的增加而有了顯著提高,并且明顯優于其他方法,甚至是一些經過監督學習微調的方法。

此外,作者還重點評估了本文方法在下遊任務的快速适應能力,作者選取了目前快速适應任務領域中兩個常用基線(Linear + frozen和Linear + E2E FT,E2E FT代表端到端标準微調)進行對比,下表展示了它們在PASCAL VOC和ADE20K資料集上的微調性能對比,可以看到,本文方法的性能明顯優于其他兩種方案。

In-Context Learning開卷視覺任務,DeepMind提出快速适應新任務的“蜂鳥”模型

同時,作者也評估這些方法在微調過程中的用時情況,如下圖所示,對于本文方法,僅需要5分鐘(通過在下遊訓練集上訓練1個epoch)就可以建構一個高性能的NN解碼器(PASCAL VOC上為70% mIoU,ADE20K 上為 28%)。相比之下,Linear + frozen方法的收斂速度僅次于本文方法,但是其峰值性能明顯低于Hummingbird中的NN解碼器。

In-Context Learning開卷視覺任務,DeepMind提出快速适應新任務的“蜂鳥”模型

四、總結

本文受大語言模型中上下文學習(In-Context Learning)的啟發,重點探讨了在計算機視覺密集預測任務中引入上下文學習範式所必須的基礎結構,為此,本文研究團隊提出了一種非常簡單的非參數最近鄰檢索機制,它不僅與下遊任務無關,而且不需要微調專門的解碼器。随後,作者進一步提出了Hummingbird,作為一種新型的自監督預訓練方法,Hummingbird可以在預訓練階段重點關注跨圖像塊之間的上下文注意力,使其具有快速适應到下遊任務中的能力。通過将Hummingbird預訓練後的模型作為一種通用編碼器,并且與基于檢索記憶機制的解碼器相結合,本文帶領視覺社群向上下文學習領域邁出了重要的一步。

參考

[1] O. Boiman, E. Shechtman, and M. Irani. In defense of nearest-neighbor based image classification. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2008.

作者:seven_

Illustration by IconScout Store from IconScout-The End-

掃碼觀看!

本周上新!

“AI技術流”原創投稿計劃

TechBeat是由将門創投建立的AI學習社群(www.techbeat.net)。社群上線480+期talk視訊,2400+篇技術幹貨文章,方向覆寫CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高品質、知識型交流平台,希望為AI人才打造更專業的服務和體驗,加速并陪伴其成長。

投稿内容

// 最新技術解讀/系統性知識分享 //

// 前沿資訊解說/心得經曆講述 //

投稿須知

稿件需要為原創文章,并标明作者資訊。

我們會選擇部分在深度技術解析及科研心得方向,對使用者啟發更大的文章,做原創性内容獎勵

投稿方式

發送郵件到

[email protected]

或添加從業人員微信(chemn493)投稿,溝通投稿詳情;還可以關注“将門創投”公衆号,背景回複“投稿”二字,獲得投稿說明。

>>> 添加小編微信!

關于我“門”▼将門是一家以專注于發掘、加速及投資技術驅動型創業公司的新型創投機構,旗下涵蓋将門投資基金、将門創新服務以及TechBeat人工智能社群。公司緻力幹通過連接配接技術與商業,發掘和培育具有全球影響力的科技創新企業,推動企業創新發展與産業更新。

将門成立于2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬建構而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。

如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投後服務,歡迎發送或者推薦項目給我“門”:

In-Context Learning開卷視覺任務,DeepMind提出快速适應新任務的“蜂鳥”模型

⤵一鍵送你進入TechBeat快樂星球

繼續閱讀