天天看點

經典多模态論文閱讀筆記一、ViLBERT二、UNITER三、Multimodal Pretraining Unmasked: A Meta-Analysis and a Unified Framework of Vision-and-Language BERTs四、ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

目錄

一、ViLBERT

1、資料集

2、方法

Model-architecture

​編輯

Co-Attentional Transformer Layers

Image Representations.

Training Tasks (two proxy tasks)and Objectives.

3、實驗設定

training ViLBERT

Fine-tuning

4.創新點

5.結論

二、UNITER

0、ABSTRACT

1、INTRODUCTION

3.UNiversal Image-TExt Representation

3.1 Model Overview

3.2 Pre-training Tasks

三、Multimodal Pretraining Unmasked: A Meta-Analysis and a Unified Framework of Vision-and-Language BERTs

(一)統一理論架構

Singe-stream

Dual-stream encoders

Gated Bimodal Transformer Layers

(二)對照實驗

1.Experimental Setup

2.Results

四、ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

0、Abstract

1.Introduction

3. Vision-and-Language Transformer

3.1. Model Overview

3.2. Pre-training Objectives

3.3. Whole Word Masking

3.4. Image Augmentation

4. Experiments

4.1overview

4.2. Implementation Details

4.3. Classification Tasks

4.4. Retrieval Tasks

 4.5. Ablation Study

5. Conclusion and Future Work

一、ViLBERT

1、資料集

        automatically collected Conceptual Captions dataset(google2018釋出的)

        330萬圖像,帶有弱關聯的描述性标題,在web上自動收集

2、方法

Model-architecture

經典多模态論文閱讀筆記一、ViLBERT二、UNITER三、Multimodal Pretraining Unmasked: A Meta-Analysis and a Unified Framework of Vision-and-Language BERTs四、ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

由兩個平行的,在image region 和text segment上,使用bert方法的stream組成

每個stream由TRM和Co-TRM(用于模态之間交換資訊)組成,兩個stream在特定層交換資訊

text stream在和視覺特征進行互相作用之前進行了更多處理(虛線處的TRM塊)

Co-Attentional Transformer Layers

經典多模态論文閱讀筆記一、ViLBERT二、UNITER三、Multimodal Pretraining Unmasked: A Meta-Analysis and a Unified Framework of Vision-and-Language BERTs四、ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

 一個模态的query做另一個模态的value和key,在視覺流中perform圖像條件的語音attention,在文字流中執行語言條件的圖像attention

Image Representations.

生成圖像region特征:用預訓練好的目标檢測網絡Faster R-CNN (with ResNet-101 [11] backbone)提取bounding boxes和他們的visual feature。選出的 bounding boxes 均需超過 confidence threshold 并且每張圖檔隻保留 10 到 36 個 high-scoring boxes

空間location編碼:image region缺少自然的ordering,用一個5d向量進行編碼。投影到和visual feature相同次元,然後兩者相加。

Training Tasks (two proxy tasks)and Objectives.

經典多模态論文閱讀筆記一、ViLBERT二、UNITER三、Multimodal Pretraining Unmasked: A Meta-Analysis and a Unified Framework of Vision-and-Language BERTs四、ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision
  •  masked multi-modal modelling task

follow BERT,mask接近15%的word和image(masked text inputs和bert一緻,masked image regions的圖像特征有90%置0,10%不變),模型根據保留的input重建全部。不是直接預測遮擋的特征值,而是預測相應圖像區域在語義類上的分布,為了做監督,我們使用特征提取時使用的預訓練detection模型,為遮擋部分輸出特征分布,訓練模型以最小化兩個分布之間的kl divergence。

語言隻能識别視覺内容的高水準語義,不太可能重建精确的圖像特征。

  • multi-modal alignment task
經典多模态論文閱讀筆記一、ViLBERT二、UNITER三、Multimodal Pretraining Unmasked: A Meta-Analysis and a Unified Framework of Vision-and-Language BERTs四、ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

 視覺和語言的的inputs整體表示成hIMG and hCLS,逐位相乘(element-wise)後進行二分類預測(the binary prediction),預測vision和language是否比對對齊。

3、實驗設定

training ViLBERT

linguistic stream: 在資料集BookCorpus 和 English Wikipedia上pretrain BERT,用base,12layers,hidden state size of 762,12 attention heads(用large應該表現更好)。

image stream:用上一節提到的Faster R-CNN,TRM和CO-TRM blocks 的隐藏層尺寸:1024,attention head:8。

Fine-tuning

遵循fine-tuning的政策:對pretrained base model 進行修改,然後進行端到端的訓練(修改是細微trivial的,相比其他為每個任務單獨定制模型的方法,更簡單)。

  •  VQA : VQA 2.0 dataset由110萬個關于coco圖像的問題組成,每個問題有10個回答

        在逐位相乘的上方學習一個兩層的MLP,把representation映射到3129個可能的回答。将VQA視作一個多标簽的分類任務,基于每個答案和10個人類答案的相關性,為每個答案配置設定一個軟目标分數(soft target score)。在軟目标分數上訓練(binary cross-entropy loss,batch_size=256,epoch=20,學習率=4e-5,優化器Adam),推理時簡單的使用softmax。

4.創新點

  • 以往的方法:使用分離的語言和視覺模型去預訓練,在大規模的任務上學習grounding作為任務訓練的一部分,結果就是學習到目光短淺的grounding,泛化能力差。本文的方法:在各自的流中處理圖像和文本輸入,這兩個流通過Co-attention transformer層進行互動(學習圖像和文本的内在聯系)
  • 一種轉折:從将學習視覺和語言之間的基礎知識(grounding)僅作為具體任務的一部分,轉向把視覺基礎知識(visual grounding)作為一種可預訓練和可遷移的能力。

5.結論

實驗結果:比single-stream效果好,比沒有預訓練的ViLBERT效果好,資料集大、stream深效果好。和語言、視覺模型分開預訓練的SOTA相比,提升了2-10個百分點。在4個任務上SOTA。

二、UNITER

0、ABSTRACT

4個資料集上預訓練:COCO、Visual Genome、Conceptual caption和SBU caption

4個pretraining tasks:Masked Language Modeling(MLM), Masked Region Modeling (MRM, with three variants), Image-Text Matching (ITM), and Word-Region Alignment (WRA).

在pretraining tasks上使用conditional masking

實驗結果:UNITER在6個V+L任務中SOTA

除了ITM用于全局的圖像-文本對齊,還提出了WRA,使用OT(最優傳輸)鼓勵在pretraining中的單詞和圖像區域的細粒度對齊

1、INTRODUCTION

經典多模态論文閱讀筆記一、ViLBERT二、UNITER三、Multimodal Pretraining Unmasked: A Meta-Analysis and a Unified Framework of Vision-and-Language BERTs四、ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

首先,使用image Embedder和 Text Embedder把image regions(visual features 和bounding box features) 和 textual words(tokens and positions)編碼到一個通用的嵌入空間。

然後,使用Trm module 學習每個region和每個word的通用的上下文embedding通過well-designed pre-training tasks

  • contribution

1)提出UNITER,用于V+L任務的強大通用圖像-文本表示

2)提出基于條件掩碼的掩碼語言/區域模組化方法并提出一種新的基于最優傳輸的詞-區域對齊任務

3)V+L達到新的水準,大大超過現有的方法

3.UNiversal Image-TExt Representation

3.1 Model Overview

Image Embedder和 Text Embedder,得到的embedding送入多層TRM。self-attention沒有順序的,是以有必要顯式的為token的position和region的location進行編碼

image Embedder:先用Faster R-CNN給每個region提取視覺特征,用7d(normalized top/left/bottom/right coordinates, width, height, and area.)向量給每個region的location特征編碼,并且用fc層将兩個特征映射到相同次元。最終的視覺特征通過相加兩個fc的輸出然後通過LN層獲得。

Text Embedder:和BERT一樣,把句子分成WordPieces,最後的特征通過相加兩個embedding并且通過LN層獲得。

在4個任務上進行預訓練,MLM  MRM   ITM   WRA

MRM和MLM和BERT類似,随機mask一些words和regions,token用[MASK]替代,region用all zeros替代,隻mask一種模态,防止當masked region恰好被masked word描述時發生潛在的不對齊(misalignment)。

3.2 Pre-training Tasks

  • Masked Language Modeling (MLM)

随機mask15%的input words,用[MASK]替代。goal:通過image regions和unmask的words預測masked words。

  • Image-Text Matching (ITM)

輸入是一個sentence和一組image regions,輸出是二分類标簽。提取[cls]的representation作為輸入的image-text對的聯合表示,送去FC層和一個sigmoid 預測得分。

  • Word-Region Alignment (WRA)
  • Masked Region Modeling (MRM)

mask their visual features的15%,用未遮擋的region和所有的words對遮擋的進行預測。

1)Masked Region Feature Regression (MRFR)

2)Masked Region Classification (MRC)

3)Masked Region Classification with KL-Divergence (MRC-kl)

三、Multimodal Pretraining Unmasked: A Meta-Analysis and a Unified Framework of Vision-and-Language BERTs

paper主要完成兩件事:

  • 将單流和雙流編碼器統一在一個單一的理論架構
  • 通過對照實驗,辨識五個V&L BERT之間的經驗差異

contribution in this paper:

  • 提出統一的數學架構,目前提出的V&L BERT模型都是這個架構的可能性的一個子集
  • 釋出VOLTA的pytorch代碼(visiolinguistic Transformer architecture)
  • 進行一系列對照實驗,發現相同條件下,一些模型的表現相同
  • 單流和雙流表現同樣好,但兩種模型之間表現可以顯著不同,embedding層起關鍵作用
  • V&L BERT對權重初始化很敏感

(一)統一理論架構

Singe-stream

1、encoder

圖像-文字對的視覺和語言的feature串聯在一起,作為bert的輸入

經典多模态論文閱讀筆記一、ViLBERT二、UNITER三、Multimodal Pretraining Unmasked: A Meta-Analysis and a Unified Framework of Vision-and-Language BERTs四、ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

2、transformer layer

經典多模态論文閱讀筆記一、ViLBERT二、UNITER三、Multimodal Pretraining Unmasked: A Meta-Analysis and a Unified Framework of Vision-and-Language BERTs四、ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

QKV的計算方式:(以Q為例,KV同下)

經典多模态論文閱讀筆記一、ViLBERT二、UNITER三、Multimodal Pretraining Unmasked: A Meta-Analysis and a Unified Framework of Vision-and-Language BERTs四、ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

單流的層計算模态内部(對角線的s)和跨模态的注意(不是對角線的s)

經典多模态論文閱讀筆記一、ViLBERT二、UNITER三、Multimodal Pretraining Unmasked: A Meta-Analysis and a Unified Framework of Vision-and-Language BERTs四、ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

Dual-stream encoders

1、encoder

視覺和語言的feature先被送入兩個獨立的Trm layer進行處理,然後得到的表示被送入跨模态Trm layer,模态内互相作用與模态間互相作用交替進行。

經典多模态論文閱讀筆記一、ViLBERT二、UNITER三、Multimodal Pretraining Unmasked: A Meta-Analysis and a Unified Framework of Vision-and-Language BERTs四、ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

VILBERT和LXMERT都是先做自己的kqv矩陣計算,再把k和v送到其他模态做計算。通過這樣做,這些模型明确地限制了每一層模式之間的互動,抑制了在單個流編碼器中可能發生的一些互動,同時通過單獨的可學習參數集提高了它們的表達能力。

2、transformer layer

Inter-modal Transformer layer

經典多模态論文閱讀筆記一、ViLBERT二、UNITER三、Multimodal Pretraining Unmasked: A Meta-Analysis and a Unified Framework of Vision-and-Language BERTs四、ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

Intra-modal Transformer layer

經典多模态論文閱讀筆記一、ViLBERT二、UNITER三、Multimodal Pretraining Unmasked: A Meta-Analysis and a Unified Framework of Vision-and-Language BERTs四、ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

Gated Bimodal Transformer Layers

  • 這是一個架構,single和dual stream都是它的特殊情況,使用這個架構能夠在一個controlled environment中評估現有的模型。除原來的輸入,多了γ = {γLV, γVL, γLL, γVV} 和 τ = {τMHA, τLN1 , τFF , τLN2 }。
經典多模态論文閱讀筆記一、ViLBERT二、UNITER三、Multimodal Pretraining Unmasked: A Meta-Analysis and a Unified Framework of Vision-and-Language BERTs四、ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

 其中Sr中ε → −∞,當r=1,softmax後對角線位置為0,相當于隻有模态間,當r=0,所有系數是1,相當有單流,有模态内和模态間,通過控制參數r調節模态内attention和模态間的attention。

經典多模态論文閱讀筆記一、ViLBERT二、UNITER三、Multimodal Pretraining Unmasked: A Meta-Analysis and a Unified Framework of Vision-and-Language BERTs四、ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision
  •  gated bimodal TRM 允許我們對迄今為止考慮的用于多模trm編碼器的交叉模态融合的少數組合的超集進行模組化

(二)對照實驗

(1)預訓練資料和目标

(2)超參數

(3)預訓練時的随機初始化引起的variance(差異、方差)

(4)下遊任務時多次微調引起的variance

(5)單流 / 雙流架構

(6)embedding layer 的選擇

1.Experimental Setup

VOLTA (Visiolinguistic Transformer architectures)

實作細節:用Faster R-CNN或ResNet-10提取圖像的特征,每個圖像有36個region,模型用BERT的參數進行初始化。全連接配接層和embedding層随機初始化成正态分布,均值為0.0,标準差為0.02,初始偏差向量設為0.0,層歸一化權重向量設為1.0。基于預訓練目标給出最佳驗證性能的參數集用于下遊任務。

pretraining:the Conceptual Captions dataset

Downstream evaluation tasks:通常評估的任務跨越四個組:vocab-based VQA 、 image–text retrieval 、  referring expression  and multimodal verification。如圖5

2.Results

進行對照實驗,調查V&L BERT之間報告的性能差異的可能原因

下面的實驗用官方釋出的代碼評估三個模型VIL-BERT, LXMERT and VL-BERT

經典多模态論文閱讀筆記一、ViLBERT二、UNITER三、Multimodal Pretraining Unmasked: A Meta-Analysis and a Unified Framework of Vision-and-Language BERTs四、ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

圖2表示:資料量的大小可以影響performance

  • Same data, similar performance
經典多模态論文閱讀筆記一、ViLBERT二、UNITER三、Multimodal Pretraining Unmasked: A Meta-Analysis and a Unified Framework of Vision-and-Language BERTs四、ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

圖5 菱形是論文中的結果,方塊是使用官方代碼在2.7M Conceptual Caption的結果,圓是VOLTA在2.7M Conceptual Caption的結果.在一些任務中,方框表現不好,但是這是因為比原論文中的pretrain資料少。

結論:當使用相同的資料進行預訓練時,這些模型之間聲稱的性能差距會縮小。本節實驗示範了VOLTA的正确性,這些模型是按照第三章中介紹的統一架建構的。

  • controlled setup

對inputs 、 encoders、 pooling、 pretraining objective、 fine-tuning、 hyperparameter進行設定

結果表明,與官方設定相比,大多數測試的模型在controlled setup中表現類似

  • Single- or Dual-stream Architectures

單流和雙流差别不大

  • The Importance of the Embeddings

embedding層對結果影響很大

四、ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

0、Abstract

提出的背景--目前的VLP(Vision-and-Language Pre-training)方法都要依靠圖像特征提取過程,大多數涉及region supervision(物體檢測)和convolutional architecture(Resnet),存在問題:

1)效率/速度:隻是提取input 的feature就要花費比模态之間互動多得多的computation

2)表現力:因為它是visual embedder和它預定義的視覺詞彙的上界

1.Introduction

大多數研究都通過增加視覺embedders的功能來提升性能,為了減輕特征提取的負擔,通常在訓練時提前緩存region features,是以視覺嵌入很heavy的問題通常被忽視。

我們推測,trm module用于VLP的模态互相作用時,能夠像處理文本特征一樣,處理視覺特征,代替卷積視覺embedder

ViLT:用統一的方法處理兩種模态,比region feature 的模型快十倍,最少比grid feature快四倍,在表現相同甚至表現更好時。

3. Vision-and-Language Transformer

經典多模态論文閱讀筆記一、ViLBERT二、UNITER三、Multimodal Pretraining Unmasked: A Meta-Analysis and a Unified Framework of Vision-and-Language BERTs四、ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

3.1. Model Overview

用ViT初始化interaction trm權重而不是BERT,ViT由堆疊的塊組成,其中包括一個多頭自注意層(MSA)和一個MLP層。BERT的LN在MSA和MLP層後面,ViT在前面。

經典多模态論文閱讀筆記一、ViLBERT二、UNITER三、Multimodal Pretraining Unmasked: A Meta-Analysis and a Unified Framework of Vision-and-Language BERTs四、ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

text的input次元是L×|V|,通過|V|×H投影後得到L×H,position的次元是(L+1)× H;

image的input次元是C×H×W,patch大小為P,N = HW/P2,patch後v的次元為N×(P2×C),經過次元為(P2×C)×H的投影後,得到次元為N×H,position embedding的次元是(N+1)×H;

text和image的embedding和他們的對應的模态類型相加,得到z0;

contextualized向量z經過不斷疊代,通過D層trm,知道最後輸出序列zD;

p是整個多模态的輸入,是序列zD的第一個index zD0 投影後送入tanh得到的(如圖pooler的過程);

使用的權重是ImageNet上預訓練的ViT-B32。

3.2. Pre-training Objectives

  • Image Text Matching(ITM)

50%的機率,随機替換aligned image中的image,在pooler的輸出後接一個FC層,映射成一個二值logits,用于判斷文本和圖檔是否對應。

受區域對齊目标的啟發(UNITER)設計了WPA(word patch alignment),計算兩個subset(textual subset 和 visual subset)的對齊分數,使用的是不精确的近端點方法進行最優傳輸--the inexact proximal point method for optimal transports (IPOT) 。

  • Masked Language Modeling.(MLM)

随機mask15%的tokens,文本輸出接兩層的MLP,通過文本的上下文資訊去預測masked tokens

上面兩個任務的損失函數都是negative log-likelihood。

3.3. Whole Word Masking

在mask tokens時,遮擋的是一整個word中所有的subword,比如,giraffe被tokenized成三個wordpiece tokens,["gi", "##raf","##fe"],如果不是把三個全部mask,而是["gi","[MASK]", "##fe"],那麼,遮擋的token可能不是通過來自圖像的資訊預測,而是通過兩個沒有遮擋的詞。

3.4. Image Augmentation

圖像增強在視覺模型中被證明可以提高泛化能力,DeiT是基于ViT,試驗了各種增強技術,證明了augmentation對ViT訓練有益。但是在VLP模型中沒有image augmentation的研究,視覺特征緩存限制了基于region特征的VLP模型使用圖像增強。

在fine-tune中應用RandAugment,除了顔色反轉(文本通常包括顔色資訊)和剪切(因為可能清除分散在整個圖像中的小但是重要的對象)

4. Experiments

4.1overview

4個datasets做預訓練:Microsoft COCO(MSCOCO) , Visual Genome (VG) , SBU Captions (SBU)  and Google Conceptual Captions (GCC) 

下遊任務:1)分類:VQAv2  and NLVR2,2)檢索:MSCOCO and Flickr30K

分類用不同的初始化參數微調三次,檢索任務微調一次

4.2. Implementation Details

優化器:AdamW optimizer

基礎學習率為10−4,權重衰退為10−2;

學習率在總訓練步驟的前10%warm up, 然後在後面的訓練中線性衰減到0。(圖是warm up)

經典多模态論文閱讀筆記一、ViLBERT二、UNITER三、Multimodal Pretraining Unmasked: A Meta-Analysis and a Unified Framework of Vision-and-Language BERTs四、ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

關于圖像:将輸入圖像的較短邊緣調整為384,将較長的邊緣限制在640以下,同時保持長寬比。其他VLP模型中,使用短邊800的尺寸。ViLT-B/32産生(384/32)×(640/32)=12×20=240個patches,  因為這是一個很少達到的上限,是以在預訓練時最多采樣200個patch。

關于文本:tclass、T、Tpos不是從pretrained BERT進行微調,而是scratch,有論文證明效果更好

4.3. Classification Tasks

在兩個普遍被使用的資料集VQAv2 and NLVR2上被測試,使用一個兩層的MLP作為微調head

  • Visual Question Answering:常見做法是将任務轉換為包含3129個答案類的分類任務。在VQAv2的訓練和驗證集上對ViLT-B/32進行微調,餘下1000validation images進行内部驗證。
  • Natural Language for Visual Reasoning:給兩個圖檔和一個問題,二分類判斷哪個對應。輸入兩個pairs(question,image1)和(question,image2),每個pair經過ViLT,head把兩個pooled 表示(p)合并作為輸入,輸出二分類預測。
經典多模态論文閱讀筆記一、ViLBERT二、UNITER三、Multimodal Pretraining Unmasked: A Meta-Analysis and a Unified Framework of Vision-and-Language BERTs四、ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

4.4. Retrieval Tasks

對于image-to-text和text-to-image的檢索,測試了zero-shot和fine-tune

經典多模态論文閱讀筆記一、ViLBERT二、UNITER三、Multimodal Pretraining Unmasked: A Meta-Analysis and a Unified Framework of Vision-and-Language BERTs四、ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

 4.5. Ablation Study

經典多模态論文閱讀筆記一、ViLBERT二、UNITER三、Multimodal Pretraining Unmasked: A Meta-Analysis and a Unified Framework of Vision-and-Language BERTs四、ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

1)随着訓練step變長,模型表現不斷變好(1-3行),iteration增加到200k後開始降低

2)遮擋全部單詞,模型表現變好(3-4行)

3)使用augmentation,模型表現變好(4行和6行)

4)使用masked patch prediction (MPP)進行預訓練,模型表現變好

5. Conclusion and Future Work

ViLT是最小的VLP架構,與大量配備卷積視覺嵌入網絡的競争對手相比,是可以勝任的。

ViLT證明了沒有卷積和區域監督的VLP網絡是可以勝任的。

Scalability:在适當的資料量下,預訓練trm的性能可衡量,這一觀察結果為性能更好的ViLT變體鋪平了道路。

Masked Modeling for Visual Inputs:通過将資訊保留到trm的最後一層,視覺模态的掩蔽模組化目标有助于保持資訊。鼓勵未來不使用區域監督的工作,為視覺形态設計更複雜的掩蔽目标。

Augmentation Strategies:對文本和視覺輸入的适當增強政策的探索将是有價值的補充。

繼續閱讀