天天看點

多模态模型前沿研究(1)1 ERNIE-ViL(百度,2021.3.,aaai)

1 ERNIE-ViL(百度,2021.3.,aaai)

    ERNIE-ViL是一個知識增強視覺-語言預訓練模型,首次将場景圖知識融入到多模态預訓練中。

1.1 模型适用場景

ERNIE-ViL結合了從場景圖中獲得的結構化知識來學習視覺語言的聯合表示,能夠在視覺和語言之間建立詳細的語義連接配接(對象、對象的屬性和對象之間的關系)。

  • 任務:适合于跨模态任務,如Visual Commonsense Reasoning(視覺常識推理)、Visual Question Answering(視覺問答)、Grounding Referring Expressions(看圖識物)、Image Retrieval & Text Retrieval(圖檔檢索&文字檢索)

1.2 模型訓練資料

  • 數量:300萬+80萬。
  • 來源:公開資料集。Conceptual Captions (CC) 資料集和SBU Captions (SBU)資料集,CC資料集包含330萬圖檔-說明對,SBU資料集包含100萬圖檔-描述對。由于連結斷裂,CC資料集中的300萬及SBU資料集中的80萬對可用。
  • 類型:圖檔-文本對。
  • 訓練資源及耗時:在8個V100 GPU上進行batch size為512的700k步的預訓練。

1.3 模型架構及優化  

多模态模型前沿研究(1)1 ERNIE-ViL(百度,2021.3.,aaai)
  • 輸入:輸入為一個句子和一張圖檔。對輸入句子采用WordPiece方法轉換為token,再将word embedding、segment embedding、position embedding相加。對輸入圖檔,首先利用Faster R-CNN作為目标檢測器檢測圖檔區域,再将池化特征作為區域特征并為每個區域編碼位置特征,并為每個區域編碼位置特征
  • 視覺-語言編碼器:采用雙流跨模态Transformer來聯合模型的模态内和模态間表征。ERNIE-ViL包含兩個并行的Transformer編碼器,分别對圖像和文本進行編碼,并通過跨模态自注意力分别生成圖像embedding和文本embedding。
  • 場景圖預測:ERNIE-ViL利用場景圖解析器從句子中解析出場景圖,從對場景圖中獲得的結構化知識加深跨模态的語義連接配接,即根據從文本中解析出的場景圖,構造物體預測任務、屬性預測任務和關系預測任務。
多模态模型前沿研究(1)1 ERNIE-ViL(百度,2021.3.,aaai)
  • 對視覺模态和交叉模态分别采用mask預測和圖像-文本比對,并将這些任務的loss相加。對于mask預測,随機mask15%的token,30%的場景圖節點和15%的圖像區域進行預測;對于圖像-文本比對,為每個文本随機選擇一條圖檔,形成負圖文對。 
    多模态模型前沿研究(1)1 ERNIE-ViL(百度,2021.3.,aaai)
多模态模型前沿研究(1)1 ERNIE-ViL(百度,2021.3.,aaai)

1.4 模型優缺點

  • 優點:在跨模态預訓練中,從場景圖中獲得的結構化知識得到了改進。
  • 缺點:構造訓練資料集較為複雜和不靈活。

2 CLIP(opai,2021.4.,ICML)

CLIP是一個基于無監督學習到的遷移性能好的的視覺網絡。

代碼和模型:https://github.com/OpenAI/CLIP

2.1模型适用場景

  • 任務:适用于包含圖像資料的任務,如OCR、視訊中的行為識别、地理定位和細粒度對象分類等。

2.2 模型訓練資料

  • 數量:4億對(圖像、文本)。
  • 來源:網絡上收集的資料。
  • 類型:圖像-文本對。
  • 訓練資源及耗時:訓練的最大的ResNet模型在592個V100 GPU上訓練了18天,而訓練的最大的 256個V100 GPU上訓練了12天。

2.3 模型架構及優化  

多模态模型前沿研究(1)1 ERNIE-ViL(百度,2021.3.,aaai)
  • 自然語言監督:CLIP的核心方法是從自然語言包含的監督學習中學習感覺。通過監督學習不僅隻是學習表征,還将該表征連接配接到語言,進而實作靈活的zero-shot遷移。
  • 建立一個足夠大的資料集:建構了一個新的資料集,包含4億對(圖像、文本)對,這些資料來自網際網路。該資料集與GPT-2所用的WebText資料集具有相似的總字數。
  • 預訓練方法:為了提升計算效率,CLIP利用對比學習在給定一個有N對(圖像,文本)對的批處理時,預測N*N對(圖像,文本)對中哪一種實際發生。具體的,通過聯合訓練圖像編碼器和文本編碼器,最大化N個正确(圖像,文本)對embedding的餘弦相似度,最小化N^2-N個錯誤(圖像,文本)對embedding的餘弦相似度。此外,CLIP利用一個線性映射将每個編碼器的表征映射到多模态嵌入空間。
  • 選擇模型:
    • 圖像編碼器分别選擇ResNet-50和Vision Transformer (ViT)對圖像進行編碼。
    • 文本編碼器選擇Transformer,利用位元組對編碼(BPE)及49152的詞彙表大小對文本進行轉化。
多模态模型前沿研究(1)1 ERNIE-ViL(百度,2021.3.,aaai)

2.4 模型優缺點

  • 優點:1)進行下遊任務時,隻需要提供和圖上的概念對應的文本描述,就可以進行zero-shot transfer。2)CLIP可以很好地轉換到大多數任務中,并且能與完全監督的baseline相競争,而不需要任何資料集特定的訓練。
  • 缺點:1)CLIP與基于ResNet-50特征的簡單線性baseline相比,性能具有競争力,但在大多數這些資料集中,這些baseline遠遠低于總體技術水準。2)CLIP的zero-shot性能在一些任務中仍然很弱。例如,對于不太可能包含在CLIP預訓練資料集中的新任務,如對照片中最近的汽車的距離進行分類,CLIP的性能幾乎是随機的。

3 M6(阿裡達摩院,2021.5.,ACM)

M6模型規模擴大到100億個和1000億個參數,是目前最大的中文預訓練模型。

3.1 模型适用場景

  • 任務:模型适用于單模态及多模态的了解和生成場景,具體的,有VQA(視覺問答)、image captioning(圖檔說明)、image-text matching(圖像-文本比對)、圖像生成等。

3.2 模型訓練資料

  • 數量:1.9TB圖像和292GB文本(是目前最大的中文預訓練資料集,但資料未公開)。
  • 來源:來源于百科全書,爬蟲網頁,社群問答,論壇,産品描述等。資料的覆寫範圍廣泛,如科學、娛樂、體育、政治、生活常識等。
  • 類型:圖像-文本對、純文字資料。
  • 訓練資源及耗時:基于自研的Whale分布式訓練架構,在128個NVIDIA A100上M6-100B預訓練速度達到1440個樣本/秒(對于序列長度為272的樣本)。
多模态模型前沿研究(1)1 ERNIE-ViL(百度,2021.3.,aaai)
多模态模型前沿研究(1)1 ERNIE-ViL(百度,2021.3.,aaai)

3.3模型架構及優化

多模态模型前沿研究(1)1 ERNIE-ViL(百度,2021.3.,aaai)
  •  規模:10億-100億參數量。
  • 輸入
    • 團隊對電商圖像資料抽樣分析發現90%的圖像包含的對象小于5個,且重疊度高,是以M6将圖像分割成小塊,然後使用經過訓練好的ResNet-50提取二維小塊的特征,再根據它們的位置将這些表征排列成一個序列。
    • 類似于BERT,對輸入的單詞序列應用WordPiece和mask并映射為embedding。
  • 統一編碼器-解碼器:将圖像embedding和文本embedding合并為跨模态embedding,送入Transformer進行特征提取,最後添加了一個輸出層用于單詞預測。
  • 預訓練方法
    • 文本到文本的轉換:基于15%的比例,用一個掩碼來mask連續的文本,模型學習解碼整個序列。
    • 圖像到文本的轉換:輸入圖像特征序列,将被mask部分的文本置空,模型學習對相應文本進行解碼。
    • 多模态到文本的轉換:基于輸入圖像資訊和帶有噪聲的文本預測被mask的部分文本。
  • 擴充到100億個和1000億個參數:對100億參數的版本,簡單地通過超參數調優放大模型,即增加了隐藏狀态的層數,并采用混合精度訓練和activation checkpointing來節省記憶體。對1000億參數的版本,基于Whale分布式訓練架構實作GPU并行訓練,并将Mixture-of-Experts(混合專家)與M6相結合,即每個FFN層為一個專家,多個FFN層并行,每個token隻發給一小部分專家,MoE的輸出是所選專家的線性組合。
多模态模型前沿研究(1)1 ERNIE-ViL(百度,2021.3.,aaai)
多模态模型前沿研究(1)1 ERNIE-ViL(百度,2021.3.,aaai)
多模态模型前沿研究(1)1 ERNIE-ViL(百度,2021.3.,aaai)
多模态模型前沿研究(1)1 ERNIE-ViL(百度,2021.3.,aaai)

3.4 模型優缺點

  • 優點:能夠處理多模态資訊,進行單模态和跨模态的了解和生成,在下遊任務上具備良好的通用性和卓越性能。模型資源要求相對較低,資源消耗僅為GPT-3的1%。
  • 缺點:針對下遊任務需要針對性進行架構和資料處理,并非一體化模型。

4 FLAVA(facebook,2022.3.)

4.1 模型适用場景

  • 任務:适合于視覺任務、語言任務以及跨模态和多模态的視覺和語言任務。

4.2 模型訓練資料

  • 數量:7000萬圖像-文本對。
  • 來源:從公開可用的圖像-文本資料來源建構了一個語料庫,去除非英文和單詞數小于2的樣本。
  • 類型:圖像-文本對。
多模态模型前沿研究(1)1 ERNIE-ViL(百度,2021.3.,aaai)

4.3 模型架構及優化  

多模态模型前沿研究(1)1 ERNIE-ViL(百度,2021.3.,aaai)
  • 模型架構 
    • 圖像編碼器:采用ViT架構,給定一個輸入圖像,将其縮放為固定的尺寸并将圖像分割為patches,這些patches被線性嵌入并輸入至Transformer。
    • 文本編碼器:給定一個文本輸入片段,對齊進行tokenize并嵌入成一個詞向量清單,然後應用Transformer将詞向量編碼為隐藏向量。
    • 多模态編碼器:使用一個單獨的Transformer來融合圖像和文本的隐藏狀态,即在投影後的單模型圖像和文本表示上應用交叉注意力,并融合兩個模态。
    • 應用于下遊任務:能夠直接應用在多模态或者單模态任務上。對于視覺識别任務,會在視覺編碼器的單模态輸出上應用分類頭。類似地,對于語言了解和多模型推理任務,在文本編碼器的輸出或者多模态編碼器輸出上應用分類頭。
  • 多模态預訓練目标
    • 全局對比(GC)損失:對比損失函數類似于CLIP,給定一個batch的圖像和文本,最大化正确比對的文本和圖像的cosine相似度,最小化其他不比對的對。
    • mask多模态模組化(MMM):引入了一個mask多模态模組化MMM預訓練目标函數,該目标函數同時會遮蔽圖像的patches和文本的tokens,同時預測輸入圖像和文本的被mask部分。
    • 圖像文本比對(ITM):添加了一個圖像-文本損失函數
  • 單模态預訓練目标
    • mask圖像模組化(MIM):使用BEiT中的矩陣塊masking圖像的一部分patches并且從其他patches中重構他們。
    • mask語言模組化(MLM):輸入的15%的tokens被mask,預測被mask的tokens。
    • 使用單模态預訓練初始化編碼器:使用MIM或者DINO目标函數在純圖像資料集上訓練圖像編碼器,之後單模态和多模态資料集同時訓練。然後,使用單模态預訓練的編碼器來初始化整個FLAVA模型。
    • 單模态和多模态聯合訓練:在圖像編碼器和文本編碼器單模态預訓練完後,繼續在三種類型的資料集上使用循環抽樣來聯合訓練整個FLAVA,在圖像資料上應用單模态MIM,在文本資料上應用單模态MLM。
多模态模型前沿研究(1)1 ERNIE-ViL(百度,2021.3.,aaai)

4.4 模型優缺點

  • 優點:所用的資料集比最近的類似模型小了幾個數量級,但仍然獲得了更好的性能。
  • 缺點:像所有的自然資料一樣,所用的公開資料集有bias,可能會影響模型,需要進一步的研究來識别和減少潛在的有害偏見。

5 OFA(阿裡達摩院,2022.6.,ICML)

OFA是一個實作了架構、模态、任務統一的多模态預訓練模型。

代碼及模型:https://github.com/OFA-Sys/OFA.

5.1 模型适用場景

  • 任務:OFA是一個通用統一的模型,能夠實作架構、模态、任務的統一,處理視覺-語言任務、僅視覺任務和僅語言任務。具體的,有image caption(圖檔說明)、visual question answering(視覺問答)、visual grounding(視覺定位)、visual entailment(視覺蘊含)、image classification(圖像分類)、image generation(圖像生成)、language understanding(語言了解)、language generation(文本生成)等。

5.2 模型訓練資料

  • 數量:預訓練僅需要20M(2000萬)公開的圖像-文本對。
  • 來源:為了便于複現,都為公開資料。
  • 類型:圖像-文本對、圖像資料、文本資料。
多模态模型前沿研究(1)1 ERNIE-ViL(百度,2021.3.,aaai)

5.3 模型架構及優化

多模态模型前沿研究(1)1 ERNIE-ViL(百度,2021.3.,aaai)
  • 規模:3300萬-9.4億參數量。
  • I/O
    • 為了簡化資料預處理流程,利用ResNet子產品對圖像資訊進行特征提取得到圖像表征,并利用BPE(位元組對編碼)将文本轉化為subword sequence,嵌入到特征中,并與圖像表征進行拼接。
    • 為了實作I/O統一,将文本、圖像、坐标都融入到一個統一的詞表中。對于圖像,利用圖像量化将圖像輸出進行離散化表示,并加入到詞表中。由于模型的預訓練任務包括grounded captioning,visual grouding以及object detection需要處理坐标資訊,OFA将連續的坐标資訊轉化成離散化的表征(即提取對象的标簽和邊界框,邊界框被離散化為整數作為位置标記<x1,y1,x2,y2>,标簽為單詞,可用BPE标記表示)。
  • 架構:将任務均表達為序列到序列的模式,利用Transformer的編碼器、解碼器進行預訓練、精調,均使用生成範式進行訓練。
  • 任務和模式,為了學習跨模态表征,設計了5個任務:
    • visual grounding (VG),根據輸入圖像和指令"文本xt描述的是哪個區域?"生成指定區域位置的位置标記<x1,y1,x2,y2>。
    • grounded captioning (GC),VG任務的反向,根據輸入圖像和指令"區域<x1,y1,x2,y2>描述了什麼?"生成描述。
    • image-text matching (ITM),對圖像-文本對是否比對進行判别。
    • image captioning (IC),根據輸入圖像和指令"該圖像描述了什麼"生成說明文字。
    • visual question answering (VQA),根據圖像和問題生成正确回答。
  • 為了學習單模态表征,設計了2個視覺任務和1個語言任務:
    • 圖像填充。
    • 目标檢測。
    • 文本填充。
  • OFA将多模态和多任務統一到一個單一的模型中,可以執行自然語言、視覺、跨模态的任務。給定輸入x,指令s,輸出y後,優化交叉熵:
    多模态模型前沿研究(1)1 ERNIE-ViL(百度,2021.3.,aaai)
多模态模型前沿研究(1)1 ERNIE-ViL(百度,2021.3.,aaai)
多模态模型前沿研究(1)1 ERNIE-ViL(百度,2021.3.,aaai)
多模态模型前沿研究(1)1 ERNIE-ViL(百度,2021.3.,aaai)

5.4 模型優缺點

  • 優點:1)将多模态任務表達為序列到序列生成的形式,實作了架構、模态和任務的統一,不需要針對任務設計特定的模型層。2)與僅處理單一類型資料(如,僅處理跨模态資料)的多模态模型相比,可以處理更多的單模态、跨模态任務,在單模态任務上與SOTA單模态模型性能相當,在視覺-語言任務上取得了SOTA表現。3)在zero-shot學習上能夠取得不錯的表現,另外,OFA也可以有效地遷移到未見過的任務和未見過的領域。4)僅需要2000萬公開圖像-文本對進行訓練,訓練簡單。
  • 缺點:模型的性能與指令的設計高度敏感,應當盡可能從大量的候選指令中尋找合适的指令模闆,對手動提示或模型參數的輕微更改可能會極大地影響模型性能。

6 BEiT-3(微軟,2022.8.,ICLR)

BEiT-3是将圖像視為一種外語,用于視覺、視覺-語言任務的預訓練多模态模型。

6.1 模型适用場景

  • 任務:适用于視覺任務、視覺-語言任務,如object detection (目标檢測),semantic segmentation (圖像分割),image classification (圖像分類),visual reasoning (視覺推理),visual question answering (視覺問答),image captioning (圖檔說明), cross-modal retrieval (跨模态資訊檢索)。

6.2 模型訓練資料

  • 數量:多模态資料有1500萬圖像和2100萬圖像-文本對,單模态資料中有1400萬圖像和160GB文本。
  • 來源:公開資料集。
  • 類型:單模态和多模态資料。
多模态模型前沿研究(1)1 ERNIE-ViL(百度,2021.3.,aaai)

6.3 模型架構及優化  

多模态模型前沿研究(1)1 ERNIE-ViL(百度,2021.3.,aaai)

 核心思想是将圖像模組化為一種外語,這樣我們就可以對圖像、文本和圖像-文本對進行統一的遮蔽“語言”模組化。

  • 規模:19億參數。
  • 骨幹網絡——多路Transformer:利用多路Transformer對不同模态進行編碼,每個Transformer由一個共享的自注意力子產品和一個用于不同模态的FFN池(即模态專家)。BEiT中包含40層多路Transformer。
  • 預訓練任務——mask資料模組化:在多模态資料和單模态資料上通過一個統一的mask資料模組化訓練BEiT-3。對文本,随機mask單模态文本中的15%和圖像文本對中文本的50%。對圖像,利用塊mask政策對圖像中的40%的像素塊進行mask。訓練BEiT以恢複被mask的标記。
多模态模型前沿研究(1)1 ERNIE-ViL(百度,2021.3.,aaai)

6.4 模型優缺點

  • 優點:方法簡單有效,有效地模組化不同的視覺和視覺-語言任務,可以進行通用模組化。利用自監督學習,更符合未來趨勢。
  • 缺點:未能證明在純語言任務上獲得良好的效果(論文團隊正在引入音頻、多語言等,以促進跨語言和跨模态的轉換)。

7 PaLI(google,2022.9.)

PaLI是一個多語言、多任務通用的視覺語言模型。

7.1 模型适用場景

  • 任務:适用于多語言和圖像了解場景,能夠處理單模态和多模态任務,如Image Captioning(圖檔描述)、Visual Question Answering(視覺問答)、Language-understanding(語言了解任務)、Zero-shot Image Classification(zero shot圖檔分類)。

7.2 模型訓練資料

  • 數量:100億。
  • 來源:WebLI資料集,包含超過100種語言的100億圖像-文本。
  • 類型:多語言的圖像-文本對。
  • 訓練資源及耗時:最大的PaLI-17B模型使用1024個GCP-TPUv4晶片預訓練了7天。

7.3 模型架構及優化  

多模态模型前沿研究(1)1 ERNIE-ViL(百度,2021.3.,aaai)
  • 規模:30-170億參數
  • 視覺部分:引入預訓練過的ViT(Vision Transformer),即将圖檔二維向量處理為一維向量送入Transformer進行特征提取。分别訓練兩個ViT,一個帶有inception crop augmentation,另一個不帶,最後取平均。
  • 語言部分:引入預訓練過的mT5作為語言模型主幹,經過編碼器和解碼器得到輸出。
  • 預訓練任務:
    • MLM任務,随機mask15%的token再預測。
    • Split Captioning任務,将每個文本切分成兩部分<cap1>和<cap2> ,輸入加入prompt:Generate the alt_text in <lang> at <pos>: <cap1>: <extra_id_0>”,目标是輸出<cap2>。
    • caption任務和OCR任務,輸入加入prompt:“Generate the alt_text in <lang> at 0: <extra_id_0>”和“Generate the ocr_text in <lang>”,目标是輸出說明或OCR結果。
    • 英語和多語言的VQA和VQG任務,輸入加入prompt:Answer in EN: [question] <extra_id_0>”,目标是輸出回答/問題。
    • Object-Aware (OA) VQA任務,輸入加入prompt:1)讓模型列出物體,prompt是“List the objects present: <extra_id_0>”。2)判斷單個物體是否存在,prompt就是“Is <objectk> in the image? <extra_id_0>”。3)判斷多個物體是否存在,prompt就是“Is <object1>, ..., <objectN> in the image? <extra_id_0>”。4)從一堆物體裡面判斷哪些物體存在,prompt就是“Which of <object1>, ..., <objectN> are in the image? <extra_id_0> ”。
    • 目标檢測任務,prompt的字首是“detect”,目标是輸出界框坐标和物體标簽。
多模态模型前沿研究(1)1 ERNIE-ViL(百度,2021.3.,aaai)

7.4 模型優缺點

  • 優點:能夠處理多語言、多模态的任務。
  • 缺點:1)由于大多數源資料沒有複雜的注釋,模型可能不能非常徹底地描述一個具有許多對象的複雜場景。2)當再僅包含英文的資料上進行微調時,多語言的能力将丢失,理想情況下應需要多語言資料集上微調。

繼續閱讀