搞多模态不了解最新進展？中科院自動化所撰文首個視覺-語言預訓練綜述

選自arXiv

作者：Feilong Chen等

機器之心編譯

編輯：陳萍

一文了解視覺 - 語言預訓練最新進展和新領域。

讓機器做出與人類相似的反應一直是 AI 研究不懈追求的目标。為了讓機器具有感覺和思考的能力，研究人員進行了一系列相關研究，如人臉識别、閱讀了解和人機對話，通過這些任務訓練和評估機器在特定方面的智能。一般來講，領域專家通過手工建構标準資料集，然後在這些資料集上訓練和評估相關模型。然而，由于相關技術的限制，訓練模型往往需要大量的标注資料，以獲得更好、更強大的模型。

基于 Transformer 架構的預訓練模型緩解了這個問題。它們首先通過自監督學習進行預訓練，從大規模未标記資料中訓練模型，進而學習通用表示。它們在下遊任務上僅使用少量手動标記的資料進行微調就能取得令人驚訝的效果。自 BERT 被應用于 NLP 任務以來，各種預訓練模型在單模态領域快速發展，例如 Vision Transformer (ViT) 和 Wave2Vec。大量工作表明它們有利于下遊單模态任務，并避免從頭開始訓練新模型。

與單模态領域類似，多模态領域也存在高品質标注資料較少的問題。我們不禁會問，上述預訓練方法能否應用于多模态任務？研究人員已經對這個問題進行了探索并取得了重大進展。

在本文中，來自中國科學院自動化研究所、中國科學院大學的研究者調查了視覺 - 語言預訓練（vision-language pre-training，VLP）最新進展和新領域，包括圖像 - 文本預訓練和視訊 - 文本預訓練。VLP 通過對大規模資料的預訓練來學習不同模态之間語義對應關系。例如，在圖像 - 文本預訓練中，研究者期望模型将文本中的狗與圖像中的狗外觀相關聯。在視訊 - 文本預訓練中，研究者期望模型将文本中的對象 / 動作映射到視訊中的對象 / 動作。

論文位址：https://arxiv.org/pdf/2202.09061.pdf

為了實作這一目标，研究者需要巧妙地設計 VLP 對象和模型架構，以允許模型挖掘不同模态之間的關聯。

為了讓讀者更好地全面掌握 VLP，該研究首先從特征提取、模型架構、預訓練目标、預訓練資料集和下遊任務五個方面回顧其最近進展。然後，文章詳細總結了具體的 VLP 模型。最後，文章讨論了 VLP 的新領域。據了解，這是對 VLP 領域的首次調查。研究者希望這項調查能夠為 VLP 領域的未來研究提供啟示。

VLP 綜述

VLP 五個方面回顧及其最近進展

在特征處理方面：論文主要介紹了 VLP 模型如何進行預處理和表示圖像、視訊和文本以獲得對應特征。

為了充分利用單模态預訓練模型，VLP 随機初始化标準 transformer 編碼器來生成視覺或文本表示。從視覺來講，VLP 利用預訓練視覺 transformer（例如 ViT 和 DeiT）對 ViT-PF 進行編碼。從文本來講，VLP 使用預訓練文本 transformer（例如 BERT）對文本特征進行編碼。為簡單起見，該研究将這些 transformer 命名為 Xformer。

在模型架構方面：論文從兩個不同的角度介紹 VLP 模型架構：（1）從多模态融合的角度來觀察單流與雙流架構（2）從整體架構設計來比較編碼器以及編碼器 - 解碼器對比。

單流架構是指将文本和視覺特征組合在一起，然後饋入單個 transformer 塊，如下圖 1 (a) 所示。單流架構通過合并注意力來融合多模态輸入。單流架構的參數效率更高，因為兩種模式都使用相同的參數集。

雙流架構是指文本和視覺特征沒有組合在一起，而是獨立饋入到兩個不同的 transformer 塊，如圖 1 (b) 所示。這兩個 transformer 塊不共享參數。為了獲得更高的性能，交叉注意力（如圖 1 (b) 中的虛線所示）用于實作跨模态互動。為了實作更高的效率，視覺 transformer 塊和文本 transformer 塊之間也可以不采用交叉注意力。

許多 VLP 模型隻采用編碼器架構，不同模态表示直接饋入輸出層。相比之下，其他 VLP 模型提倡使用 transformer 編碼器 - 解碼器架構，不同模态表示首先饋入解碼器，然後饋入輸出層。

在預訓練目标方面：論文通過使用不同的預訓練目标來預訓練 VLP 模型，并将預訓練目标總結為四類：完成、比對、時間和特定類型。

完成（completion）指的是利用未掩碼部分來重建掩碼元素。以掩碼語言模組化 (MLM) 為例，其最早由 taylor 提出，由于 BERT 将其作為預訓練任務而廣為人知。VLP 模型中的 MLM 類似于預訓練語言模型 (PLM) 中的 MLM，它不僅可以通過其餘文本 token 來預測掩碼文本 token，還可以通過視覺 token 來預測掩碼文本 token。根據經驗，遵循 BERT 的 VLP 模型以 15% 的掩碼率随機掩碼每個文本輸入 token，并在 80% 的時間使用特殊 token [MASK]、10% 的時間使用随機文本 token，剩餘 10% 的時間使用原始 token 來替換被掩碼掉的文本。不過在普林斯頓大學陳丹琦等人的論文《Should You Mask 15% in Masked Language Modeling?》中，作者發現：在有效的預訓練方案下，他們可以掩蔽 40-50% 的輸入文本，并獲得比預設的 15% 更好的下遊性能。

在掩碼視覺模組化 (MVM) 中，與 MLM 一樣，MVM 對視覺（圖像或視訊）區域或 patch 進行采樣，并且通常以 15% 的機率掩碼其視覺特征。VLP 模型需要在給定剩餘的視覺特征和所有文本特征的情況下重建掩碼的視覺特征。

視覺 - 語言比對 (VLM) 是最常用的預訓練目标，用于對齊視覺和語言。在單流 VLP 模型中，研究者使用特殊 token [CLS] 表示作為兩種模态的融合表示。在雙流 VLP 模型中，研究者将特殊視覺 token [CLSV] 視覺表示和特殊文本 token [CLST] 文本表示連接配接起來，作為兩種模态的融合表示。VLP 模型将兩種模态的融合表示提供給 FC 層和 sigmoid 函數以預測 0 到 1 之間的分數，其中 0 表示視覺和語言不比對，1 表示視覺和語言比對。在訓練期間，VLP 模型在每一步從資料集中采樣正對或負對。

在預訓練資料集方面：大多數用于 VLP 的資料集是通過組合跨多模态任務的公共資料集建構而成。這裡，一些主流語料庫及其詳細資訊如下表 1 所示。

在下遊任務方面：各種各樣的任務需要視覺和語言知識融合。本小節論文介紹了此類任務的基本細節和目标，并将其分為五類：分類、回歸、檢索、生成和其他任務，其中分類、回歸和檢索任務也稱為了解任務。

在分類任務中，其包括視覺問答 (VQA)、視覺推理和合成問答 (GQA)、視覺 - 語言推理 (VLI)、自然語言視覺推理 (NLVR)、視覺常識推理 (VCR) 等。在 VQA 中，提供圖像或視訊視覺輸入，它通常被認為是一個分類任務，模型從一個選擇池中預測出最合适的答案；在 GQA 中，我們可以将 GQA 視為 VQA 的更新版，旨在推進自然場景視覺推理的研究；在 VLI 中，給定具有對齊字幕的視訊剪輯作為前提，并與基于視訊内容的自然語言假設配對，模型需要推斷該假設是否與給定視訊剪輯相沖突。

在回歸任務中，多模态情感分析 (MSA) 旨在利用多模态信号（如視覺、語言等）檢測視訊中的情緒。它是作為一個連續的強度變量來預測話語的情感走向。

在檢索任務中，視覺 - 語言檢索 (VLR) 通過适當的比對政策來了解視覺（圖像或視訊）和語言，其包括兩個子任務，視覺到文字檢索和文本到視覺檢索，其中視覺到文字檢索是根據視覺從更大的描述池中擷取最相關的文本描述，反之亦然。

在生成任務中，視覺字幕 (VC) 旨在為給定的視覺（圖像或視訊）輸入生成語義和文法上合适的文本描述。此外，論文還介紹了其他下遊任務，例如多模态機器翻譯 (MMT)、視覺語言導航 (VLN) 和光學字元識别 (OCR) 等。

SOTA VLP 模型

圖像 - 文本 VLP 模型。VisualBERT 被稱為第一個圖像 - 文本預訓練模型，使用 Faster R-CNN 提取視覺特征，并将視覺特征和文本嵌入連接配接起來，然後将連接配接後的特征饋送到單個由 BERT 初始化的 transformer 中。許多 VLP 模型在調整預訓練目标和預訓練資料集時遵循與 VisualBERT 相似的特征提取和架構。最近，VLMO 利用圖像 patch 嵌入和文本詞嵌入，将組合嵌入與模态專家一起輸入到單個 transformer 中，并取得了令人印象深刻的性能。METER 探索了如何使用單模态預訓練模型，并提出一種雙流架構模型來處理多模态融合，進而在許多下遊任務上實作了 SOTA 性能。

視訊 - 文本 VLP 模型。VideoBERT 被稱為第一個視訊 - 文本預訓練模型，其擴充 BERT 模型以同時處理視訊和文本。VideoBERT 使用預訓練的 ConvNet 和 S3D 來提取視訊特征并将它們與文本詞嵌入連接配接起來，并饋送到以 BERT 進行初始化的 transformer。在訓練 VideoBERT 時，ConvNet 和 S3D 被當機，這表明該方法不是端到端的。最近，受 ViT 的啟發，Frozen 和 Region-Learner 首先将視訊剪輯處理成幀，并根據 ViT 處理每一幀圖像的方法獲得 patch 嵌入。Frozen 和 Region-Learner 以端到端的方式優化自身并實作 SOTA 性能。

下表 2 總結了更多現有的主流 VLP 模型：

未來，在現有工作的基礎上，研究者希望 VLP 可以從以下幾個方面進一步發展：

結合聲學資訊，以往的多模态預訓練研究大多強調語言和視覺的聯合模組化，而忽略了隐藏在音頻中的資訊；

知識學習和認知，盡管現有的 VLP 模型已經取得了顯着的性能，但它們本質上是拟合大規模多模态資料集，讓 VLP 模型更有知識對于未來的 VLP 很重要；

提示優化，通過設計離散或連續提示并将 MLM 用于特定的下遊任務，這些模型可以減少微調大量參數的計算成本，彌合預訓練和微調之間的差距。

搞多模态不了解最新進展？中科院自動化所撰文首個視覺-語言預訓練綜述

繼續閱讀

華為智慧屏 V75 Pro 圖賞：視覺無邊，計算畫質，沉浸觀感

自動駕駛什麼時候才會涼涼，估計還要多久？

起售9999元！折疊屏旗艦華為Mate Xs 2配置大全

撥開迷霧，科學防藍光

【芯智駕】豐田擁抱純視覺自動駕駛路線，釋放了什麼産業鍊信号？

【芯智駕】視覺自動駕駛又“出事”，有望加快雷射雷達裝車上路

五四青年節！想讓廣告耳目一新？！先盤活圖形

特斯拉為什麼不用高精地圖

方寸之間盡顯科技，雷射打标手機卡

隻需要十分之一資料，就能通關四大視覺任務，居然還開源了！

聲音為什麼适合打造品牌強化心智

讓Logo輕松“耍大牌”！巧用形式暗示法

中年女人，依舊被男人寵成“公主”，離不開這幾個原因

屏下視覺效果驚豔！“為大場面而生”的中興Axon 40系列正式釋出

特斯拉公布兩項全新專利，将提升視覺感覺系統

從 Air到Max，Rokid 問題究竟在哪