天天看點

分享丨萬字長文總結多模态大模型最新進展(Modality Bridging篇)

作者:中國人工智能學會

本文授權轉載自學術平台 PaperWeekly,公衆号ID:paperweekly。

這是一個推薦、解讀、讨論和報道人工智能前沿論文成果的學術平台,緻力于讓國内外優秀科研工作得到更為廣泛的傳播和認可。

多模态大型語言模型(MLLM)最近已成為一個新興的研究熱點,它将強大的大型語言模型(LLMs)作為大腦來執行多模态任務。MLLM 的驚人新能力,如基于圖像撰寫故事和無 OCR 的數學推理,在傳統方法中很少見,這表明了通向通用人工智能的潛在路徑。

通常人們會在 pair 資料上進行大規模(相對于 instruction tuning)的預訓練,以促進不同模态之間的對齊。對齊資料集通常是圖像文本對或自動語音識别(ASR)資料集,它們都包含文本。

更具體地說,圖像文本對以自然語言句子的形式描述圖像,而 ASR 資料集包含語音的轉錄。對齊預訓練的常見方法是保持預訓練子產品(例如視覺編碼器和 LLMs)當機,并訓練一個可學習的接口,本文調研了到近期位置不同的接口設計以及學習方法相關的文章。

分享丨萬字長文總結多模态大模型最新進展(Modality Bridging篇)

Flamingo

論文标題:

Flamingo: a Visual Language Model for Few-Shot Learning

論文連結:

https://arxiv.org/abs/2204.14198

分享丨萬字長文總結多模态大模型最新進展(Modality Bridging篇)

總的來說,首先,Perceiver Resampler 接收來自視覺編碼器的時空特征(從圖像或視訊擷取),并輸出固定數量的視覺标記。其次,這些視覺标記用于通過新初始化的交叉注意力層對當機的語言模型進行條件化,這些層被插入到預訓練的語言模型層之間。這些新層為語言模型提供了一種表達方式,以便将視覺資訊納入到下一個标記預測任務中

1.1 Visual processing and the Perceiver Resampler

視覺編碼器:是一個預訓練并當機的 Normalizer-Free ResNet(NFNet),使用 Radford 等人提出的 two-term contrastive loss,在圖像和文本對資料集上對視覺編碼器進行對比目标的預訓練。使用最終階段的輸出,即一個二維空間網格的特征,将其壓平為一個一維序列。

對于視訊輸入,幀以 1 FPS 進行采樣并獨立編碼,以獲得一個三維時空特征網格,然後将學習到的時間嵌入添加到其中。特征然後被壓平為一維,然後輸入到 Perceiver Resampler 中。

分享丨萬字長文總結多模态大模型最新進展(Modality Bridging篇)

▲ Perceiver Resampler 子產品将由 Vision Encoder 輸出的可變大小的時空視覺特征網格映射到固定數量的輸出标記(圖中為五個),與輸入圖像分辨率或輸入視訊幀數無關。這個 transformer 具有一組學習到的潛在向量作為查詢,而鍵和值則是由時空視覺特征與學習到的潛在向量的連接配接組成。

Perceiver Resampler:從不同大小的大型特征圖到少量視覺标記。這個子產品将視覺編碼器連接配接到當機的語言模型,如上圖所示。它以視覺編碼器中的圖像或視訊特征的可變數量作為輸入,并産生固定數量的視覺輸出(64 個),進而降低了視覺-文本交叉注意力的計算複雜度。

類似于 Perceiver 和 DETR,本文學習了預定義數量的潛在輸入查詢,這些查詢被輸入到一個 Transformer 中,并對視覺特征進行交叉關注。消融研究中展示了使用這樣一個視覺-語言重采樣子產品優于一個普通的 Transformer 和一個 MLP。

1.2 GATED XATTN-DENSE details

分享丨萬字長文總結多模态大模型最新進展(Modality Bridging篇)

上圖提供了一個 GATED XATTN-DENSE 塊的示意圖,以及它與一個當機的 LM 塊的連接配接方式,同時附上了僞代碼。下圖繪制了 Flamingo-3B 模型的 24 個 LM 層在訓練過程中(從 0% 到 100%)不同層中 tanh 門控值的絕對值的演變。當機的 LM 堆棧的所有層似乎都利用了視覺資訊,因為 tanh 門控的絕對值從其 0 初始化中迅速增長。

我們還注意到,絕對值似乎随着深度增加而增加。然而,從這個觀察中很難得出強有力的結論:門控之前的激活的規模也可能随着深度變化。未來的工作需要更好地了解這些添加層對優化動态和模型本身的影響。

分享丨萬字長文總結多模态大模型最新進展(Modality Bridging篇)

1.3 Multi-visual input support

分享丨萬字長文總結多模态大模型最新進展(Modality Bridging篇)

▲ 首先通過在文本中的視覺資料位置插入 image 标簽以及特殊标記 BOS 表示“序列開始”或 EOC 表示“塊結束”)來處理文本。圖像由 Vision Encoder 和 Perceiver Resampler 獨立處理,以提取視覺标記。在給定的文本标記處,模型僅與最後一個前導圖像/視訊對應的視覺标記進行交叉關注。 訓示文本标記可以關注的圖像/視訊,或者在沒有前導圖像/視訊時為 0

上圖說明了本文使用的 mask 方法,以限制某個文本标記看到的視覺标記數量。我們還對圖像/視訊和文本的交錯序列的符号化進行了規範化。交錯的視覺資料和文本序列。我們考慮交錯的圖像/視訊和文本示例:每個示例包含一系列文本 ,一系列圖像/視訊 ,以及圖像在文本中的位置序列。

基于視覺資料的位置,我們定義一個函數 : [1, ] ↦ → [0, ],它為每個文本位置配置設定最後一個出現在該位置之前的圖像/視訊的索引(或者如果該位置之前沒有視覺資料,則為 0)。函數 定義了我們考慮用于預測的标記 的可用視覺輸入:前面的标記 .

1.4 訓練細節

1. 訓練資料集由不同格式的訓練資料集混合而成。去除交錯的圖像文本資料集 M3W 導緻性能下降超過 17%,而去除傳統的配對圖像文本對也會導緻性能下降(下降 9.8%),這表明需要不同類型的資料集。

分享丨萬字長文總結多模态大模型最新進展(Modality Bridging篇)

2. 當機 LM 元件可以防止災難性遺忘。如果從頭開始訓練,我們觀察到性能大幅下降了-12.9%。有趣的是,微調我們預訓練的 LM 也導緻了性能下降了-8.0%。

3. 資料集權重。M3W、ALIGN、LTIP 和 VTP,其權重分别為 1.0、0.2、0.2 和 0.03。這些權重是在小模型規模下經驗性地獲得的,并且在之後保持不變。

分享丨萬字長文總結多模态大模型最新進展(Modality Bridging篇)

BLIP-2

論文标題:

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

論文連結:

https://arxiv.org/abs/2301.12597

分享丨萬字長文總結多模态大模型最新進展(Modality Bridging篇)

▲ BLIP-2 架構概述。我們通過一個兩階段政策預訓練輕量級的查詢 Transformer,以彌合模态差距。第一階段從當機的圖像編碼器中引導視覺-語言表示學習。第二階段從當機的 LLM 中引導視覺到語言的生成學習,這使得零樣本指導的圖像到文本生成成為可能。

LLM 本質上是個語言模型,自然無法直接接受其他模态的資訊。是以如何把各個模态的資訊,統一到 LLM 能了解的特征空間,就是第一步要解決的問題。為此,作者提出了 Q-Former。

分享丨萬字長文總結多模态大模型最新進展(Modality Bridging篇)

▲(左)Q-Former 和 BLIP-2 的第一階段視覺-語言表示學習目标的模型架構。我們共同優化三個目标,這些目标強制查詢(一組可學習的嵌入)提取與文本最相關的視覺表示。(右)每個目标的自注意力屏蔽政策,以控制查詢-文本互動。

Learned Query 的引入在這裡至關重要。可以看到這些 Query 通過 Cross-Attention 與圖像的特征互動,通過 Self-Attention 與文本的特征互動。這樣做的好處有兩個:

1. 這些 Query 是基于兩種模态資訊得到的;

2. 無論多大的視覺 Backbone,最後都是 Query 長度的特征輸出,大大降低了計算量。

比如在實際實驗中,ViT-L/14 的模型的輸出的特征是 257x1024 的大小,最後也是 32x768 的 Query 特征。針對 Q-Former 的三個訓練任務分别是 Image-Text Contrastive Learning(ITC),Image-grounded Text Generation(ITG),Image-Text Matching(ITM)。

第一階段,對于模型的訓練,就是由以上三個任務組成,通過這幾個任務,實作了對于特征的提取與融合。但現在模型還沒見過 LLM。我們現在用傳感器完成了資料的提取與融合,下一步,我們得把資料轉換成處理器能識别的格式。

分享丨萬字長文總結多模态大模型最新進展(Modality Bridging篇)

▲ BLIP-2 的第二階段視覺到語言生成預訓練,從當機的大型語言模型(LLM)中引導。(頂部)引導基于解碼器的 LLM(例如 OPT)。(底部)引導基于編碼器-解碼器的 LLM(例如 FlanT5)。全連接配接層從 Q-Former 的輸出次元調整到所選 LLM 的輸入次元。

通過第一階段的訓練,Query 已經濃縮了圖檔的精華,現在要做的,就是把 Query 變成 LLM 認識的樣子。這裡作者針對兩類不同 LLM 設計了不同的任務:

Decoder 類型的 LLM(如 OPT):以 Query 做輸入,文本做目标;Encoder-Decoder 類型的 LLM(如 FlanT5):以 Query 和一句話的前半段做輸入,以後半段做目标;

為了适合各模型不同的 Embedding 次元,作者引入了一個 FC 層做次元變換。

訓練細節

作為圖文預訓練的工作,工程問題往往是關鍵。BLIP2 的訓練過程主要由以下幾個值得關注的點:

  1. 訓練資料方面:包含常見的 COCO,VG,SBU,CC3M,CC12M 以及 115M的LAION400M中的圖檔。采用了BLIP中的CapFilt方法來 Bootstrapping 訓練資料。
  2. CV 模型:選擇了 CLIP 的 ViT-L/14 和 ViT-G/14,特别的是,作者采用倒數第二層的特征作為輸出。
  3. 訓練時,CV 模型和 LLM 都是當機的狀态,并且參數都轉為了 FP16。這使得模型的計算量大幅度降低。主要訓練的基于 BERT-base 初始化的 Q-Former 隻有 188M 的參數量。
分享丨萬字長文總結多模态大模型最新進展(Modality Bridging篇)

InstructBLIP

論文标題:

InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning

論文連結:

https://arxiv.org/abs/2305.06500

分享丨萬字長文總結多模态大模型最新進展(Modality Bridging篇)

▲ InstructBLIP 的模型架構。Q-Former 從當機的圖像編碼器的輸出嵌入中提取了訓示感覺的視覺特征,并将這些視覺特征作為軟提示輸入饋送給當機的 LLM。我們使用語言模組化損失對模型進行指令調整,以生成響應。

視覺編碼器提取輸入圖檔的特征,并喂入 Q-Former 中。此外,Q-Former 的輸入還包括可學習的 Queries(BLIP-2 的做法)和 Instruction。Q-Former 的内部結構黃色部分所示,其中可學習的 Queries 通過 Self-Attention 和 Instruction 互動,可學習的 Queries 通過 Cross-Attention 和輸入圖檔的特征互動,鼓勵提取與任務相關的圖像特征。

Q-Former 的輸出通過一個 FC 層送入 LLM,Q-Former 的預訓練過程遵循 BLIP-2 的兩步:1)不用 LLM,固定視覺編碼器的參數預訓練 Q-Former 的參數,訓練目标是視覺語言模組化。2)固定 LLM 的參數,訓練 Q-Former 的參數,訓練目标是文本生成。

在推理的時候,對于大部分資料集,如 image captioning,open-ended VQA 等,InstructBLIP 可以直接使用 LLM 生成的文本作為輸出;對于 classification 和 multi-choice VQA 這樣的任務,InstructBLIP 遵循 ALBEF 的做法生成固定的幾種答案,根據機率選擇最後的結果作為輸出。

這種做法的資料集包括有 ScienceQA、IconQA、A-OKVQA(多項選擇)、HatefulMemes、Visual Dialog、MSVD 和 MSRVTT 資料集。

Tricks

資料重采樣由于訓練資料集數量太大,而且每個資料集的大小存在顯着差異,均勻混合它們可能會導緻模型過拟合較小的資料集,并欠拟合更大的資料集。是以,作者改了一下采樣資料的機率,從某個資料集裡面采樣資料的機率是 ,其中 是單個資料集的大小。

分享丨萬字長文總結多模态大模型最新進展(Modality Bridging篇)

LLaVA

論文标題:

Visual Instruction Tuning

論文連結:

https://arxiv.org/abs/2304.08485

4.1 資料構造

結合 GPT-4 優異的文字能力,将原始資料構造成結構化的文本資訊作為 Context,同時通過 prompt template 請求 GPT-4 得到一些結果,來生成原始的 instruction data。在訓練時,則可加入 visual token,以得到 align 後的 instruction-tuned model。

分享丨萬字長文總結多模态大模型最新進展(Modality Bridging篇)

訓練分兩步,第一步做對齊,隻訓 projection layer;第二步 e2e finetune,vision encoder(clip vit-L)是 freeze 的。可以看到 instruction tuning 對任務效果影響巨大,另外每個任務本身的指令資料也對各個任務都有互補作用

分享丨萬字長文總結多模态大模型最新進展(Modality Bridging篇)

▲ 使用不同訓練資料在 LLaVA-Bench(COCO)上的消融實驗。我們報告相對分數,相對于一個僅使用地面真實圖像标題和邊界框作為視覺輸入的文本 GPT-4 模型。我們使用我們模型輸出的答案和 GPT-4(僅文本)的答案來提示 GPT-4,并讓它在兩者之間進行比較并給出一個帶有解釋的評分。

分享丨萬字長文總結多模态大模型最新進展(Modality Bridging篇)

LLaVA-v1.5

論文标題:

Improved Baselines with Visual Instruction Tuning

論文連結:

https://arxiv.org/abs/2310.03744

Response formatting prompts。我們發現,像 InstructBLIP 這樣的方法無法很好地平衡短形式和長形式 VQA 的原因主要有以下幾點。首先,是響應格式上的模糊提示。例如,Q: {問題} A: {答案}。這樣的提示并不清楚地訓示了期望的輸出格式,甚至在自然的視覺對話中,也可能使 LLM 在行為上過度拟合為短形式答案。

其次,沒有對 LLM 進行微調。第一個問題由于 InstructBLIP 隻對 Qformer 進行了指導調整而進一步惡化。它需要 Qformer 的視覺輸出令牌來控制 LLM 的輸出長度,使其為長形式或短形式,就像字首調整一樣,但是 Qformer 可能缺乏正确執行此操作的能力,因為與 LLMa 等 LLM 相比,其容量有限。

為了解決這個問題,我們建議使用一個單一的響應格式提示,清楚地訓示輸出格式,在促進短答案時附加到 VQA 問題的末尾:用一個詞或短語回答問題。我們經驗證明,當 LLM 使用這樣的提示進行微調時,LLaVA 能夠根據使用者的訓示正确調整輸出格式,并且不需要對 VQA 資料進行額外處理,這進一步實作了對各種資料源的擴充。

Academic task oriented data 我們進一步包括了額外的學術任務導向的 VQA 資料集,用于 VQA、OCR 和區域級感覺,以各種方式增強模型的能力,如表 1 所示。

我們首先包括了 InstructBLIP 中使用的四個額外資料集:開放知識 VQA(OKVQA ,A-OKVQA )和 OCR(OCRVQA ,TextCaps)。A-OKVQA 被轉換為多項選擇問題,并使用特定的響應格式提示:直接用給定選項的字母回答。

僅使用 InstructBLIP 使用的資料集子集,LLaVA 就在表 1 中的所有三個任務上都超過了它,表明 LLaVA 的有效設計。此外,我們發現進一步添加區域級 VQA 資料集(Visual Genome,RefCOCO)可以提高模型對細粒度視覺細節的定位能力。

Additional scaling. 進一步增加了輸入圖像的分辨率,以使 LLM 能夠清晰地“看到”圖像的細節,并将 GQA 資料集作為額外的視覺知識源。我們還加入了 ShareGPT 資料,并将 LLM 擴充到 13B,在 MM-Vet 上的結果顯示了将 LLM 擴充到 13B 時的最顯著的改進,表明了基礎 LLM 能力對視覺對話的重要性。

Limitations.。盡管 LLaVA-1.5 展示了令人期待的結果,但必須承認存在一些限制。首先,LLaVA 利用完整的圖像更新檔,可能會延長每個訓練疊代的時間。雖然視覺重采樣器可以減少 LLM 中的視覺更新檔數量,但它們目前不能像 LLaVA 那樣有效地收斂,可能是由于重采樣器中的可訓練參數更多。

一個高效的樣本重采樣器的開發可以為未來擴充指導跟随多模态模型鋪平道路。第二,由于缺乏這種指導跟随資料和上下文長度的限制,LLaVA-1.5 目前還不能處理多個圖像。第三,盡管 LLaVA-1.5 在遵循複雜指令方面表現出了熟練,但其問題解決能力在某些領域仍然可能受到限制,這可以通過更有能力的語言模型和高品質、針對性的視覺指導調整資料來改善。

最後,盡管 LLaVA 的産生幻覺的傾向顯著降低,但它仍然可能産生幻覺并偶爾傳播錯誤資訊,在關鍵應用(例如醫學)中應謹慎使用。

分享丨萬字長文總結多模态大模型最新進展(Modality Bridging篇)

LLaVA-NeXT

論文标題:

LLaVA-NeXT: Improved reasoning, OCR, and world knowledge

部落格連結:

https://llava-vl.github.io/blog/2024-01-30-llava-next/

LLaVA-NeXT,它在推理、OCR 和世界知識方面有所改進。LLaVA-NeXT 甚至在幾個基準測試中超越了 Gemini Pro。

與 LLaVA-1.5 相比,LLaVA-NeXT 有幾個改進:

  1. 将輸入圖像分辨率提高了 4 倍像素。這使得它能夠捕捉更多的視覺細節。它支援三種寬高比,分辨率可達 672x672、336x1344、1344x336。
  2. 通過改進的視覺指導調整資料混合,提供更好的視覺推理和 OCR 能力。針對更多場景提供更好的視覺對話,涵蓋不同的應用。具有更好的世界知識和邏輯推理能力。
  3. 除了性能提升外,LLaVA-NeXT 還保持了 LLaVA-1.5 的簡約設計和資料效率。它重用了 LLaVA-1.5 的預訓練連接配接器,并且仍然使用不到 100 萬個視覺指導調整樣本。最大的 34B 變種在約 1 天内使用 32 個 A100 完成訓練。

6.1 Detailed Technical Improvement

分享丨萬字長文總結多模态大模型最新進展(Modality Bridging篇)

▲ 通過将圖像分割成網格并獨立對其進行編碼,将 LLaVA-1.5 擴充到更高分辨率。這使得模型能夠适應任何分辨率,而無需為 ViTs 執行位置嵌入插值。我們還将下采樣圖像的特征連接配接起來,以為 LLM 提供全局上下文。

Scaling to Higher Resolutions 我們通過将圖像分成原始訓練視覺編碼器的分辨率的較小圖像塊,并獨立對其進行編碼來克服這一問題。在擷取單個塊的特征圖後,我們将它們合并成目标分辨率的單個大特征圖,并将其饋送到 LLM 中。

為了為 LLM 提供全局上下文并減少分割-編碼-合并操作的人為因素,我們還将一個降采樣圖像的特征連接配接到合并後的特征圖中。這使我們能夠将輸入擴充到任意分辨率并保持 LLaVA-1.5 的資料效率。我們将這個結果模型稱為 LLaVA-1.5-HD。

高品質的使用者指導資料。我們對高品質的視覺指導跟随資料的定義主要有兩個标準:首先,任務指令的多樣性,確定充分代表了在真實世界場景中可能遇到的廣泛使用者意圖,特别是在模型部署階段。其次,響應的優越性至關重要,目标是獲得良好的使用者回報。

為實作這一目标,我們考慮了兩個資料來源:(1)現有的 GPT-V 資料,包括 LAION-GPT-V 和 ShareGPT-4V。(2)為了進一步促進更多場景下更好的視覺對話,我們收集了一個包含不同應用的小型 15K 視覺指導調整資料集。

這些指令和圖像來自 LLaVA 示範,是真實使用者的請求。我們仔細過濾可能涉及隐私問題或潛在有害的樣本,并使用 GPT-4V 生成響應。

多模态文檔/圖表資料:

1. 我們從訓練資料中删除了 TextCaps,因為我們意識到 TextCaps 使用與 TextVQA 相同的訓練圖像集。這使我們能夠更好地了解在開發過程中評估 TextVQA 時我們模型的零 -shot OCR 能力。為了維持和進一步提高我們模型的 OCR 能力,我們用 DocVQA和 SynDog-EN 替換了 TextCaps;

2. 受到 Qwen-VL-7B-Chat 的啟發,我們進一步添加了 ChartQA、DVQA 和 AI2D,以便更好地了解圖表和圖表的内容。

6.2 Open Problems in LMMs

資料效率:在本節中,我們進行了進一步提高資料效率的實驗,通過随機子采樣 LLaVA-1.5 的訓練資料混合,采樣比例範圍從 0.1 到 0.5 不等。我們在圖 4 中可視化了不同采樣變體的相對性能。

首先,完整的資料混合提供了最佳的知識覆寫,并允許模型實作最佳的整體性能。令我們驚訝的是,僅使用 50% 的樣本,模型仍然保持了超過 98% 的完整資料集性能。這表明在資料效率方面還有進一步改進的空間。

其次,當将資料集縮減到 50% 時,模型在 MMBench、ScienceQA 和 POPE 上的性能完全不降低,甚至在 MMBench 上略有改善。同樣,當進一步将資料從 50% 降至 30% 時,模型的性能保持穩定。這些結果顯示了多模态模型也具有“少即是多”的潛在好處。

重新思考 LMM 中的幻覺:将模型的輸入分辨率提高到 448 時,這種幻覺顯著減少。這一發現很有意思,因為它表明 LMMs 可能對訓練資料中的一些錯誤具有魯棒性。

然而,當輸入分辨率不足以使模型辨識訓練資料中的所有細節,并且超出模型能力的資料量足夠大時,模型會學會産生幻覺。這進一步表明,需要在提高資料注釋的同時保持良好的模型處理資訊的能力之間取得平衡。不平衡的擴充可能導緻模型産生更多的幻覺或對視覺細節的了解能力降低。

分享丨萬字長文總結多模态大模型最新進展(Modality Bridging篇)

Cheap and Quick

論文标題:

Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large Language Models

論文連結:

https://arxiv.org/abs/2305.15023

分享丨萬字長文總結多模态大模型最新進展(Modality Bridging篇)

▲ Mixture-of-Modality Adaptation(MMA)概述及 LaVIN 的架構。在 LaVIN 中,采用了新穎的混合模态擴充卡來處理不同模态的指令。在指導調優過程中,LaVIN 通過端到端的模态混合訓練(Mixture of Modality Training,MMT)進行優化。

本文提出了混合模态适應(Mixture-of-Modality Adaptation,MMA):一種端到端的優化方案,通過輕量級擴充卡連接配接圖像編碼器和 LLM。與此同時,我們還提出了 MMA 中的一種新穎路由算法,可以幫助模型自動調整單模态和多模态指令的推理路徑。

基于 MMA,我們開發了一個名為 LaVIN 的大型視覺語言指導模型,它在各種遵循指令的任務中展現出了比現有多模态 LLM 更優異的訓練效率和更好的推理能力。

LaVIN 在效率上具有優越性,并且與現有的多模态 LLM 相比具有競争力的性能,同時也确認了它作為通用聊天機器人的巨大潛力。實驗結果顯示,LaVIN 可以達到與先進的多模态 LLM(如 LLaVA)相當的性能,同時減少了高達 71.4% 的訓練時間和 99.9% 的存儲成本。

值得注意的是,将 LaVIN 在 ScienceQA 上進行微調僅需 1.4 小時,使用 8 個 A100 GPU,更新的參數僅為 3.8M。

分享丨萬字長文總結多模态大模型最新進展(Modality Bridging篇)

MIMIC-IT

論文标題:

MIMIC-IT: Multi-Modal In-Context Instruction Tuning

論文連結:

https://arxiv.org/abs/2306.05425

分享丨萬字長文總結多模态大模型最新進展(Modality Bridging篇)

▲ MIMIC-IT 資料集包括 280 萬個多模态指令-回複對,涵蓋了基本能力:感覺、推理和規劃。每個指令都伴随着多模态的對話背景,使得在 MIMIC-IT 上訓練的 VLM 能夠展現出在互動式指令遵循方面的強大熟練度,實作零 -shot 泛化。

資料格式比較:LLaVA-Instruct-150K vs. MIMIC-IT。(a)LLaVA-Instruct-150K 由一張圖檔及其對應的僅包含語言的上下文資訊(黃色框)組成。(b)MIMIC-IT 包含多個圖檔或視訊的輸入資料,并支援多模态上下文資訊,即考慮圖檔/視訊和語言輸入作為上下文資訊。

分享丨萬字長文總結多模态大模型最新進展(Modality Bridging篇)
分享丨萬字長文總結多模态大模型最新進展(Modality Bridging篇)

LLaVAR

論文标題:

LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image Understanding

論文連結:

https://arxiv.org/abs/2306.17107

本工作通過文本豐富的圖像(例如電影海報、書籍封面等)增強了目前的視覺指令調整流程。具體而言,我們首先使用公開可用的 OCR 工具在 LAION 資料集的 422K 個文本豐富的圖像上收集結果。此外,我們使用識别出的文本和圖像标題提示純文字 GPT-4 生成 16K 個對話,每個對話包含針對文本豐富圖像的問答對。

通過将我們收集的資料與先前的多模态指令遵循資料相結合,我們的模型 LLaVAR 大大提高了 LLaVA 模型在基于文本的 VQA 資料集上的能力(最多提高 20% 的準确率)。

分享丨萬字長文總結多模态大模型最新進展(Modality Bridging篇)
分享丨萬字長文總結多模态大模型最新進展(Modality Bridging篇)

SVIT

論文标題:

SVIT: Scaling up Visual Instruction Tuning

論文連結:

https://arxiv.org/abs/2307.04087

為了推動多模态能力的邊界,我們提出了規模化視覺指導調整(SVIT)方法。

SVIT 涉及建構一個包含 420 萬個視覺指導調整資料點的資料集,包括 160 萬個對話問答(QA)對,160 萬個複雜推理 QA 對,100 萬個引用 QA 對和 10.6 萬個詳細的圖像描述。除了數量之外,所提出的資料集還具有高品質和豐富多樣性。它是通過提示 GPT-4 與豐富的圖像手動注釋一起生成的。

此外,我們提出了一種新的資料處理方法,選擇具有更好多樣性和平衡性的子集,進而激發模型的優越能力。

資料集選擇算法

分享丨萬字長文總結多模态大模型最新進展(Modality Bridging篇)

流行的基準測試評估多模态大型語言模型(MLLM)的不同能力,這需要特定的訓練資料配方來激發預訓練模型。是以,我們設計了一種新的資料配方,即核心集選擇算法,以更好地适應這些基準測試,并在性能和訓練效率之間取得平衡。

多樣性。我們建構了一組與流行基準測試相比對的關鍵概念,即 MME 和 MMBench。具體來說,我們設計了幾個進階概念,然後使用 GPT-4 生成每個概念的數十個關鍵詞。然後,我們過濾掉在 SVIT 資料集中頻率較低的那些關鍵詞。概念集在上表中。我們通過與概念集的重疊來衡量每個訓練樣本的資訊量,并選擇最具資訊量的樣本。

平衡。在 MME 基準測試中,使用“是”或“否”問題來評估模型。然而,在由 GPT-4 生成的資料中,這兩個選擇的比例極不平衡,這使得調整後的模型有傾向性地回答“是”。我們通過重新采樣來調整比例。

通過以上兩個操作,我們獲得了 157,712 個樣本的核心集 SVIT-core-150K,其大小與 LLaVA-Instruct-150K 相同。我們還用 SVIT-core-150K 替換了 LLaVA-v1.5-mix-665K 中的 LLaVA-Instruct-150K,進而生成了 SVIT-mix-665K。

分享丨萬字長文總結多模态大模型最新進展(Modality Bridging篇)

Qwen-VL

論文标題:

Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond

論文連結:

https://arxiv.org/abs/2308.12966

分享丨萬字長文總結多模态大模型最新進展(Modality Bridging篇)

預訓練的第一階段,我們主要利用大規模的、弱标記的、網絡爬取的圖文對資料集。我們的預訓練資料集由幾個公開可通路的來源和一些内部資料組成。我們努力清理了資料集中的某些模式。原始資料集包含總共 50 億個圖文對,在清理後,僅剩 14 億資料,其中 77.3% 是英文(文本)資料,22.7% 是中文(文本)資料。

我們在這個階段當機了大型語言模型,隻優化了視覺編碼器和 VL 擴充卡。輸入圖像被調整為 224×224。訓練目标是最小化文本标記的交叉熵。最大學習率為 2e−4,訓練過程使用了 30720 的圖文對批量大小,整個預訓練的第一階段持續了 50000 個步驟,消耗了大約 15 億個圖文樣本。更多的超參數詳見附錄 C,該階段的收斂曲線如圖所示。

在多任務預訓練的第二階段,我們引入了高品質、細粒度的 VL 标注資料,并使用更大的輸入分辨率和交替的圖文資料。同時訓練了 Qwen-VL 的 7 個任務。對于文本生成,我們使用内部收集的語料庫來維持 LLM 的能力。

我們将視覺編碼器的輸入分辨率從 224×224 增加到 448×448,減少了圖像降采樣造成的資訊損失。我們解鎖了大型語言模型并訓練了整個模型。訓練目标與預訓練階段相同。

在監督微調階段,我們通過指令微調來對 Qwen-VL 預訓練模型進行微調,以增強其指令跟随和對話能力,進而得到互動式 Qwen-VL-Chat 模型。多模态指令調整資料主要來自通過 LLM 自我指導生成的字幕資料或對話資料,這些資料通常隻涉及單圖對話和推理,并且僅限于圖像内容了解。

我們通過手動注釋、模型生成和政策串聯建構了一個額外的對話資料集,以将定位和多圖了解能力引入 Qwen-VL 模型。我們确認模型有效地将這些能力轉移到更廣泛的語言和問題類型上。

此外,我們在訓練過程中混合了多模态和純文字對話資料,以確定模型在對話能力上的普遍性。指令調整資料量為 35 萬。在這個階段,我們當機了視覺編碼器,并優化了語言模型和擴充卡子產品。我們在下面展示了該階段的資料格式。

分享丨萬字長文總結多模态大模型最新進展(Modality Bridging篇)

NExT-GPT: Any-to-Any Multimodal LLM

論文标題:

NExT-GPT: Any-to-Any Multimodal LLM

論文連結:

https://arxiv.org/abs/2309.05519

分享丨萬字長文總結多模态大模型最新進展(Modality Bridging篇)

作者提出了一個端到端通用的任意對任意 MM-LLM(Multimodal-Large Language Model)系統。NExT-GPT 将 LLM 與多模态擴充卡和不同的擴散解碼器連接配接起來,使 NExT-GPT 能夠感覺輸入并以文本、圖像、視訊和音頻的任意組合生成輸出。

NExT-GPT 基本思想是利用編碼器對各種模态的輸入進行編碼,将其投影為 LLM 可了解的類語言表示。ExT-GPT 利用現有的開源 LLM 作為核心,處理輸入資訊,進行語義了解和推理。

LLM 不僅直接生成文本标記,而且還産生獨特的“模态信号”标記,這些标記作為指令來訓示解碼層是否要相應地輸出什麼模态内容。然後,生成帶有特定指令的多模态信号,經過投影後傳輸到不同的編碼器,最終生成相應模态的内容。

Multimodal Encoding Stage

首先,NExT-GPT 利用現有的完善模型對各種模式的輸入進行編碼。對于不同的模态,有一組替代編碼器,例如 Q-Former、ViT、CLIP。在本文中,NExT-GPT 采用了 ImageBind,它是跨六種模式的統一高性能編碼器。然後,通過線性投影層,不同的輸入表示被映射為LLM可以了解的類似語言的表示。

LLM Understanding and Reasoning Stage

在 LLM 方面,NExT-GPT 采用的是 Vicuna2,它是一種基于開源文本的 LLM,廣泛用于現有的 MM-LLM 中。LLM 将不同模态的表示作為輸入,并對輸入進行語義了解和推理。它輸出兩項内容:1)直接文本響應;2)每種模态的信号标記,用作訓示解碼層是否生成多模态内容以及如果生成則生成什麼内容的指令。

Multimodal Generation Stage

從 LLM 接收到多模态信号之後,基于 Transformer 的輸出投影層會将信号标記表示映射為後續多模态解碼器可以了解的信号表示。

具體來說,NExT-GPT 采用目前現成的潛在條件擴散模型(conditioned diffusion models)用于生成不同模态結果,包括用于圖像合成的 Stable Diffusion 模型、用于視訊合成的 Zeroscope4 模型和用于音頻合成的 AudioLDM5 模型。

Lightweight Multimodal Alignment Learning(輕量級多模态對齊學習)

分享丨萬字長文總結多模态大模型最新進展(Modality Bridging篇)

為了完成編碼器對齊,作者從現有語料庫和基準中準備了 “X-caption” 對(“X” 代表圖像、音頻或視訊,caption 代表文字)資料,然後強制 LLM 根據标注 caption 生成每個輸入模态的 caption,學習過程如上圖所示。

分享丨萬字長文總結多模态大模型最新進展(Modality Bridging篇)

在解碼端,NExT-GPT 內建了來自外部資源的預訓練條件擴散模型,對齊的主要目的是将擴散模型與 LLM 的輸出指令保持一緻。然而,在每個擴散模型和 LLM 之間執行全面的對齊過程将帶來巨大的計算負擔。是以,我們在這裡探索一種更有效的方法,即解碼端指令跟随對齊,如上圖所示。

具體來說,由于各種模态的擴散模型僅以文本标記輸入為條件, 這種調節與 NExT-GPT 系統中 LLM 的模态信号标記不同,這導緻擴散模型對 LLM 指令的準确解釋存在差距。是以,作者考慮最小化 LLM 的模态信号标記表示與擴散模型的條件文本表示之間的距離。

由于僅使用文本條件編碼器(擴散模型的 Text Encoder 當機),是以學習僅基于純粹的字幕文本,即沒有任何視覺或音頻資源,這也確定了高度輕量級的訓練。

2.3 Modality-switching Instruction Tuning(模态轉化指令調優)

盡管編碼和解碼端能夠與 LLM 保持一緻,但距離使整個系統能夠忠實地遵循和了解使用者的指令并生成所需的多模态輸出的目标仍然存在差距。

為了增強 LLM 的能力和可控性,進一步的指令調整(Instruction Tuning,IT)被認為有必要的。IT 使用“(輸入,輸出)”對整體 MM-LLM 進行額外訓練,其中“輸入”代表使用者的指令,“輸出”表示符合給定指令的所需模型輸出。

分享丨萬字長文總結多模态大模型最新進展(Modality Bridging篇)

具體來說,作者利用 LoRA 使 NExT-GPT 中的一小部分參數能夠在 IT 階段與兩層投影同時更新。如上圖所示,當 IT 對話樣本輸入系統時,LLM 會重建并生成輸入的文本内容(并使用多模态信号标記表示多模态内容),優化的目标是根據金标注和 LLM 的輸出進行的。

除了 LLM 調優之外,作者還對 NExT-GPT 的解碼端進行了微調,将輸出投影編碼的模态信号标記表示與擴散條件編碼器編碼的金多模态 caption 标注表示對齊。至此,全面的調優過程更加接近與使用者忠實有效互動的目标。

為了更好地進行指令調優,作者還收集了幾組資料集,其中的 “X” 可以是圖像、視訊、音頻或其他模态的資料:

  1. Text+X →Text Data:此類成熟的資料包括 LLaVA、miniGPT-4、VideoChat 等;
  2. Text →Text+X Data:基于現有語料庫中豐富的 “X-caption” 對,通過一些模闆,作者借用 GPT-4 來生成各種文本指令來産生資料。
  3. modality-switching instruction tuning(MosIT) Data:作者設計了一些“人”角色和“機器”角色之間的模闆對話示例,在此基礎上促使 GPT-4 在各種場景下生成更多具有 100 多個主題或關鍵詞的對話。
分享丨萬字長文總結多模态大模型最新進展(Modality Bridging篇)

InternLM-XComposer

論文标題:

InternLM-XComposer: A Vision-Language Large Model for Advanced Text-image Comprehension and Composition

論文連結:

https://arxiv.org/abs/2309.15112

分享丨萬字長文總結多模态大模型最新進展(Modality Bridging篇)

▲ InternLM-XComposer 的架構和訓練方案。預訓練階段對齊了視覺和語言知識,SFT 階段激發了不同的模型能力。

模型由三個元件構成:

  1. 視覺編碼器:EVA-CLIP (CLIP的一個改進變種,通過掩碼圖像模組化能力增強,以有效捕捉輸入圖像的視覺細微差異)。輸入 224x224,以 stride 14 分為小 patch 後輸入 transformer
  2. 感覺采樣器(Perceive Sampler):InternLM-XComposer 中的感覺采樣器作為一種專注的池化機制,旨在将初始的 257個 圖像嵌入壓縮為 64 個經過優化的嵌入。這些優化的嵌入随後會與大型語言模型了解的知識結構相比對。與 BLIP2 類似,使用帶有交叉注意力層的 BERTbase 作為感覺采樣器。
  3. LLM:InternLM-XComposer 以 InternLM 作為其基礎的大型語言模型。值得注意的是,InternLM 是一款強大的語言模型,具備多語言能力,在英語和中文方面表現出色。使用公開可用的 InternLM-Chat-7B 作為大型語言模型。
分享丨萬字長文總結多模态大模型最新進展(Modality Bridging篇)

CogVLM

論文标題:

CogVLM: Visual Expert for Pretrained Language Models

論文連結:

https://arxiv.org/abs/2311.03079

tl;nr: 使用已經訓練好的 LLM,然後給它添加圖像的功能。方法上,引入 vit 做圖像的 encoder 和 MLP adapter,來将圖像編碼到和 text 一樣的 embedding 空間中,然後是在 LLM 的各層添加 visual expert,它具有獨立的 QKV 和 FFN 相關的參數,并使用 LLM 中的層來做初始化,訓練的時候當機已經訓練好的 LLM 部分,訓練圖像相關的部分。

這就是作者探讨的 deep fusion 方法。最後的效果提升很大。除了很少的任務沒有超過 Pali-x 之外,其他全部 sota。

淺層對齊的方法:blip-2 中,把已經訓練好的 image encoder 當機,然後加一個 Q-former 或者 linear layer,把 image feature 映射到語言模型的 input embedding space 中,BLIP-2 NoCaps CIDEr 121.6。收斂很快,但是結果沒有聯合訓練的模型效果好,e.g., PaLI-X. 用淺層對齊的方法訓練的 chat-style 模型,e.g., MiniGPT-4, LLAVA, and VisualGLM,視覺了解能力弱表現為幻覺。

作者認為核心問題是,淺層對齊缺少不同模态資訊的 deep fusion,這個靈感來自 p-tuning 和 LoRA 的對比,p-tuning learns a task prefix embedding in the input while LoRA adapts the model weights in each layer via a low-rank matrix. LoRA 效果更好且更穩定。

in the shallow alignment methods, the image features act like the prefix embedding in p-tuning. 其他細節:

  • 語言模型權重當機,這些權重是為文本訓練的,文本的輸入空間,圖像的 embedding 在這個空間裡沒有很好的對應關系,每一層的輸入的分布也是不斷變化的,當經過幾層變換之後,圖像的特征分布已經和比較深的層的權重所需要的輸入特征的分布不再比對了。
  • 在預訓練過程中,圖像字幕任務的先驗,例如文字風格和字幕長度,隻能在淺對齊方法中編碼到視覺特征中。它削弱了視覺特征與内容之間的一緻性。

CogVLM-17B包含:

  1. LLM:Frozen Vicuna-7B-v1.5,此模型在所有的注意力操作中都應用了因果掩碼(causal mask),包括圖像特征之間的注意力。
  2. ViT encoder:EVA2-CLIP-E ,負責将圖像轉化為特征表示。在 CogVLM-17B 中,移除了 ViT 編碼器的最後一層,因為該層專注于整合 [CLS] 特征以用于對比學習。
  3. MLP adapter:a two-layer SwiGLU MLP,用于将ViT的輸出映射到與文本特征相同的空間。所有的圖像特征在語言模型中共享相同的「位置編碼 id」。
  4. Visual expert module:在 LLM 的每一層中引入可訓練的 visual expert,其包含專門處理 image feature 的「QKV 矩陣」和「MLP 層」,以實作深度的視覺-語言特征對齊。QKV 矩陣和 MLP 的形狀與預訓練語言模型中的相同,并從中進行初始化。trainable visual expert 專門用于轉換圖像特征,功能上和 LLM QKV/MLP 一緻,但是隻針對 image feature,進而實作模态間的深度融合。
分享丨萬字長文總結多模态大模型最新進展(Modality Bridging篇)

▲ CogVLM 的架構。(a)關于輸入的說明,其中圖像由預訓練的 ViT 處理,并映射到與文本特征相同的空間中。(b)語言模型中的 Transformer 塊。圖像特征具有不同的 QKV 矩陣和 FFN。隻有紫色部分是可訓練的。

PRETRAINING:用了公開可用的圖像文本對進行訓練,為 LAION-2B 和 COYO-700M

The first stage:Image captioning loss, next token prediction task on 1.5B image-text pairs

The second stage:a mixture of image captioning and Referring Expression Comprehension(REC)。在答案的部分,隻考慮了下一個标記的預測損失。REC 任務是根據 text description of an object 來預測圖像中的 bounding box ,比如 “Question: Where is the [object]?” and “Answer: [x0, y0, x1, y1]” 。其中,x 和 y 坐标的取值範圍從 000 到 999,表示在圖像中的歸一化位置。

分享丨萬字長文總結多模态大模型最新進展(Modality Bridging篇)

OtterHD: A High-Resolution Multi-modality Model

論文标題:

OtterHD: A High-Resolution Multi-modality Model

論文連結:

https://arxiv.org/abs/2311.04219

在本文中,我們提出了 OtterHD-8B,這是一種創新的多模态模型,是從 Fuyu-8B 演變而來,專門設計用于以細粒度精度解釋高分辨率視覺輸入。與傳統模型不同,傳統模型受固定大小的視覺編碼器限制,OtterHD-8B 具有處理靈活輸入尺寸的能力,確定其在各種推理需求下的多功能性。

除了這個模型,我們還引入了 MagnifierBench,這是一個評估架構,旨在審查模型對微小物體的細節和空間關系的辨識能力。我們的比較分析顯示,雖然目前領先的模型在這個基準測試中表現不佳,但特别是在直接處理高分辨率輸入時,OtterHD-8B 的表現優于其競争對手很大程度上。

這些發現揭示了不同模型在視覺資訊進行中的結構差異,以及視覺編碼器的預訓練分辨率差異對模型在這些基準測試中有效性的影響。我們的研究突顯了大型多模态模型中靈活性和高分辨率輸入能力的關鍵作用,并且展示了 Fuyu 架構的簡潔性在處理複雜視覺資料方面所具有的潛力。

分享丨萬字長文總結多模态大模型最新進展(Modality Bridging篇)

Monkey

論文标題:

Monkey: Image Resolution and Text Label Are Important Things for Large Multi-modal Models

論文連結:

https://arxiv.org/abs/2311.06607

Monkey 模型提出了一種有效地提高輸入分辨率的方法,最高可達 896 x 1344 像素,而無需從零開始進行預訓練。針對複雜場景描述、問答和叙述,Monkey 模型采用了一種無需預訓練即可提高輸入分辨率的架構和一種多層級較長的描述生成方法。這兩個設計確定了模型能夠從生成的資料中進行更有效的學習,更高的分辨率可以更詳盡地捕捉視覺特征,這反過來又提高了較長的描述的有效性。

1. 提高輸入分辨率

分享丨萬字長文總結多模态大模型最新進展(Modality Bridging篇)

▲ Monkey 的整體架構允許通過從原始圖像中捕獲全局特征和從分割更新檔中擷取局部特征來實作高分辨率。所有更新檔都通過共享的靜态 ViT 編碼器進行處理,例如具有 2b 參數的 ViT-BigG。

  1. 給定一個 H x W 的圖像,使用 x (和 LMM 分辨率一緻)大小的滑動視窗将圖像劃分為更小的局部區域。Monkey 對于每個圖檔塊的編碼器都增加了獨屬它的 Lora [10] 來有效地識别和吸收每個圖像區域的細節敏感特征,進而增強對空間和上下文關系的了解。訓練時隻訓練 Lora 部分,是以無需大幅增加參數量和計算需求。
  2. 原始圖像大小也被調整為 x ,用于全局資訊的提取。
  3. 最後,通過視覺編碼器和重采樣器處理所有局部圖像和全局圖像,并将局部特征和全局特征送入 LLM。這種方法能夠在不顯着增加計算負載的情況下提高模型分辨率和性能。

2. 多級特征整合較長的描述生成

之前的工作如 LLaVA [3]、Qwen-VL [4] 等依賴于網際網路上爬取的大規模圖文資料及進行模型的預訓練。但這類資料标注比較簡單,缺乏更豐富的圖像細節。即使使用高分辨率圖像進行訓練, LMM 也無法在圖像視覺特征和其中各個物體之間建立準确的關聯,進而可能損害了視覺處理和語言了解之間的協同作用。

Monkey 使用了一種多級特征融合的較長的描述生成方法(利用 BLIP-2 [5]、PP-OCR [6]、GRIT [7]、SAM [8] 和 ChatGPT [9] 等預訓練系統),為 CC3M 中的 400k 圖像提供更加細緻的描述,來更好地将高分辨率的視覺模型和語言模型對齊。

關鍵發現

提高分辨率能提高模型性能(r3-r9),四個 LoRA 能夠幫助模型獲得圖像中不同部分的獨特特征(r7 vs. r9),并幫助模型建立對空間和上下文關系的了解。進一步提高輸入分辨率能夠提高模型在文檔等更高分辨率的圖像上的性能(r5,r6)。

同時,相比與直接插值擴大模型輸入分辨率的方法相比(r1,r2 vs. r9),本文的方法在時間和性能上更具優勢。表六中當把 llava1.5 的輸入分辨率從 224 擴大為 448,性能得到顯著提升,進一步展現了本文方法的有效性。

分享丨萬字長文總結多模态大模型最新進展(Modality Bridging篇)
分享丨萬字長文總結多模态大模型最新進展(Modality Bridging篇)

LLaMA-VID

論文标題:

LLaMA-VID: An Image is Worth 2 Tokens in Large Language Models

論文連結:

https://arxiv.org/abs/2311.17043

目前的 VLMs 在諸如圖像字幕和視覺問答等任務中表現出色,但在處理長視訊時面臨着計算負擔,因為存在過多的視覺标記。LLaMA-VID 通過用兩個不同的标記表示每個幀來解決這個問題,即上下文标記和内容标記。上下文标記基于使用者輸入編碼整體圖像背景,而内容标記則封裝了每個幀中的視覺線索。這種雙标記政策顯著減少了長視訊的負擔,同時又保留了關鍵資訊。

總的來說,LLaMA-VID 賦予現有架構支援長達一小時的視訊,并通過額外的上下文标記推動了它們的上限。在大多數基于視訊或圖像的基準測試中,它被證明超越了先前的方法。

分享丨萬字長文總結多模态大模型最新進展(Modality Bridging篇)

▲ LLaMA-VID 的架構。在使用者指令下,LLaMA-VID 通過接受單個圖像或視訊幀作為輸入,并從 LLM 生成響應。該過程始于一個視覺編碼器,将輸入幀轉換為視覺嵌入。然後,文本解碼器根據使用者輸入生成文本查詢。在上下文注意力中,文本查詢從視覺嵌入中聚合與文本相關的視覺線索。為了提高效率,提供了将視覺嵌入降采樣到各種令牌大小甚至單個令牌的選項。然後,使用線性投影器制定文本引導的上下文令牌和視覺豐富的内容令牌來表示每個時間 t 的每個幀。最後,LLM 接受使用者指令和所有視覺令牌作為輸入并給出響應。

分享丨萬字長文總結多模态大模型最新進展(Modality Bridging篇)

MoE-LLaVA

論文标題:

MoE-LLaVA: Mixture of Experts for Large Vision-Language Models

論文連結:

https://arxiv.org/abs/2401.15947

最近的進展表明,擴充大型視覺語言模型(LVLMs)有效地提高了下遊任務的性能。然而,現有的擴充方法使得所有模型參數在計算中對每個标記都是活躍的,這帶來了巨大的訓練和推理成本。

在這項工作中,我們提出了一種簡單而有效的訓練政策 MoE-Tuning 用于 LVLMs。這一政策創新地解決了多模态稀疏學習中的性能下降問題,進而建構了一個具有驚人參數數量但計算成本恒定的稀疏模型。

此外,我們提出了基于 MoE 的稀疏 LVLM 體系結構 MoE-LLaVA,它在部署過程中通過路由器唯一激活了僅排名靠前的 k 個專家,使其餘的專家保持不活躍狀态。

大量實驗證明了 MoE-LLaVA 在各種視覺了解和物體幻覺基準測試中的顯著性能。值得注意的是,僅有約 3B 個稀疏激活參數,MoE-LLaVA 在各種視覺了解資料集上表現出與 LLaVA-1.5-7B 相當的性能,甚至在物體幻覺基準測試中超過了 LLaVA-1.5-13B。通過 MoE-LLaVA,我們旨在建立稀疏 LVLMs 的基準,并為未來研究開發更高效、更有效的多模态學習系統提供寶貴的見解。

分享丨萬字長文總結多模态大模型最新進展(Modality Bridging篇)

▲ MoE-Tuning 的示意圖。MoE-Tuning 包括三個階段。在第一階段,隻有 MLP 被訓練。在第二階段,除了視覺編碼器(VE)之外,所有參數都被訓練。在第三階段,FFN 被用來初始化 MoE 中的專家,隻有 MoE 層被訓練。對于每個 MoE 層,每個标記隻激活兩個專家,而其他專家保持沉默。

階段一:在這個階段,我們的目标是使圖像标記适應 LLM,使 LLM 能夠了解圖像中的執行個體。為了實作這一目标,我們使用 MLP 将圖像标記投影到 LLM 的輸入域中,将圖像塊視為僞文本标記。在這個階段,LLM 被訓練來描述圖像。MoE 層在這個階段不應用于 LLM。

階段二:使用多模态指令資料進行調整是增強大型模型能力和可控性的關鍵技術。在這個階段,LLM 被調整為具有多模态了解能力的 LVLM。我們使用更複雜的指令,包括圖像邏輯推理和文本識别等任務,這些任務要求模型具有更強的多模态了解能力。

通常情況下,對于密集型模型,LVLM 訓練在這個階段被認為是完成的。然而,我們在同時将 LLM 轉變為 LVLM 并稀疏化 LVLM 方面遇到了挑戰。是以,MoE-LLaVA 利用第二階段的權重作為第三階段的初始化,以緩解稀疏模型的學習困難。

階段三:作為初始化,我們多次複制 FFN 以初始化專家。當圖像标記和文本标記被輸入到 MoE 層時,路由器計算每個标記與專家之間的比對權重。然後,每個标記都由前 k 個專家處理,并且根據路由器的權重進行權重求和。當激活前 k 個專家時,其餘的專家保持沉默。這種模組化方法形成了 MoE-LLaVA,具有無限可能的稀疏路徑,提供了廣泛的能力。

分享丨萬字長文總結多模态大模型最新進展(Modality Bridging篇)
分享丨萬字長文總結多模态大模型最新進展(Modality Bridging篇)

LLaVA-UHD

論文标題:

LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images

論文連結:

https://arxiv.org/abs/2403.11703

該文讨論了視覺編碼在大型多模态模型(LMMs)中對了解視覺世界的基礎作用。它突出了現有 LMMs 的局限性,如固定的圖像大小和分辨率,以及最近對這一方向的探索在适應性、效率甚至正确性方面存在的不足。

為了解決這些挑戰,該論文介紹了 LLaVA-UHD,一種大型多模态模型,旨在高效處理任何縱橫比和高分辨率的圖像。LLaVA-UHD 包括三個主要組成部分:

分享丨萬字長文總結多模态大模型最新進展(Modality Bridging篇)

▲ LLaVA-UHD 架構。左圖:給定一個高分辨率圖像,LLaVA-UHD 首先計算理想的切片數量,然後從可能的因式分解中選擇最佳分區,将高分辨率圖像分割成不同大小的切片。右圖:切片通過在位置嵌入上進行 2D 插值以保持原始縱橫比進行編碼,然後壓縮并按空間結構排列以供 LLM 處理。

  1. 圖像子產品化政策:該政策将原始分辨率的圖像劃分為較小的可變大小切片,以便進行高效和可擴充的編碼。
  2. 壓縮子產品:該子產品進一步壓縮由視覺編碼器生成的圖像标記,增強了效率。
  3. 空間結構:一種用于組織切片标記以供 LLMs 了解空間關系的模式。

子產品化視覺編碼

針對具有不同縱橫比的高分辨率圖像,一個樸素的方法是将 ViT 的位置嵌入插值到目标形狀,以整體編碼。然而,這種方法由于二次計算成本和由于分布外問題導緻的性能降低而不是最佳的。

為了解決這個挑戰,我們提出了一種子產品化的視覺編碼政策。基本思想是将原始分辨率圖像劃分為較小的可變大小切片,其中每個切片的形狀與 ViT 的标準預訓練設定不會偏離太遠。通過可變大小的切片,LLaVA-UHD 可以在不需要填充或形狀扭曲的情況下實作對原始分辨率圖像的完全适應性。

接下來,我們對 P 進行二維插值,以适應由分區政策給出的切片分辨率,用于視覺編碼。在我們的實驗中,我們表明,在預訓練期間可以保持 ViT 和位置嵌入參數不變,并且在 instruction tuning 階段更新這些參數就足以實作良好的性能。除了切片之外,我們還提供了一個以本機縱橫比的低分辨率概覽圖像。概覽圖像可以提供圖像的粗略資訊和全局語義連接配接。

壓縮層

高分辨率圖像需要 LLMs 處理更多的視覺标記,這占據了大部分計算量。例如,一個 672×1008 的分辨率圖像将為 LLaVA-1.5 生成 3456 個視覺标記。為了解決這個問題,我們使用一個共享的感覺器重新采樣器層來壓縮每個圖像切片的視覺标記。

具體來說,由視覺編碼器輸出的圖像标記通過一組查詢向量通過交叉注意力被重新采樣為較少的數量(在我們的實驗中從 576 個到 64 個)。與流行的基于 MLP 的視覺投影方法相比,感覺器重新采樣器不受圖像分辨率的限制,始終保持固定且可負擔得起的視覺标記數量,是以更适用于了解高分辨率圖像。是以,LLaVA-UHD 可以使用比 LLaVA-1.5 在編碼 336×336 分辨率圖像時更低的計算成本來編碼 672×1008 分辨率圖像。

圖像切片的空間結構

由于圖像分區在不同圖像之間是動态的,是以有必要向 LLM 提供圖像切片的空間組織資訊。受 FuYu 模型的啟發,我們設計了一個空間模式來使用兩個特殊标記訓示圖像切片的相對位置。具體地,我們使用“,”來分隔一行中的切片表示,并使用 “\n” 來分隔不同的行。在我們的實驗中,我們發現這種簡單的模式可以有效地向動态分區提供資訊,進而産生良好的性能。

全面的實驗證明,即使建立在分辨率為 336×336 的 LLaVA-1.5 架構上,LLaVA-UHD 支援高達 672×1088 的圖像,并且在僅使用 94% 的推斷計算量的情況下,在 TextVQA 上取得了 6.4% 的準确率提高。此外,該模型在學術環境中可以高效訓練,在 8 個 A100 GPU 上僅需 23 小時,而 LLaVA-1.5 則需要 26 小時。

分享丨萬字長文總結多模态大模型最新進展(Modality Bridging篇)

Yi-VL

論文标題:

Yi: Open Foundation Models by 01.AI

論文連結:

https://arxiv.org/abs/2403.04652

分享丨萬字長文總結多模态大模型最新進展(Modality Bridging篇)

Yi-VL 采用了 LLaVA 架構,經過全面的三階段訓練過程,以将視覺資訊與 Yi LLM 的語義空間良好對齊:

第 1 階段:ViT 和投影子產品的參數使用 224×224 的圖像分辨率進行訓練。LLM 的權重被當機。訓練利用包含來自 LAION-400M 的 1 億個圖像-文本對的圖像标題資料集。主要目标是增強 ViT 在指定架構内的知識擷取能力,并實作 ViT 和 LLM 之間更好的對齊。

第 2 階段:ViT 的圖像分辨率擴充到 448×448,并訓練ViT和投影子產品的參數。它旨在進一步提升模型對複雜視覺細節的識别能力。此階段使用的資料集包括約 2500 萬個圖像-文本對,例如 LAION-400M、CLLaVA、LLaVAR、Flickr、VQAv2、RefCOCO、Visual7w 等。

第 3 階段:訓練整個模型的參數(即 ViT、投影子產品和 LLM)。主要目标是增強模型在多模态對話互動中的熟練程度,進而賦予其無縫整合和解釋視覺和語言輸入的能力。為此,訓練資料集涵蓋了各種來源,總計約 100 萬個圖像-文本對,包括 GQA、VizWiz VQA、TextCaps、OCR-VQA、Visual Genome、LAION GPT4V 等。為確定資料平衡,我們對任何單個來源的最大資料貢獻設定了上限,限制為不超過 5 萬對。

繼續閱讀