天天看點

8.3K Stars!《多模态大語言模型綜述》重大更新

作者:量子位

去年 6 月底,我們在 arXiv 上釋出了業内首篇多模态大語言模型領域的綜述《A Survey on Multimodal Large Language Models》,系統性梳理了多模态大語言模型的進展和發展方向,目前論文引用 120+,開源 GitHub 項目獲得 8.3K Stars。自論文釋出以來,我們收到了很多讀者非常寶貴的意見,感謝大家的支援!

去年以來,我們見證了以 GPT-4V 為代表的多模态大語言模型(Multimodal Large Language Model,MLLM)的飛速發展。為此我們對綜述進行了重大更新,幫助大家全面了解該領域的發展現狀以及潛在的發展方向。

8.3K Stars!《多模态大語言模型綜述》重大更新

MLLM 發展脈絡圖

MLLM 脫胎于近年來廣受關注的大語言模型(Large Language Model , LLM),在其原有的強大泛化和推理能力基礎上,進一步引入了多模态資訊處理能力。相比于以往的多模态方法,例如以 CLIP 為代表的判别式,或以 OFA 為代表的生成式,新興的 MLLM 展現出一些典型的特質:

(1)模型大。MLLM 通常具有數十億的參數量,更多的參數量帶來更多的潛力;(2)新的訓練範式。為了激活巨大參數量的潛力,MLLM 采用了多模态預訓練、多模态指令微調等新的訓練範式,與之比對的是相應的資料集構造方式和評測方法等。

在這兩種特質的加持下,MLLM 湧現出一些以往多模态模型所不具備的能力,例如給定圖檔進行 OCRFree 的數學推理、給定圖檔進行故事創作和了解表情包的深層含義等。

8.3K Stars!《多模态大語言模型綜述》重大更新

本綜述主要圍繞 MLLM 的基礎形式、拓展延伸以及相關研究課題進行展開,具體包括:

  • MLLM 的基礎構成與相關概念,包括架構、訓練政策、資料和評測;
  • MLLM 的拓展延伸,包括輸入輸出粒度、模态、語言和場景的支援;
  • MLLM 的相關研究課題,包括多模态幻覺、多模态上下文學習(Multimodal In-Context Learning,M-ICL)、多模态思維鍊(Multimodal Chain of Thought,M-CoT)、LLM 輔助的視覺推理(LLM-Aided Visual Reasoning,LAVR)。

架構

對于多模态輸入-文本輸出的典型 MLLM,其架構一般包括編碼器、連接配接器以及 LLM。如要支援更多模态的輸出(如圖檔、音頻、視訊),一般需要額外接入生成器,如下圖所示:

8.3K Stars!《多模态大語言模型綜述》重大更新

MLLM 架構圖

其中,模态編碼器負責将原始的資訊(如圖檔)編碼成特征,連接配接器則進一步将特征處理成LLM 易于了解的形式,即視覺 Token。LLM 則作為“大腦”綜合這些資訊進行了解和推理,生成回答。目前,三者的參數量并不等同,以 Qwen-VL[1]為例,LLM 作為“大腦”參數量為 7.7B,約占總參數量的 80.2%,視覺編碼器次之(1.9B,約占 19.7%),而連接配接器參數量僅有 0.08B。

對于視覺編碼器而言,增大輸入圖檔的分辨率是提升性能的有效方法。一種方式是直接提升分辨率,這種情況下需要放開視覺編碼器進行訓練以适應更高的分辨率,如 Qwen-VL[1]等。另一種方式是将大分辨率圖檔切分成多個子圖,每個子圖以低分辨率送入視覺編碼器中,這樣可以間接提升輸入的分辨率,如 Monkey[2]等工作。

對于預訓練的 LLM,常用的包括 LLaMA[3]系列、Qwen[4]系列和 InternLM[5]系列等,前者主要支援英文,而後兩者中英雙語支援得更好。就性能影響而言,加大 LLM 的參數量可以帶來顯著的性能增益,如 LLaVA-NeXT[6]等工作在 7B/13B/34B 的 LLM 上進行實驗,發現提升LLM 大小可以帶來各 benchmark 上的顯著提升,在 34B 的模型上更湧現出 zero-shot 的中文能力。除了直接增大 LLM 參數量,近期火熱的 MoE 架構則提供了更高效實作的可能性,即通過稀疏計算的方式,在不增大實際計算參數量的前提下提高總的模型參數量。

相對前兩者來說,連接配接器的重要性略低。例如,MM1[7]通過實驗發現,連接配接器的類型不如視覺 token 數量(決定之後 LLM 可用的視覺資訊)及圖檔的分辨率(決定視覺編碼器的輸入資訊量)重要。

資料與訓練

MLLM 的訓練大緻可以劃分為預訓練階段、指令微調階段和對齊微調階段。預訓練階段主要通過大量配對資料将圖檔資訊對齊到 LLM 的表征空間,即讓 LLM 讀懂視覺 Token。指令微調階段則通過多樣化的各種類型的任務資料提升模型在下遊任務上的性能,以及模型了解和服從指令的能力。對齊微調階段一般使用強化學習技術使模型對齊人類價值觀或某些特定需求(如更少幻覺)。

早期工作在第一階段主要使用粗粒度的圖文對資料,如 LAION-5B,這些資料主要來源于網際網路上的圖檔及其附帶的文字說明,是以具有規模大(數 10 億規模)但噪聲多、文本短的特點,容易影響對齊的效果。後來的工作則探索使用更幹淨、文本内容更豐富的資料做對齊。如 ShareGPT4V[8]使用 GPT-4V 生成的較長的描述來做更細粒度的對齊,在一定程度上緩解了對齊不充分的問題,獲得了更好的性能。但由于 GPT-4V 是收費的,這種類型的資料規模通常較小(數百萬規模)。此外,由于資料規模受限,其包含的世界知識也是有限的,比如是否能夠識别出圖像中的建築為廣州塔。此類世界知識通常儲備于大規模的粗粒度圖文對中。

第二階段的微調資料一方面可以來源于各種任務的資料,如 VQA 資料、OCR 資料等,也可以來源于 GPT-4V 生成的資料,如問答對。雖然後者一般能夠生成更複雜、更多樣化的指令資料,但這種方式也顯著地增加了成本。值得一提的是,第二階段的訓練中一般還會混合部分純文字的對話資料,這類資料可以視為正則化的手段,保留 LLM 原有的能力與内嵌知識。

第三階段的資料主要是針對于回答的偏好資料。這類資料通常由人工标注收集,因而成本較高。近期出現一些工作使用自動化的方法對來自不同模型的回複進行偏好排序,如 Silkie[9]通過調用 GPT-4V 來收集偏好資料。

其他技術方向

除了提升模型的基礎能力(如支援的輸入/輸出形式、性能名額)外,還有一些有意思的問題以及待探索的方向。本綜述中主要介紹了多模态幻覺、多模态上下文學習(Multimodal InContext Learning,M-ICL)、多模态思維鍊(Multimodal Chain of Thought,M-CoT)和 LLM 輔助的視覺推理(LLM-Aided Visual Reasoning,LAVR)等。

多模态幻覺的研究主要關注模型生成的回答與圖檔内容不符的問題。視覺和文本本質上是異構的資訊,完全對齊兩者本身就具有相當大的挑戰。增大圖像分辨率和提升訓練資料品質是降低多模态幻覺的兩種最直覺的方式,此外我們仍然需要在原理上探索多模态幻覺的成因和解法。例如,目前的視覺資訊的 Token 化方法、多模态對齊的範式、多模态資料和 LLM 存儲知識的沖突等對多模态幻覺的影響仍需深入研究。

多模态上下文學習技術為少樣本學習方法,旨在使用少量的問答樣例提示模型,提升模型的few-shot 性能。提升性能的關鍵在于讓模型有效地關注上下文,并将内在的問題模式泛化到新的問題上。以 Flamingo[10]為代表的工作通過在圖文交錯的資料上訓練來提升模型關注上下文的能力。目前對于多模态上下文學習的研究還比較初步,有待進一步探索。

多模态思維鍊的基本思想是通過将複雜的問題分解為較簡單的子問題,然後分别解決并彙總。相較于純文字的推理,多模态的推理涉及更多的資訊來源和更複雜的邏輯關系,是以要複雜得多。目前該方面的工作也比較少。

LLM 輔助的視覺推理方法探索如何利用 LLM 強大的内嵌知識與能力,并借助其他工具,設計各種視覺推理系統,解決各種現實問題。相比于通過端到端訓練獲得單一模型,這類方法一般關注如何通過免訓練的方式擴充和加強 LLM 的能力,進而建構一個綜合性的系統。

挑戰和未來方向

針對 MLLM 的研究現狀,我們進行了深入思考,将挑戰與可能的未來發展方向總結如下:

  • 現有 MLLM 處理多模态長上下文的能力有限,導緻模型在長視訊了解、圖文交錯内容了解等任務中面臨巨大挑戰。以 Gemini 1.5 Pro 為代表的 MLLM 正在掀起長視訊了解的浪潮,而多模态圖文交錯閱讀了解(即長文檔中既有圖像也有文本)則相對空白,很可能會成為接下來的研究熱點。
  • MLLM 服從複雜指令的能力不足。例如,GPT-4V 可以了解複雜的指令來生成問答對甚至包含推理資訊,但其他模型這方面的能力則明顯不足,仍有較大的提升空間。
  • MLLM 的上下文學習和思維鍊研究依然處于初步階段,相關的能力也較弱,亟需相關底層機制以及能力提升的研究探索。
  • 開發基于 MLLM 的智能體是一個研究熱點。要實作這類應用,需要全面提升模型的感覺、推理和規劃能力。
  • 安全問題。MLLM 容易受設計的惡意攻擊影響,生成有偏的或不良的回答。該方面的相關研究也仍然欠缺。
  • 目前 MLLM 在訓練時通常都會解凍 LLM,雖然在訓練過程中也會加入部分單模态的文本訓練資料,但大規模的多模态和單模态資料共同訓練時究竟對彼此互有增益還是互相損害仍然缺乏系統深入的研究。

更詳細内容請閱讀

論文連結:https://arxiv.org/pdf/2306.13549.pdf

項目連結:https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models

— 完 —

量子位 QbitAI · 頭條号簽約

關注我們,第一時間獲知前沿科技動态