天天看點

智源Emu開源!超越DeepMind,重新整理8項SOTA,首個多模态-to-多模态

作者:新智元

來源:智源研究院

【新智元導讀】最近,智源研究院開源了全新的統一多模态預訓練模型——Emu。不僅在8項基準測試中表現優異,而且還超越了此前的一衆SOTA。

首個打通從多模态輸入到多模态輸出的「全能高手」,統一多模态預訓練模型Emu開源,來自智源研究院「悟道·視界」研究團隊。

超越了此前DeepMind的多模态大模型Flamingo,Emu重新整理8項性能名額;并且模型能力覆寫圖像與文本的生成及視訊了解,更通用,能完成任意圖生文以及文生圖的多模态任務。

這一突破來自于Emu創造性地建立了多模态統一學習架構與視訊資料的大量采用,最終得以實作對任意形式的多模态的上下文序列進行圖文任意模态的補全,即對于任意模态進行下一步自回歸預測。

智源Emu開源!超越DeepMind,重新整理8項SOTA,首個多模态-to-多模态

論文連結:https://arxiv.org/pdf/2307.05222.pdf

模型連結:https://github.com/baaivision/Emu

Demo連結:https://emu.ssi.plus/

智源Emu開源!超越DeepMind,重新整理8項SOTA,首個多模态-to-多模态

作為一種通用界面,Emu 可用于多種視覺、語言應用

超越Flamingo、Kosmos,8項基準測試表現優異

在8個涵蓋多模态圖像/視訊和語言任務的基準測試中,Emu均有不俗表現,對比來自DeepMind的Flamingo 與來自微軟的 Kosmos 亦有所超越。

Emu在衆多常用測試基準上表現出極強的零樣本性能,展現了模型在遇到未知任務時強大的泛化能力。其中,Emu在圖像描述COCO Caption的CIDEr得分為112.4,且模型對圖檔的描述中包含豐富的世界知識。

此外,Emu在圖像問答VQAv2和視訊問答MSRVTT資料集上也展現了強勁的視覺問答功能。

智源Emu開源!超越DeepMind,重新整理8項SOTA,首個多模态-to-多模态

表1 Emu和Emu-I(Emu-I是經過指令調整的Emu模型)的多模态了解性能

同時,Emu具備強大的少樣本上下文學習能力,即對于給定任務提供幾個示例樣本,模型可以進行上下文學習進而更好地完成任務。

Emu在視覺問答資料集 VQAv2、VizWiz、MSRVTTQA上的少樣本上下文學習表現突出。

智源Emu開源!超越DeepMind,重新整理8項SOTA,首個多模态-to-多模态

表2 在few-shot (k = 2,4,8) 推理設定下,Emu在圖像問答和視訊問答任務中的表現

全能高手:在多模态序列中進行「圖文任意模态生成」

Emu模型能力覆寫圖像與文本的生成及視訊了解,相比其他多模态模型更具通用性,能完成任意圖生文以及文生圖的多模态任務。例如,精準圖像認知、少樣本圖文推理、視訊問答、文圖生成、上下文圖像生成、圖像融合、多模态多輪對話等。

Emu是一個基于Transformer的多模态基礎模型,可以接受并處理形式各異的多模态資料,輸出指定的多模态資料。從圖文對、圖文交錯文檔、交錯視訊文本等形式各異的海量多模态序列中進行學習與訓練後,Emu能對任意形式的多模态上下文序列進行多模态補全,對圖像、文本和視訊等多種模态的資料進行感覺、推理和生成。

視訊了解、多模态上下文生成、多模态對話是Emu模型的技術亮點。

Emu模型具有強大的視訊了解能力,如在下圖示範中,針對下面「視訊中的女主人公在幹什麼」這一問題,Emu模型給出了具有精準事實細節(蘋果VR裝置)、連貫動作描述(坐在飛機上并使用VR裝置)、合理行動猜測(可能在看一段視訊或360度視角的飛機外景象)的豐富回答。

智源Emu開源!超越DeepMind,重新整理8項SOTA,首個多模态-to-多模态

Emu不隻能了解視訊資訊,還能做到對視訊中時序資訊的精細了解。

例如下圖展示的奶昔制作視訊,Emu分步且完整地描述了奶昔制作步驟。

智源Emu開源!超越DeepMind,重新整理8項SOTA,首個多模态-to-多模态

Emu新增了圖像融合能力,可以對輸入的圖像進行創造性地融合,并生成新的圖檔。

例如下圖最後一行,将兩幅世界名畫作為輸入,Emu可以生成風格、元素類似的全新畫作:

智源Emu開源!超越DeepMind,重新整理8項SOTA,首個多模态-to-多模态

上下文圖像生成也是一項全新的功能,Emu可以将輸入的文本-圖檔對作為 prompt,結合上下文資訊進行圖檔生成。

例如,如果輸入圖1、圖2兩張圖檔,并輸入文本指令讓Emu生成以圖1的動物為中心,但以圖2為風格的圖檔。依賴于強大的多模态上下文生成能力,Emu可以完成相應的指令。

下圖的第一行展示了如果在「文生圖」時提供了context,Emu會結合context 的風格,生成油畫風格的圖檔,而相同的文本在無context的情況下進行「文生圖」隻會生成現實風格的圖檔:

智源Emu開源!超越DeepMind,重新整理8項SOTA,首個多模态-to-多模态

圖像生成方面,Emu可以根據給定的文本生成多幅語義相關的圖像:

智源Emu開源!超越DeepMind,重新整理8項SOTA,首個多模态-to-多模态

Emu可根據一張或者多張圖或視訊進行問答和多輪對話。

如下第一張圖所示,給出一張景點圖并詢問旅遊注意事項,Emu給出了5個要點,其中再就第5個要點「safety equipment」提問時,Emu能夠針對這一點進行更加詳細地闡述。最後,Emu還可以根據圖檔作詩。

智源Emu開源!超越DeepMind,重新整理8項SOTA,首個多模态-to-多模态

Emu還有一項突出的能力是它的世界知識更豐富。

如下圖所示,給出兩張動物的圖,詢問這兩張圖的差別,Emu可以準确描述動物的名稱及分布地:

智源Emu開源!超越DeepMind,重新整理8項SOTA,首個多模态-to-多模态

Emu模型可以準确識别畫作,例如下圖輸入莫奈的《日出·印象》這幅作品, Emu不僅準确回答出了作品的名字,描述了畫面資訊,還給出了很多背景知識,例如這是著名印象派風格的作品。

而mPLUG-Owl 、LLaVA并不知道畫作的名稱,隻是簡單描述了畫中場景。InstructBLIP給出了作品名稱和描述,但在背景知識上略遜于Emu。

智源Emu開源!超越DeepMind,重新整理8項SOTA,首個多模态-to-多模态

再看下圖,給出阿加莎·克裡斯蒂的肖像,問題是「說出這位女性寫的8本書并推薦一本給我」,Emu正确了解了這個問題,識别出作者并列出其8個作品,并從中挑選了偉大的代表作推薦。

LLaVA人物識别準确,隻部分了解了題意,給出推薦作品,但并沒有給出8個代表作。mPLUG-Owl識别出了人物,也是部分了解了問題,隻給出了4部作品和一句話簡介。InstructBLIP則給出了一個錯誤答案。

智源Emu開源!超越DeepMind,重新整理8項SOTA,首個多模态-to-多模态

首次大量采用視訊資料,創新性建立統一多模态學習架構

多模态大模型 (LMM) 成為新晉研究熱點,現有工作常将大語言模型與預訓練視覺編碼器連接配接來建構多模态大模型。

盡管現有的LMMs很有效,但主要以預測下一個文本token作為訓練目标,而對視覺模态缺乏監督。這樣的訓練目标也限制了模型在推理應用時隻能輸出文本回複,而不具有生成圖檔回複的能力。

此外,資料直接影響到模型的搭建,視訊資料正愈來愈成為圖像資訊時代的主要資訊形态。帶有交錯圖像字幕的視訊資料,相比于圖文交錯文檔,天然包含更密集的視覺信号,且與文本編碼有更強的跨模态關聯性。而現有工作主要利用圖像-文本對及圖文文檔進行訓練,對視訊資料有所忽略。

如何把海量多模态資料包括視訊資料納入一個更加「統一」的多模态學習架構,進而提升多模态大模型的通用性,智源視覺團隊解決了幾個重要問題:

1. 對不同來源的多模态交錯資料進行處理,以自動回歸的方式統一模組化。

智源視覺團隊采用的多模态交錯資料具體包括圖像-文本對 (LAION-2B、LAION-COCO)、交錯圖像-文本資料 (MMC4)、視訊-文本對 (Webvid-10M) 和交錯視訊-文本資料 (YT - temporal - 1b),将視覺表征與文本序列共同構成多模态序列,并進行統一的自回歸模組化。

智源Emu開源!超越DeepMind,重新整理8項SOTA,首個多模态-to-多模态

Emu 以自動回歸的方式統一了不同模态的模組化

2. 特别地,Emu 首次采用了海量視訊作為圖文交錯序列資料。

視訊訓練資料源自研究團隊從 YouTube 上收集的1800萬個視訊(非原始視訊,故事闆圖像)及其相應的字幕,二者結合創造了一個按時間戳順序排序的視訊和文本的自然交錯序列。

智源Emu開源!超越DeepMind,重新整理8項SOTA,首個多模态-to-多模态

交錯的視訊-文本資料

3. 預測多模态序列的下一個元素。

模型訓練方面,Emu将自回歸地預測多模态序列中的下一個元素(既包含文本也包含圖像)作為統一的學習目标進行預訓練。

在這種不同形式的資料、統一形式的目标下完成訓練後。Emu便成為了一個「通才」模型,可以輕松應對各種多模态任務,包括圖生文以及文生圖。

參考資料:

https://arxiv.org/pdf/2307.05222.pdf

繼續閱讀