天天看點

國産多模态大模型狂飙!顔水成挂帥開源Vitron

作者:智東西
國産多模态大模型狂飙!顔水成挂帥開源Vitron

編輯 | ZeR0

奔向通用人工智能,大模型又邁出一大步。

智東西4月25日報道,近日,由顔水成教授帶隊,昆侖萬維2050全球研究院、新加坡國立大學、新加坡南洋理工大學團隊聯合釋出并開源了Vitron通用像素級視覺多模态大語言模型。

Vitron解決了困擾大語言模型産業已久的圖像/視訊模型割裂問題,支援從視覺了解到視覺生成、從低層次到高層次的一系列視覺任務,包括靜态圖像和動态視訊内容進行全面的了解、生成、分割和編輯等任務,能處理複雜的視覺任務,擅長視覺了解和任務執行,同時支援與使用者的連續操作,實作了靈活的人機互動。

國産多模态大模型狂飙!顔水成挂帥開源Vitron

論文連結:https://is.gd/aGu0VV

開源代碼:https://github.com/SkyworkAI/Vitron

該模型在四大視覺相關任務的功能支援及其關鍵優勢如下:

國産多模态大模型狂飙!顔水成挂帥開源Vitron

這展示了通向更統一的視覺多模态通用模型的巨大潛力,為下一代通用視覺大模型的終極形态奠定了基礎。

一、應對視覺任務關鍵挑戰,提出大一統的多模态大語言模型

建構更通用、更強大的多模态大語言模型(MLLM)被視作通向通用人工智能(AGI)的必經之路。

通過引入能進行視覺感覺的子產品,擴充純語言基礎大語言模型(LLM)至MLLM,近年來有很多擅長圖像了解的研究成果冒出,比如如BLIP-2、LLaVA、MiniGPT-4等。專注于視訊了解的MLLM也陸續面世,包括VideoChat、Video-LLaMA和Video-LLaVA等等。

研究人員主要從兩個次元試圖進一步擴充MLLM的能力。

一是嘗試深化MLLMs對視覺的了解。從粗略的執行個體級了解過渡到對圖像的像素級細粒度了解,進而實作視覺區域定位能力,如GLaMM、PixelLM、NExT-Chat和MiniGPT-v2等。

二是嘗試擴充MLLM可以支援的視覺功能。部分研究已經開始研究讓MLLM不僅了解輸入視覺信号,還能支援生成輸出視覺内容。比如,GILL、Emu等模型能夠靈活生成圖像内容,GPT4Video、NExT-GPT實作了視訊生成。

目前AI社群認為視覺MLLMs必然會朝着高度統一、能力更強的方向發展。

這條路存在一些關鍵挑戰。比如很大一部分工作都沒有實作細粒度像素級别的視覺了解,或者缺乏對圖像和視訊的統一支援,或者對于各種視覺任務的支援不充分,離通用大模型相差甚遠。

下表簡單歸納了現有部分視覺MLLM模型的能力:

國産多模态大模型狂飙!顔水成挂帥開源Vitron

研究人員認為,未來MLLM應該是一個通用大語言模型,能覆寫更廣泛的視覺任務和操作範圍,實作對所有視覺相關任務的統一支援,達到“one for all”的能力。這對實際應用尤其是在經常涉及一系列疊代和互動操作的視覺創作中至關重要。

例如,使用者通常首先從文本開始,通過文生圖,将一個想法轉化為視覺内容;然後通過進一步的細粒度圖像編輯來完善初始想法,添加更多細節;接着通過圖像生成視訊來建立動态内容;最後進行幾輪疊代互動,如視訊編輯,完善創作。

為了彌補上述差距,研究團隊提出一種通用的像素級視覺MLLM——Vitron。

二、Vitron系統架構包含三大子產品,模型訓練有三個階段

Vitron采用了與現有相關MLLM相似的架構,包括三個關鍵部分:1) 前端視覺&語言編碼子產品;2) 中心LLM了解和文本生成子產品;3) 後端使用者響應和子產品調用以進行視覺操控子產品。

國産多模态大模型狂飙!顔水成挂帥開源Vitron

▲Vitron整體架構

  • 前端子產品:視覺-語言編碼。為了感覺圖像和視訊模态信号并支援細粒度使用者視覺輸入,內建了圖像編碼器、視訊編碼器、區域框/草圖編碼器。
  • 中心子產品:核心LLM。采用Vicuna(7B,1.5)來實作了解、推理、決策制定和多輪使用者互動。
  • 後端子產品:使用者響應與子產品調用。采用以文本為中心的調用政策,整合現成的幾個強大先進(SoTA)的圖像和視訊處理子產品,用于解碼和執行從低層到高層的一系列視覺終端任務。通過采用以文本為中心的子產品內建調用方法,不僅實作了系統統一,還確定了對齊效率和系統可擴充性。
國産多模态大模型狂飙!顔水成挂帥開源Vitron

基于上述架構,再對Vitron進行訓練微調,實作更強的視覺了解和任務執行能力。其模型訓練主要包括三個階段。

步驟一:視覺-語言整體對齊學習。将輸入的視覺語言特征映射到一個統一的特征空間中,進而使其能夠有效了解輸入的多模态信号。這是一種粗粒度的視覺-語言對齊學習,可以讓系統具備整體上有效處理傳入的視覺信号。研究人員采用了現存的圖像-标題對(CC3M)、視訊-标題對(Webvid)和區域-标題對(RefCOCO)的資料集進行訓練。

步驟二:細粒度的時空視覺定位指令微調。系統采用了調用外部子產品方式來執行各種像素級視覺任務,但LLM本身并未經過任何細粒度的視覺訓練,這将會阻礙了系統實作真正的像素級視覺了解。為此,研究人員提出了一種細粒度的時空視覺定位指令微調訓練,核心思想是使LLM能夠定位圖像的細粒度空間性和視訊的具體時序特性。

步驟三:輸出端面向指令調用的指令微調。上述第二階段的訓練賦予了LLM和前端編碼器在像素級别了解視覺的能力。這最後一步,面向指令調用的指令微調,旨在讓系統具備精确執行指令的能力,允許LLM生成适當且正确的調用文本。

由于不同的終端視覺任務可能需要不同的調用指令,為了統一這一點,研究人員提出将LLM的響應輸出标準化為結構化文本格式,其中包括:

  1. 使用者響應輸出,直接回複使用者的輸入。
  2. 子產品名稱,訓示将要執行的功能或任務。
  3. 調用指令,觸發任務子產品的元指令。
  4. 區域(可選輸出),指定某些任務所需的細粒度視覺特征,例如在視訊跟蹤或視覺編輯中,後端子產品需要這些資訊。對于區域,基于LLM的像素級了解,将輸出由坐标描述的邊界框。
國産多模态大模型狂飙!顔水成挂帥開源Vitron

三、評估四大主要視覺任務性能,展示靈活人機互動能力

研究人員基于Vitron在22個常見的基準資料集、12個圖像/視訊視覺任務上進行了廣泛的實驗評估。Vitron展現出在四大主要視覺任務群組(分割、了解、内容生成和編輯)中的出色性能,同時其具備靈活的人機互動能力。

以下代表性地展示了一些定性比較結果:

視覺分割:

國産多模态大模型狂飙!顔水成挂帥開源Vitron

▲圖像指代圖像分割結果

細粒度視覺了解:

國産多模态大模型狂飙!顔水成挂帥開源Vitron

▲圖像目标指代了解結果

國産多模态大模型狂飙!顔水成挂帥開源Vitron

▲視訊QA結果

視訊生成:

國産多模态大模型狂飙!顔水成挂帥開源Vitron

▲文生圖

國産多模态大模型狂飙!顔水成挂帥開源Vitron

▲文生視訊

國産多模态大模型狂飙!顔水成挂帥開源Vitron

▲圖生視訊

視覺編輯:

國産多模态大模型狂飙!顔水成挂帥開源Vitron

▲圖像編輯結果

具體更多詳細實驗内容和細節參見論文。

結語:未來可探索三大方向,系統架構、使用者互動性、模态能力

Vitron在綜合性、技術創新、人機互動和應用潛力等方面展現出獨特的優勢和潛力,有助于推動了多模态大模型的發展,并為未來的視覺大模型研究提供了一個新的方向。

昆侖萬維2050全球研究院一直緻力于打造一家面向未來世界的卓越科學研究機構,與科學社群共同跨越“奇點”,探索未知世界,創造美好未來。該研究院此前已釋出并開源了數字智能體研發工具包AgentStudio,未來還将持續推動AI技術突破。

其團隊聯合研發的Vitron系統表現出強大的通用能力,但前方依然存在一些局限性。

研究人員列出了未來可進一步探索的三個方向:

1、系統架構

Vitron系統仍采用半聯合、半代理的方式來調用外部工具。雖然這種基于調用的方法便于擴充和替換潛在子產品,但這也意味着這種流水線結構的後端子產品不參與到前端與LLM核心子產品的聯合學習。這一限制不利于系統的整體學習,這意味着不同視覺任務的性能上限将受到後端子產品的限制。

未來的工作應将各種視覺任務子產品整合成一個統一的單元。實作對圖像和視訊的統一了解和輸出,同時通過單一生成範式支援生成和編輯能力,仍然是一個挑戰。

目前一種有希望的方式是結合modality-persistent的tokenization, 提升系統在不同輸入和輸出以及各種任務上的統一化。

2、使用者互動性

與之前專注于單一視覺任務的模型(例如,Stable Diffusion和SEEM)不同,Vitron旨在促進LLM和使用者之間的深度互動,類似于行業内的OpenAI的DALL-E系列,Midjourney等。實作最佳的使用者互動性是本項工作的核心目标之一。

Vitron利用現有的基于語言的LLM,結合适當的指令調整,以實作一定程度的互動。例如,系統可以靈活地響應使用者輸入的任何預期消息,産生相應的視覺操作結果,而不要求使用者輸入精确比對後端子產品條件。

然而,該工作在增強互動性方面仍有很大的提升空間。例如,從閉源的Midjourney系統汲取靈感,不論LLM在每一步做出何種決定,系統都應積極向使用者提供回報,以確定其行動和決策與使用者意圖一緻。

3、模态能力

目前,Vitron內建了一個7B的Vicuna模型,其可能對其了解語言、圖像和視訊的能力會産生某些限制。

未來的探索方向可以發展一個全面的端到端系統,比如擴大模型的規模,以實作對視覺的更徹底和全面的了解。此外,應該努力使LLM能夠完全統一圖像和視訊模态的了解。

繼續閱讀