天天看點

多所高校共建開源社群LAMM,加入多模态語言模型大家庭的時候到了

作者:機器之心Pro

機器之心專欄

機器之心編輯部

LAMM (Language-Assisted Multi-Modal) 旨在建設面向開源學術社群的多模态指令微調及評測架構,其包括了高度優化的訓練架構、全面的評測體系,支援多種視覺模态。

ChatGPT問世以來,大語言模型(LLM)實作了跳躍式發展,基于自然語言進行人機互動的AI範式得到廣泛運用。然而,人類與世界的互動中不僅有文本,其他諸如圖檔、深度等模态也同樣重要。然而,目前的多模态大語言模型(MLLM)研究大多數閉源,對高校和大多數研究機構的同學們并不友好。而且,大語言模型受限于訓練知識,往往缺乏時事認知、複雜推理能力,這就如同隻能快速問答,沒有“深度思考”能力。AI Agent(人工智能代理)則是解決這一問題的關鍵,它賦予LLM深度思考、複雜決策的能力,使LLM向自主性、反應性、積極性和社交能力特征的智能實體發展。我們相信,AI Agent領域将會誕生更多改變生活工作方式的成果,是大語言模型及多模态大模型的重要進化方向。

來自北航、複旦大學、悉尼大學、香港中文大學(深圳)等高校與上海人工智能實驗室的學者共同推出多模态語言模型最早的開源社群之一 ——LAMM(Language-Assisted Multi-modal Model)。我們旨在将 LAMM 建設成一個不斷發展的社群生态,支援 MLLM 訓練和評測、MLLM 驅動的 Agent 等方向的研究。作為多模态大語言模型領域最早的開源項目之一,LAMM 的目标是建立一個開放的研究社群生态,讓每個研究和開發人員都可以基于此開展研究,共同建設開源社群。

多所高校共建開源社群LAMM,加入多模态語言模型大家庭的時候到了
  • 項目首頁:https://openlamm.github.io
  • 代碼位址:https://www.github.com/OpenGVLab/LAMM

在這裡,你可以 :

  • 以最小的計算資源成本訓練和評估 MLLM,僅需 3090 或 V100,輕松開始 MLLM 的訓練和評測。
  • 建構基于 MLLM 的具身智能 Agent,能夠使用機器人或遊戲模拟器定義任務并生成資料。
  • 在幾乎任何專業領域擴充 MLLM 應用。

開源架構

LAMM 代碼庫實作了統一的資料集格式、元件式模型設計、一鍵式分布式訓練,友善使用者啟動和實作自己專屬的多模态語言模型。

多所高校共建開源社群LAMM,加入多模态語言模型大家庭的時候到了
  • 使用标準資料集格式相容不同指令微調資料集。LAMM 定義了标準化多模态指令微調資料格式,可以多模态指令微調常用的 LLaVA、LAMM、ShareGPT4V 等資料集可以直接無縫适配,一鍵啟動。
  • 元件式搭模組化型流程,友善地更新和修改模型架構。LAMM 中模型以視覺編碼器(Vision Encoder)、特征映射器(Feature Projector)、語言模型(LLM)為主要元件。目前 LAMM 已經支援 Image、Point Cloud 等模态編碼器和 LLaMA/LLaMA2 等預訓練語言模型,使用者可以自由選擇适合需求的子產品搭建 pipeline,實作自己專屬的 MLLM。
  • 以最小計算資源訓練和評測 MLLM。LAMM Repo 內建了 Deepspeed、LightLLM、flash attention 等加速架構,将訓練成本大幅優化。目前已經支援在 4 張 RTX3090 或更新裝置上微調 7B 的語言模型。同時 LAMM 也在不斷跟進新的大語言模型和優化架構,以推動多模态領域的發展。
  • 基于 MLLM 建構具身智能 AI Agent。使用機器人或模拟器定義目标任務并生成相應指令資料後,LAMM 支援的 MLLM 可以作為強大的 AI Agent 進行決策和分析。

更多詳情請參考項目首頁。

多模态大語言模型訓練與評測

近期大量工作展現了多模态大模型 (MLLM) 在視覺内容了解和互動上的能力,并且展現出了解決更為複雜的下遊任務應用的能力。除了常見的圖檔輸入,LAMM 目前還支援點雲等視覺模态輸入,使用者也可以根據自己的需求加入新的編碼器。同時,LAMM 支援 PEFT 包進行高效微調,也引入了 flash attention、xformer 等工具進一步優化模型計算成本,使得使用者能夠用盡可能低的成本訓練 MLLM。面對複雜的多任務學習,LAMM 也支援 MoE 等政策統一多組微調參數,進一步提高模型多任務能力,實作更全能的 MLLM。

然而,由于缺乏一個标準化的全面評估架構,這些模型的能力和局限性尚未被全面探索,我們仍然無法确認這些模型的能力究竟如何,他們究竟能做什麼事情。現有的基準測試工作主要集中于為多模态大模型建構多模态評估資料集,或僅評估了一部分的視覺能力次元,或嘗試建立了一個評測架構但缺乏可擴充性和全面性,對各個模型的全面評估和不同模型間進行公平可靠的對比仍然具有挑戰性。LAMM 實作了一種具有高度可擴充性和靈活性的評測架構,旨在為多模态大模型提供一種可靠的、全面的評估。

詳情可參考 https://openlamm.github.io/paper_list/ChEF

多所高校共建開源社群LAMM,加入多模态語言模型大家庭的時候到了

一鍵式組合式多模态語言模型評測架構

基于 LAMM 架構的多模态模型能力部分展示如下:

基于 2D 圖像内容的問答:

多所高校共建開源社群LAMM,加入多模态語言模型大家庭的時候到了
多所高校共建開源社群LAMM,加入多模态語言模型大家庭的時候到了

基于 3D 點雲的視覺問答:

多模态大語言模型驅動的具身 Agent

近期大量工作借助大語言模型 (LLM) 的強大推理規劃能力來建構 Agent,例如 Minecraft 中的 Voyager 和 GITM 都借助 LLM 和文本記憶來規劃智能體的行動,但是這些工作都假定智能體可以在規劃決策的時候擷取所有正确的環境感覺資訊,直接跳過感覺階段,忽視了實時的第一人稱視角圖檔對具身智能體規劃自身行動的影響,這在現實生活中也是不可能存在的。

為了讓具身智能體在開放世界複雜環境中更好地感覺環境,我們提出了以MLLM驅動的具身智能體MP5,其特點在于具備視覺感覺和主動感覺能力。視覺感覺子產品(模型主要架構為LAMM)允許MP5解決以前從未見過的任務,主動感覺可以主動擷取環境資訊,以執行合适動作。最終 MP5 具有開放感覺能力,并能根據不同的目的提供量身定制的感覺結果,可以完成長時序及複雜環境資訊任務。

總結

基于 MLLM 的強大能力和廣闊應用前景,多模态學習來到了一個全新的階段。LAMM 旨在建設一個助力多模态大模型研究的開源社群,并向社群開源了包括資料準備、模型訓練、性能評測所有相關資料。

作為最早一批投入多模态語言模型研究的團隊,我們希望不斷發展 LAMM 工具箱,為 LAMM 開源生态提供輕量易用的多模态研究架構,和開源力量合作,助力更多有意義的研究。

以上内容均會在 LAMM 首頁持續開源,請大家關注我們的首頁和項目,也歡迎為 LAMM 代碼庫多多送出回報和 PR。

繼續閱讀