天天看點

訓練時間減少71.4%,廈大指令調優新方案MMA讓羊駝模型實作多模态

作者:機器之心Pro

機器之心報道

編輯:陳萍、小舟

本文提出了一種新穎且經濟實惠的解決方案,用于有效地将 LLMs 适應到 VL(視覺語言)任務中,稱為 MMA。MMA 不使用大型神經網絡來連接配接圖像編碼器和 LLM,而是采用輕量級子產品,即擴充卡,來彌合 LLMs 和 VL 任務之間的差距,同時也實作了圖像模型和語言模型的聯合優化。同時,MMA 還配備了一種路由算法,可以幫助 LLM 在不損害其自然語言了解能力的情況下,在單模态和多模态指令之間實作自動切換。

最近幾個月,ChatGPT 等一系列大型語言模型(LLM)相繼出現,随之而來的是算力緊缺日益嚴重。雖然人人都想打造專屬于自己的大模型,但是能負擔得起上億參數模型訓練的機構卻寥寥無幾。

在快速發展的人工智能領域,以高效和有效的方式使用大型語言模型正變得越來越重要。

此前,Meta 開源了羊駝(LLaMA)系列模型,之後在此基礎上,研究者紛紛二創推出自己的羊駝模型。近日,來自廈門大學的研究者提出了一種新穎且有效的視覺 - 語言指令調優解決方案:MMA(Mixture-of-Modality Adaptation),并将其應用于 LLaMA 系列模型上,得到 LaVIN 模型。LaVIN 隻有 3~5M 的訓練參數, 僅需 1.4 小時即可在 ScienceQA 資料集上進行微調。

下面我們來看看論文的具體内容。

近年來,大型語言模型(LLM)不斷推動着自然語言了解的上限,其參數規模和預訓練資料規模也在不斷增加。指令調優(instruction tuning)技術的引入使得 LLM 能夠進行類似人類的對話交流,完成各種自然語言處理(NLP)任務,進而使人工智能逐漸接近通用人工智能,如 GPT-3.5 。

AI 發展的下一個裡程碑式進展通常被認為是将這些 LLM 擴充到多模态,例如視覺 - 語言(VL)學習,這樣一來 LLM 可以适用于更多真實世界場景,而這一目标 GPT-4 已經實作了,其采用大規模的視覺 - 語言語料庫來直接訓練多模态 GPT。

然而,GPT-4 的訓練機制非常昂貴,近期的研究方向仍然緻力于高效的 LLM VL 多模态适應。如圖 1 所示,現有的 LLM 多模态解決方案大緻分為兩個類别,即專家系統和子產品化訓練。

在專家系統解決方案中,LLM 通常充當管理者的角色,解釋不同的自然語言指令,然後調用相應的視覺模型來處理輸入圖像,例如圖像字幕生成、視覺問答或文本到圖像生成。這種解決方案的優點在于它不需要重新訓練 LLM,并且可以充分利用現有的視覺模型。然而,LLM 和各種視覺模型在計算和參數方面仍然存在顯著備援,導緻記憶體占用過大。同時,LLM 和視覺模型的聯合優化仍然是一個具有挑戰性的問題。

在這種情況下,對 LLM 的子產品化訓練引起了越來越多的關注。如圖 1 為子產品化訓練範式,這時需要 LLM 部署一個額外的「neck branch」來連接配接視覺編碼器,然後在對大量的圖像 - 文本對進行跨模态對齊的預訓練。之後,通過視覺 - 語言指令對「neck branch」和 LLM 進行聯合微調。

盡管這種方法有效,但所需的視覺 - 語言預訓練對于 LLM 的快速适應仍然代價高昂。比如,BLIP2 的預訓練需要耗費超過 100 個 GPU 小時來處理 1.29 億個圖像 - 文本對。又比如,LLaVA-13B 在視覺 - 語言指令調優期間需要微調整個 LLM,進而導緻訓練時間和中間存儲開銷顯著增加。

訓練時間減少71.4%,廈大指令調優新方案MMA讓羊駝模型實作多模态

本文提出了一種新穎且有效的視覺 - 語言指令調優解決方案,稱為混合模态适應 (Mixture-of-Modality Adaptation,MMA)。與現有的子產品化訓練方案不同,MMA 是一種端到端的優化機制。通過使用輕量級擴充卡(adapter)連接配接圖像編碼器和 LLM,MMA 可以通過少量參數聯合優化整個多模态 LLM。與現有解決方案相比,MMA 節省了數千倍的存儲開銷。

訓練時間減少71.4%,廈大指令調優新方案MMA讓羊駝模型實作多模态

論文位址:https://arxiv.org/pdf/2305.15023.pdf

項目位址:https://github.com/luogen1996/LaVIN

為了在純文字指令和圖像文本指令之間快速切換,MMA 為插入的擴充卡配備了路由方案,可以為不同模态的輸入動态選擇合适的适配路徑,進而很好地保留 LLM 的 NLP 能力。為了驗證 MMA,該研究将其應用于 Meta 最近提出的 LLaMA 系列模型上,并将二者結合之後的大型視覺 - 語言指令模型稱為 LaVIN。在 MMA 的幫助下,LaVIN 可以在 VL 任務上實作低成本且快速的适應,而無需額外的大規模預訓練。

為了驗證 LaVIN 的性能,該研究首先在 ScienceQA 資料集上進行了定量實驗。實驗結果表明,LaVIN 可實作與先進多模态 LLM(例如 LLaVA )相當的性能,同時減少高達 71.4% 的訓練時間和 99.9% 的存儲成本。特别地,使用 8 個 A100 GPU 在 ScienceQA 上微調 LaVIN 僅需 1.4 小時,并且僅需更新 3.8M 參數。

此外,該研究還通過調整 52k 純文字指令和 152k 文本 - 圖像對,将 LaVIN 擴充為多模态聊天機器人。定性實驗表明,LaVIN 可以準确地執行各種人類指令(例如編碼、解數學題等等),同時産生比現有多模态聊天機器人更好的視覺 - 語言了解。

方法

MMA 架構如圖 2 所示,其包括兩個新設計,即 Mixture-of-Modality Adapter (MM-Adapter)和 Mixture-of-Modality Training (MMT)。具體而言,MM-Adapter 通過輕量級擴充卡将 LLM 擴充為具有多模态的能力,同時還能實作單模态和多模态指令之間的自動切換。之後,通過 MMT 對整個多模态 LLM 進行聯合優化,該優化過程在訓練時間和存儲方面都更加高效。

訓練時間減少71.4%,廈大指令調優新方案MMA讓羊駝模型實作多模态

接下來我們從理論角度介紹 MMA 的兩個新設計。

MM-Adapter

首先,該研究引入了一個模态 token 來表示輸入模态,其定義為:

訓練時間減少71.4%,廈大指令調優新方案MMA讓羊駝模型實作多模态

其中

訓練時間減少71.4%,廈大指令調優新方案MMA讓羊駝模型實作多模态

為模态嵌入。MM-Adapter 定義為:

訓練時間減少71.4%,廈大指令調優新方案MMA讓羊駝模型實作多模态

如圖 3 所示,實作動态自适應的關鍵在于路由函數的設計,其公式為:

訓練時間減少71.4%,廈大指令調優新方案MMA讓羊駝模型實作多模态
訓練時間減少71.4%,廈大指令調優新方案MMA讓羊駝模型實作多模态

根據公式 2 和 3,MM-Adapter 可以根據輸入指令的模态選擇最佳的适應路徑。更重要的是,MM-Adapter 過程隻引入了一小部分額外參數,是以仍然是高效的。同時,MM-Adapter 還可以作為單模态擴充卡來改善适應能力,是以該研究還将其應用于圖像編碼器。

MMT

基于 MM-Adapter,MMT 的目标是當機大型圖像編碼器和 LLM,隻微調嵌入的擴充卡。在這種情況下,整個多模态 LLM 可以以端到端的方式進行聯合優化。具體而言,端到端的優化目标可以通過以下方式進行模組化:

訓練時間減少71.4%,廈大指令調優新方案MMA讓羊駝模型實作多模态

總的訓練目标可以定義為:

訓練時間減少71.4%,廈大指令調優新方案MMA讓羊駝模型實作多模态

在此訓練方案中,優化的參數數量仍然保持在非常小的規模,例如 3∼5M,這大大減少了訓練時間和存儲成本。與現有的子產品化訓練範式相比,MMA 不需要額外的視覺 - 語言預訓練,并且可以端到端地優化整個模型,進一步提高了訓練效率。

實驗

在實驗方面,該研究首先在 ScienceQA 資料集上将 LaVIN 與現有 SOTA 方法進行了比較,結果如下表 1 所示。與其他方法相比,LaVIN 在性能和訓練效率之間實作了更好的權衡。

訓練時間減少71.4%,廈大指令調優新方案MMA讓羊駝模型實作多模态

然後,該研究将 LaVIN 與不含 VL 預訓練的現有方法進行了實驗比較,結果如下表 3 所示。在 MMA 的幫助下,LaVIN 明顯優于其他方法。這表明 MMA 在 VL 适應方面的高效性。

訓練時間減少71.4%,廈大指令調優新方案MMA讓羊駝模型實作多模态

此外,該研究還進行了消融實驗,結果如下表 2 所示。實驗結果表明,通過圖像編碼器和 LLM 的聯合優化,LaVIN 的性能從 86.32 進一步提升到了 87.34,這說明聯合優化對于多模态 LLM 是非常重要的。在混合模态訓練(mixture-of-modality training,MMT)的幫助下,LaVIN 已經超越了現有的參數高效方法(LLaMA-Adapter)。

訓練時間減少71.4%,廈大指令調優新方案MMA讓羊駝模型實作多模态

下圖 4 是該研究将 LaVIN 對于純文字和文本 - 圖像指令輸入的相應路由權重可視化的結果。我們可以發現 MM-Adapter 有效地将不同模态的推了解耦到兩組擴充卡中。

訓練時間減少71.4%,廈大指令調優新方案MMA讓羊駝模型實作多模态

表 4 比較了 LaVIN、LLaVA 和 BLIP2 訓練支出:

訓練時間減少71.4%,廈大指令調優新方案MMA讓羊駝模型實作多模态

圖 5 比較了 LaVIN 與現有方法在單模态和多模态的指令跟随任務上的表現,例如數學、編碼和圖像字幕。與 LLaVA 和 LLaMA-Adapter 相比,LaVIN 在多個任務上實作了整體更好的回答。

訓練時間減少71.4%,廈大指令調優新方案MMA讓羊駝模型實作多模态

圖 6 比較了 LaVIN 與現有的多模态 LLM 在多輪對話中的表現,并使用 GPT-4 評估它們回答的品質。結果表明,LaVIN 得分最高,這說明了 LaVIN 在多模态對話方面具有更優秀的能力。

訓練時間減少71.4%,廈大指令調優新方案MMA讓羊駝模型實作多模态

繼續閱讀