KOSMOS-2.5：閱讀「文本密集圖像」的多模态大語言模型

目前一個顯著的趨勢是緻力于建構更大更複雜的模型，它們擁有數百/數千億個參數，能夠生成令人印象深刻的語言輸出。

然而，現有的大型語言模型主要集中在文本資訊上，無法了解視覺資訊。

是以多模态大型語言模型（MLLMs）領域的進展旨在解決這一限制，MLLMs将視覺和文本資訊融合到一個基于Transformer的單一模型中，使該模型能夠根據這兩種模态學習和生成内容。

MLLMs在各種實際應用中顯示出潛力，包括自然圖像了解和文本圖像了解。這些模型利用語言模組化作為處理多模态問題的通用接口，使其能夠根據文本和視覺輸入處理和生成響應。

不過，現有的MLLMs主要關注分辨率較低的自然圖像，對于文本密集圖像的MLLM研究還不多見，是以充分利用大規模多模态預訓練來處理文本圖像是MLLM研究的一個重要的研究方向。

通過将文本圖像納入訓練過程并開發基于文本和視覺資訊的模型，我們可以開辟涉及高分辨率文本密集圖像的多模态應用的新可能性。

論文位址：https://arxiv.org/abs/2309.11419

KOSMOS-2.5是一個基于文本密集圖像的多模态大型語言模型，它是在KOSMOS-2的基礎上發展而來的，突出了對于文本密集圖像的多模态閱讀和了解能力（Multimodal Literate Model）。

該模型的提出突顯了其在了解文本密集型圖像方面的卓越性能，彌合了視覺和文本之間的差距。

與此同時，它也标志着該任務範式的演變，從以前的編碼器-解碼器（encoder-decoder）架構轉變為純解碼器（decoder only）架構。

KOSMOS-2.5的目标是在文本豐富的圖像中實作無縫的視覺和文本資料處理，以便了解圖像内容并生成結構化文本描述。

圖1：KOSMOS-2.5概覽圖

如圖1所示，KOSMOS-2.5是一個多模态模型，旨在使用統一的架構處理兩個緊密相關的任務。

第一個任務涉及生成具有空間感覺的文本塊，即同時生成文本塊的内容與坐标框；

第二個任務涉及以Markdown格式生成結構化的文本輸出，同時捕捉各種樣式和結構。

圖2：KOSMOS-2.5架構圖

如圖2所示，兩個任務利用共享的Transformer架構與任務特定的提示。

KOSMOS-2.5将基于ViT（Vision Transformer）的視覺編碼器與基于Transformer架構的解碼器相結合，通過一個重采樣子產品連接配接起來。

圖3：預訓練資料集

如圖3所示，為了訓練這個模型，作者準備一個龐大的共324.4M的資料集進行預訓練。

圖4：帶有邊界框的文本行的訓練樣本示例

圖5：Markdown格式的訓練樣本示例

該資料集包含各種類型的文本密集圖像，其中包括帶有邊界框的文本行和純文字的Markdown格式，圖4和圖5為訓練樣本示例可視化。

這種多任務的訓練方法增強了KOSMOS-2.5在整體上的多模态能力。

[圖6] 端到端的文檔級文本識别實驗

圖7：從圖像中生成Markdown格式文本實驗

如圖6和圖7所示，KOSMOS-2.5在兩個任務上進行評估：端到端的文檔級文本識别和從圖像中生成Markdown格式文本。

實驗結果展示了KOSMOS-2.5在了解文本密集的圖像任務方面的出色表現。

圖8：KOSMOS-2.5的輸入和輸出樣例展示

此外，KOSMOS-2.5在少樣本學習和零樣本學習的場景中展現了有前景的能力，使其成為處理文本豐富圖像的實際應用的多功能工具。

作者指出，指令微調是一個很有前景的方法，可以實作模型更廣泛的應用能力。

在更廣泛的研究領域中，一個重要的方向在于進一步發展模型參數的擴充能力。

随着任務範圍的不斷擴大和複雜性的不斷提高，擴充模型以處理更大量的資料對于文字密集的多模态模型的發展至關重要。

最終目标是開發出一種能有效解釋視覺和文本資料的模型，并在更多文本密集型多模态任務中順利推廣。

聲明：本公衆号轉載此文章是出于傳播行業資訊、洞見之目的，如有侵犯到您的合法權益，請緻信：[email protected]，我們将及時調整處理。謝謝支援！

-END-

本文轉載自：翻譯技術教育與研究公衆号

轉載編輯：盼盼

KOSMOS-2.5：閱讀「文本密集圖像」的多模态大語言模型

繼續閱讀

3倍靈敏度，搜尋百萬蛋白對隻需幾秒，複旦等開發新的語言模型

8.3K Stars!《多模态大語言模型綜述》重大更新

Meta研究員破解大模型逆轉詛咒，推出《語言模型實體學》

解碼 AI：揭秘聊天機器人的“大腦” - 大語言模型

預測蛋白質共調控和功能，哈佛&MIT訓練基因組語言模型

【英特爾釋出新一代AI晶片，或成英偉達産品勁敵】英特爾在人工智能加速器領域取得了重要進展，其子公司HabanaLabs在

研究者提出人工智能新概念，讓大語言模型與真實實體世界進行互動

Llama 3：開源大語言模型的下一個前沿

大語言模型的應用秘訣：如何通過高效的提示詞掌控AI？

蘋果又被曝大動作，自研裝置端大語言模型，AI才是“重振雄風”新出路？

難怪之前傳iPhone16系列國行版本AI功能将由百度提供，原來百度在中國人工智能發明專利企業排名中還是靠前的。排名前十

蘋果釋出OpenELM，基于開源訓練和推理架構的高效語言模型

所羅門諾夫：大語言模型的先知

大語言模型部署：vLLM 與量化技術

蘋果發高效語言模型 OpenELM；小米策劃 15 萬元新車；AI 成功改寫人類 DNA|極客早知道

深度學習與化學語言模型結合，用于藥物從頭設計，登Nature子刊