多模态大型語言模型的最新進展,看看最新的研究成果

1.綜述：多模态大型語言模型的最新進展

多模态大語言模型：全面調查

* 概述了MM-LLMs的設計方案、訓練方法和性能評估名額。

* 介紹26個MM-LLMs的建構方式、優缺點和應用領域。

* 分析了MM-LLMs在主流基準上的性能表現，提出增強MM-LLMs性能的關鍵訓練方法。

MM-LLMs的優勢：

* 大規模預訓練：MM-LLMs使用海量多模态資料進行預訓練，涵蓋了文本、圖像、音頻等多種模态。

* 多模态表示學習：MM-LLMs能夠學習和了解不同模态之間的關系和互動，提供多模态資訊的統一表示。

* 廣泛的應用：MM-LLMs在多模态機器翻譯、多模态資訊檢索、多模态問答等任務中表現出色，推動了多模态人工智能的發展。

MM-LLMs面臨的挑戰：

* 資料偏見：MM-LLMs的預訓練資料可能存在偏見，導緻模型的輸出結果也帶有偏見。

* 訓練成本：MM-LLMs的大規模預訓練需要巨大的計算和存儲資源，訓練成本高昂。

* 推理速度：MM-LLMs的推理過程通常比較慢，難以滿足實時應用的需求。來自騰訊公司、京都大學和中國科學院大學的研究團隊進行了全面的調查。概述了模型架構和訓練 pipeline 的一般設計方案。簡要介紹了 26 個現有的 MM-LLMs，每個模型都有其特定的建構方式。該項研究回顧了 MM-LLMs 在主流基準上的性能，總結了增強 MM-LLMs 性能的關鍵訓練方法。

2.SUPIR：智能、逼真圖像修複技術

SUPIR：突破性圖像複原方法

中國科學院大學和上海人工智能實驗室的研究團隊提出了一種名為 SUPIR（Scaling-UP Image Restoration）的突破性圖像複原方法。該方法利用生成先驗和模型擴充，在智能和逼真圖像複原方面取得了重大進步。

SUPIR 的優勢：

* 在經典圖像複原任務中，SUPIR 表現出優于現有方法的複原效果。

* SUPIR 具有通過文本提示修複圖像的新能力，可以根據使用者的需求生成逼真的圖像。

SUPIR 的出現，标志着圖像複原技術邁入了新階段，其将廣泛應用于圖像處理、計算機視覺和多媒體等領域。

3.CreativeSynth：基于多模态擴散的視覺藝術創意混合與合成

CreativeSynth：藝術圖像生成領域的統一架構

由中國科學院大學、中國科學院、位元組跳動和清華大學的研究團隊開發的 CreativeSynth，是一個創新架構，可将現實世界語義内容通過反轉和實時風格轉換導入藝術領域。該架構具備以下特點：

* 協調多模态輸入：同時處理文本、圖像和其他形式的輸入，生成藝術圖像。

* 執行多任務：支援多種藝術風格和内容的生成，包括油畫、水彩畫、素描等。

* 精确控制風格和内容：保持原始模型參數完整性的前提下，對圖像風格和内容進行精确操作。

CreativeSynth 在圖像生成領域取得了突破性進展，如：

* 在多個藝術圖像生成資料集上達到或超過最先進水準。

* 生成圖像品質顯著提高。

* 在保持原始模型參數完整性的同時對圖像風格和内容進行精确操作。

CreativeSynth 為藝術圖像生成領域的研究和應用提供了新的思路和工具，具有廣闊的應用前景。

4.清華新研究：讓GPT-3.5比肩GPT-4

ICE：人工智能智能體自适應性和靈活性的新政策

來自清華大學和中國人民大學的研究團隊及其合作者提出了一種名為 ICE 的新政策，該政策能夠顯著提升人工智能 (AI) 智能體的适應性和靈活性。ICE 在各種智能體任務中的表現可與原始的 GPT-4 媲美，但 API 調用減少了 80%，對模型能力的需求也大幅降低。

ICE 采用了一種新穎的“探索-鞏固-利用”政策，通過逐漸探索新的問題和任務，并不斷鞏固和利用之前學到的知識，實作智能體不斷提高其适應性和靈活性。這種政策使得 ICE 能夠在各種不同的環境和任務中快速适應并做出決策。

ICE 的關鍵優勢在于它能夠有效地使用模型參數，顯著降低對模型能力的需求。這使得 ICE 能夠在資源受限的環境中實作高性能，并可以部署在更廣泛的應用場景中。體任務中的性能與原始 GPT-4 不相上下。

5.WebVoyager：利用大型多模态模型建構端到端網絡智能體

WebVoyager：開創網絡智能體新時代

浙江大學、騰訊公司和西湖大學的研究團隊推出 WebVoyager，一種創新的大型多模态模型驅動的網絡智能體，以 85.3% 的一緻性完成了端到端使用者指令。

WebVoyager 在真實世界的網站上執行各種任務，例如搜尋資訊、預訂航班和購買商品。它的性能超過了傳統的基于規則的網絡智能體和基于強化學習的網絡智能體。

WebVoyager 的成功标志着網絡智能體領域的新時代，并有望在電子商務、線上教育和醫療保健等領域産生廣泛的應用。騰訊公司和西湖大學的研究團隊推出了一種創新的大型多模态模型（LMM）驅動的網絡智能體—— WebVoyager。它可以通過與真實世界的網站互動來完成端到端的使用者指令。WebVoyager 的自動評估與人類判斷的一緻性達到了 85.3%。

6.谷歌推出AI視訊生成器 Lumiere

* 谷歌推出 Lumiere，一種專為視訊生成的擴散模型。

* Lumiere 能夠通過在多個時空尺度上處理視訊，直接生成全幀率、低分辨率的視訊。

* Lumiere 能夠輕松促進包括文字到視訊、圖像到視訊、視訊修複和風格化生成等各種内容建立任務和視訊編輯應用。

* Lumiere 是一款功能強大且用途廣泛的視訊生成工具，可以為各種視訊創作和編輯應用提供支援。提出了一種專為視訊生成的擴散模型—— Lumiere。它能夠通過在多個時空尺度上處理視訊，直接生成全幀率、低分辨率的視訊；可以輕松促進包括文字到視訊、圖像到視訊、視訊修複和風格化生成等各種内容建立任務和視訊編輯應用。

7.ConTextual：評估大型多模态模型中對上下文敏感的富文本視覺推理

1. 評估 LMMs 執行複雜任務的基準：ConTextual

- 加州大學洛杉矶分校的研究團隊提出了 ConTextual，一個評估大型多模态模型（LMMs）執行上下文敏感文本豐富的視覺推理能力的基準。

2. -4Vision 整體性能落後于人類

- 表現最好的 LMM —— -4V(ision) 的整體性能仍然落後于人類。

3. 結論：LMMs 仍有提升空間

- LMMs 尚未完全掌握上下文敏感文本豐富的視覺推理能力，仍有提升空間。

8.AgentBoard：多輪LLM智能體分析評估架構

開創性評估架構 AgentBoard 助力大型語言模型智能體開發

香港大學、浙江大學、上海交通大學、清華大學的研究團隊及合作者，共同提出一個分析評估大型語言模型（LLM）智能體的開創性綜合基準和配套開源評估架構—— AgentBoard。

AgentBoard 在揭開智能體行為的神秘面紗和加速開發更強大的 LLM 智能體方面取得重大進展。該架構通過以下方式實作：

1. 提供19個評估任務，涵蓋語言、邏輯、數學和常識等領域；

2. 提出七個評估名額，從效率、有效性、穩健性等角度對智能體進行全面評估；

3. 開源評估代碼和資料，便于研究人員和從業者使用 AgentBoard。

AgentBoard 不僅對 LLM 智能體的評估提供了全面的方法和标準，而且推動了 LLM 智能體的開發和應用。體行為的神秘面紗和加速開發更強大的 LLM 智能體方面邁出了重要一步。

Meta-Prompting，單一模型可根據需求成為多領域專家，如法律、醫學和金融。這項技術由 OpenAI 和斯坦福大學提出，能夠讓大型語言模型無需額外訓練，僅需調整提示即可适應不同任務。該技術可廣泛應用于自然語言處理、代碼生成、問答等領域，為使用者提供更準确、更相關的資訊。

* 優化後的文章内容：

* Meta-Prompting：一種提升語言模型功能的有效腳手架技術。它将單個 LM 轉變為多功能的指揮者，擅長管理和整合多個獨立的 LM 查詢。

* 技術優勢：将外部工具（如 Python 解釋器）無縫整合到架構中，擴充了其适用性和實用性。

* 應用領域：廣泛，例如文本摘要、問題回答、代碼生成和翻譯等。

* 技術亮點：

* 1) 提出了一種統一的元提示架構，可在統一的架構下執行各種語言了解和生成任務。

* 2) 引入了外部工具（如 Python 解釋器）來增強模型的能力，進而實作更複雜的推理任務。

* 3) 在多個基準資料集上展示了該技術在各種任務上的有效性，包括文本摘要、問題回答、代碼生成和翻譯等。來自 OpenAI 和斯坦福的研究團隊提出了一種旨在提升語言模型（LM）功能的有效腳手架（scaffolding）技術—— Meta-Prompting。它将單一的 LM 轉變為多功能的指揮者，擅長管理和整合多個獨立的 LM 查詢。研究團隊将外部工具（如 Python 解釋器）無縫整合到 meta-prompting 架構中，進而擴充了其适用性和實用性。

10.超越Stable Diffusion：擴散模型的大規模強化學習

* 利用強化學習改進擴散模型，顯著超過現有方法。

* 多樣的獎勵函數，如人類偏好、組合性和公平性。

* 更符合人類偏好，生成更加逼真和美觀的圖像。

* 可擴充算法，可用于各種擴散模型。

* 開源代碼，便于研究人員和開發人員使用。

11.搞定logo設計，港科大提出AI輔助工具TypeDance

- 突破性創造： TypeDance 引入獨特且全面的設計工作流程，無縫融合創意構思、選擇、生成、評估和疊代等環節，確定 Logo 設計過程更高效且智能。

- 個性化語義排版： TypeDance 以個性化語義排版為核心，通過語義分析和機器學習算法，自動建立與企業形象和資訊高度比對的 Logo 排版。

- 雙任務使用者評估：采用模仿和創作兩個使用者評估任務，TypeDance 在不同應用場景下展現出強大的設計實用性和可用性，證明其在 Logo 設計領域的價值。

- 實用與可用性：實際應用中，TypeDance 可幫助多樣化閱聽人群體輕松建立多種風格的 Logo 設計，從簡約現代到創意前衛，應有盡有。仿和創作在内的雙任務使用者評估，證明了 TypeDance 在不同應用場景下的設計實用性和可用性。

12.OK-Robot：基于開放知識的新型機器人架構

OK-Robot：一個突破性的開放知識機器人架構

來自紐約大學和 Meta 公司的研究團隊共同開發了 OK-Robot，這是一個全新的開放知識機器人架構。它将視覺-語言模型（VLMs）、導航原語和抓取原語結合起來，形成了一個無需訓練的內建解決方案，用于物品的取放操作。

OK-Robot 在開放式取放任務中取得了 58.5% 的成功率，代表了開放詞彙移動操作（OVMM）領域的最新技術水準，其性能是之前工作的近 1.8 倍。在更幹淨整潔的環境中，OK-Robot 的性能提高到了 82%，證明了其在現實世界中的實用性。

OK-Robot 有以下幾個特點：

* 無需訓練：OK-Robot 無需任何訓練即可執行取放操作，這使其成為一種非常靈活和适應性強的工具。

* 開放式詞彙：OK-Robot 可以了解和執行各種各樣的指令，包括那些使用自然語言表述的指令。

* 視覺-語言融合：OK-Robot 可以将視覺資訊與語言指令結合起來，進而更好地了解和執行任務。

OK-Robot 的應用前景非常廣闊，它可以被用于各種各樣的場景，包括家庭、辦公室、醫院和倉庫等。它可以幫助人們完成各種各樣的任務，包括整理物品、清潔房間、準備食物和送貨上門等。是之前工作的近 1.8 倍。在更幹淨整潔的環境中，OK-Robot 的性能提高到了 82%。

，時長01:16

13.SpatialVLM：教視覺語言模型學會空間推理

自動生成 3D 空間 VQA 資料集，助力空間視覺語言模型 (VLM) 發展

- 研究團隊開發了自動 3D 空間 VQA 資料生成架構，在 1000 萬張真實世界圖像上生成了 20 億個 VQA 示例。

- SpatialVLM 特色：網際網路規模的度量空間 3D 空間推理資料集。

- 在此資料上訓練 VLM，極大提高了 VLM 在定性和定量空間 VQA 的能力。

14.WARM：提高LLM預測的整體品質和對齊

使用權重平均獎勵模型（WARM）解決強化學習中的獎勵破解問題

背景：

在人類回報的強化學習（RLHF）中，大型語言模型（LLMs）利用獎勵模型（RM）中的失誤，獲得看似很高的獎勵，卻沒有達到基本目标，這被稱為“獎勵破解”。

方法：

谷歌研究團隊提出了權重平均獎勵模型（WARM），該模型通過對多個 RM 的預測結果進行權重平均，來提高 LLM 預測的準确性和一緻性。

結果：

實驗表明，WARM 提高了 LLM 預測的整體品質和一緻性。例如，使用 WARM 進行微調的政策 RL 與使用單一 RM 進行微調的政策 RL 相比，勝率高達 79.4%。

結論：

WARM 有效地解決了 RLHF 中的獎勵破解問題，并提高了 LLM 預測的品質和一緻性，為 RLHF 的進一步發展提供了新的思路和方法。來自谷歌公司的研究團隊提出了權重平均獎勵模型（WARM）。實驗表明，WARM 提高了 LLM 預測的整體品質和一緻性；例如，使用 WARM 進行微調的政策 RL 與使用單一 RM 進行微調的政策 RL 相比，勝率高達 79.4%。

15.PhotoMaker：一種高效個性化定制人像照片的文生圖模型

PhotoMaker：高效的個性化文本生成圖像方法

研究團隊：南開大學、騰訊公司和東京大學

核心創新：

* 提出一種高效的個性化文本生成圖像方法—— PhotoMaker。

* PhotoMaker 采用堆疊的 ID 嵌入來保留 ID 資訊，作為統一的 ID 表示。

* 該嵌入能夠全面封裝相同輸入 ID 的特征，并容納不同 ID 的特征以供後續整合。

應用前景：

* 為更多有趣且具有實際價值的應用提供可能。騰訊公司和東京大學的研究團隊提出了一種高效的個性化文本生成圖像方法—— PhotoMaker。PhotoMaker 能夠将任意數量的輸入 ID 圖像編碼成一個堆疊的 ID 嵌入，以保留 ID 資訊。作為一個統一的 ID 表示，這種嵌入不僅能夠全面封裝相同輸入 ID 的特征，還能夠容納不同 ID 的特征以供後續整合。這為更多有趣且具有實際價值的應用提供可能。

多模态大型語言模型的最新進展,看看最新的研究成果

繼續閱讀

龍芯大秀工業生态成果：73家新品齊發、開源鴻蒙好朋友

終端AI分級标準落地，手機大模型“戰火”燒到了智能體

J Clin Invest丨楊偉莉/李世華/李曉江團隊利用猴模型揭示帕金森疾病新病理機制

投資番禺永遠正當時！外資企業在番禺40年成果豐碩

大模型訓練遭投毒損失千萬美元？Anthropic發現LLM代碼庫暗藏bug

全市近千名青少年齊聚中海博，在航海、航空、建築三大模型競賽中一展身手

DeepMind聯合MIT開發Fluid，讓自回歸模型實作文生圖的大規模擴充

杜彙良在達拉特旗、杭錦旗調研鞏固拓展脫貧攻堅成果同鄉村振興有效銜接工作

AI周報 | 位元組跳動大模型訓練被“投毒”；微軟将終止中國個人Azure OpenAI服務

區級名單+4！泰達綠色制造取得新成果

前沿進展 | 激動人心的臨床成果：NICHE-3研究帶來dMMR結直腸癌治療的新希望！

位元組跳動回應大模型訓練被實習生攻擊：已被辭退，不影響線上業務

中醫藥領域卷出多個大模型，“AI老中醫”來了？

出手即王炸？照片級真實度生成式世界模型，還獲得皮克斯投資

騰訊、華為等接入DeepSeek每月虧損超4億，MaaS模型即服務将要被颠覆了？｜钛媒體AGI

性趣機器人意外獲大模型賦能，成人用品概念股集體上漲，逆天了？