多模态大型语言模型的最新进展,看看最新的研究成果

1.综述：多模态大型语言模型的最新进展

多模态大语言模型：全面调查

* 概述了MM-LLMs的设计方案、训练方法和性能评估指标。

* 介绍26个MM-LLMs的构建方式、优缺点和应用领域。

* 分析了MM-LLMs在主流基准上的性能表现，提出增强MM-LLMs性能的关键训练方法。

MM-LLMs的优势：

* 大规模预训练：MM-LLMs使用海量多模态数据进行预训练，涵盖了文本、图像、音频等多种模态。

* 多模态表示学习：MM-LLMs能够学习和理解不同模态之间的关系和交互，提供多模态信息的统一表示。

* 广泛的应用：MM-LLMs在多模态机器翻译、多模态信息检索、多模态问答等任务中表现出色，推动了多模态人工智能的发展。

MM-LLMs面临的挑战：

* 数据偏见：MM-LLMs的预训练数据可能存在偏见，导致模型的输出结果也带有偏见。

* 训练成本：MM-LLMs的大规模预训练需要巨大的计算和存储资源，训练成本高昂。

* 推理速度：MM-LLMs的推理过程通常比较慢，难以满足实时应用的需求。来自腾讯公司、京都大学和中国科学院大学的研究团队进行了全面的调查。概述了模型架构和训练 pipeline 的一般设计方案。简要介绍了 26 个现有的 MM-LLMs，每个模型都有其特定的构建方式。该项研究回顾了 MM-LLMs 在主流基准上的性能，总结了增强 MM-LLMs 性能的关键训练方法。

2.SUPIR：智能、逼真图像修复技术

SUPIR：突破性图像复原方法

中国科学院大学和上海人工智能实验室的研究团队提出了一种名为 SUPIR（Scaling-UP Image Restoration）的突破性图像复原方法。该方法利用生成先验和模型扩展，在智能和逼真图像复原方面取得了重大进步。

SUPIR 的优势：

* 在经典图像复原任务中，SUPIR 表现出优于现有方法的复原效果。

* SUPIR 具有通过文本提示修复图像的新能力，可以根据用户的需求生成逼真的图像。

SUPIR 的出现，标志着图像复原技术迈入了新阶段，其将广泛应用于图像处理、计算机视觉和多媒体等领域。

3.CreativeSynth：基于多模态扩散的视觉艺术创意混合与合成

CreativeSynth：艺术图像生成领域的统一框架

由中国科学院大学、中国科学院、字节跳动和清华大学的研究团队开发的 CreativeSynth，是一个创新框架，可将现实世界语义内容通过反转和实时风格转换导入艺术领域。该框架具备以下特点：

* 协调多模态输入：同时处理文本、图像和其他形式的输入，生成艺术图像。

* 执行多任务：支持多种艺术风格和内容的生成，包括油画、水彩画、素描等。

* 精确控制风格和内容：保持原始模型参数完整性的前提下，对图像风格和内容进行精确操作。

CreativeSynth 在图像生成领域取得了突破性进展，如：

* 在多个艺术图像生成数据集上达到或超过最先进水平。

* 生成图像质量显著提高。

* 在保持原始模型参数完整性的同时对图像风格和内容进行精确操作。

CreativeSynth 为艺术图像生成领域的研究和应用提供了新的思路和工具，具有广阔的应用前景。

4.清华新研究：让GPT-3.5比肩GPT-4

ICE：人工智能智能体自适应性和灵活性的新策略

来自清华大学和中国人民大学的研究团队及其合作者提出了一种名为 ICE 的新策略，该策略能够显著提升人工智能 (AI) 智能体的适应性和灵活性。ICE 在各种智能体任务中的表现可与原始的 GPT-4 媲美，但 API 调用减少了 80%，对模型能力的需求也大幅降低。

ICE 采用了一种新颖的“探索-巩固-利用”策略，通过逐步探索新的问题和任务，并不断巩固和利用之前学到的知识，实现智能体不断提高其适应性和灵活性。这种策略使得 ICE 能够在各种不同的环境和任务中快速适应并做出决策。

ICE 的关键优势在于它能够有效地使用模型参数，显著降低对模型能力的需求。这使得 ICE 能够在资源受限的环境中实现高性能，并可以部署在更广泛的应用场景中。体任务中的性能与原始 GPT-4 不相上下。

5.WebVoyager：利用大型多模态模型构建端到端网络智能体

WebVoyager：开创网络智能体新时代

浙江大学、腾讯公司和西湖大学的研究团队推出 WebVoyager，一种创新的大型多模态模型驱动的网络智能体，以 85.3% 的一致性完成了端到端用户指令。

WebVoyager 在真实世界的网站上执行各种任务，例如搜索信息、预订航班和购买商品。它的性能超过了传统的基于规则的网络智能体和基于强化学习的网络智能体。

WebVoyager 的成功标志着网络智能体领域的新时代，并有望在电子商务、在线教育和医疗保健等领域产生广泛的应用。腾讯公司和西湖大学的研究团队推出了一种创新的大型多模态模型（LMM）驱动的网络智能体—— WebVoyager。它可以通过与真实世界的网站交互来完成端到端的用户指令。WebVoyager 的自动评估与人类判断的一致性达到了 85.3%。

6.谷歌推出AI视频生成器 Lumiere

* 谷歌推出 Lumiere，一种专为视频生成的扩散模型。

* Lumiere 能够通过在多个时空尺度上处理视频，直接生成全帧率、低分辨率的视频。

* Lumiere 能够轻松促进包括文字到视频、图像到视频、视频修复和风格化生成等各种内容创建任务和视频编辑应用。

* Lumiere 是一款功能强大且用途广泛的视频生成工具，可以为各种视频创作和编辑应用提供支持。提出了一种专为视频生成的扩散模型—— Lumiere。它能够通过在多个时空尺度上处理视频，直接生成全帧率、低分辨率的视频；可以轻松促进包括文字到视频、图像到视频、视频修复和风格化生成等各种内容创建任务和视频编辑应用。

7.ConTextual：评估大型多模态模型中对上下文敏感的富文本视觉推理

1. 评估 LMMs 执行复杂任务的基准：ConTextual

- 加州大学洛杉矶分校的研究团队提出了 ConTextual，一个评估大型多模态模型（LMMs）执行上下文敏感文本丰富的视觉推理能力的基准。

2. -4Vision 整体性能落后于人类

- 表现最好的 LMM —— -4V(ision) 的整体性能仍然落后于人类。

3. 结论：LMMs 仍有提升空间

- LMMs 尚未完全掌握上下文敏感文本丰富的视觉推理能力，仍有提升空间。

8.AgentBoard：多轮LLM智能体分析评估框架

开创性评估框架 AgentBoard 助力大型语言模型智能体开发

香港大学、浙江大学、上海交通大学、清华大学的研究团队及合作者，共同提出一个分析评估大型语言模型（LLM）智能体的开创性综合基准和配套开源评估框架—— AgentBoard。

AgentBoard 在揭开智能体行为的神秘面纱和加速开发更强大的 LLM 智能体方面取得重大进展。该框架通过以下方式实现：

1. 提供19个评估任务，涵盖语言、逻辑、数学和常识等领域；

2. 提出七个评估指标，从效率、有效性、稳健性等角度对智能体进行全面评估；

3. 开源评估代码和数据，便于研究人员和从业者使用 AgentBoard。

AgentBoard 不仅对 LLM 智能体的评估提供了全面的方法和标准，而且推动了 LLM 智能体的开发和应用。体行为的神秘面纱和加速开发更强大的 LLM 智能体方面迈出了重要一步。

Meta-Prompting，单一模型可根据需求成为多领域专家，如法律、医学和金融。这项技术由 OpenAI 和斯坦福大学提出，能够让大型语言模型无需额外训练，仅需调整提示即可适应不同任务。该技术可广泛应用于自然语言处理、代码生成、问答等领域，为用户提供更准确、更相关的信息。

* 优化后的文章内容：

* Meta-Prompting：一种提升语言模型功能的有效脚手架技术。它将单个 LM 转变为多功能的指挥者，擅长管理和整合多个独立的 LM 查询。

* 技术优势：将外部工具（如 Python 解释器）无缝整合到框架中，扩展了其适用性和实用性。

* 应用领域：广泛，例如文本摘要、问题回答、代码生成和翻译等。

* 技术亮点：

* 1) 提出了一种统一的元提示框架，可在统一的框架下执行各种语言理解和生成任务。

* 2) 引入了外部工具（如 Python 解释器）来增强模型的能力，从而实现更复杂的推理任务。

* 3) 在多个基准数据集上展示了该技术在各种任务上的有效性，包括文本摘要、问题回答、代码生成和翻译等。来自 OpenAI 和斯坦福的研究团队提出了一种旨在提升语言模型（LM）功能的有效脚手架（scaffolding）技术—— Meta-Prompting。它将单一的 LM 转变为多功能的指挥者，擅长管理和整合多个独立的 LM 查询。研究团队将外部工具（如 Python 解释器）无缝整合到 meta-prompting 框架中，从而扩展了其适用性和实用性。

10.超越Stable Diffusion：扩散模型的大规模强化学习

* 利用强化学习改进扩散模型，显著超过现有方法。

* 多样的奖励函数，如人类偏好、组合性和公平性。

* 更符合人类偏好，生成更加逼真和美观的图像。

* 可扩展算法，可用于各种扩散模型。

* 开源代码，便于研究人员和开发人员使用。

11.搞定logo设计，港科大提出AI辅助工具TypeDance

- 突破性创造： TypeDance 引入独特且全面的设计工作流程，无缝融合创意构思、选择、生成、评估和迭代等环节，确保 Logo 设计过程更高效且智能。

- 个性化语义排版： TypeDance 以个性化语义排版为核心，通过语义分析和机器学习算法，自动创建与企业形象和信息高度匹配的 Logo 排版。

- 双任务用户评估：采用模仿和创作两个用户评估任务，TypeDance 在不同应用场景下展现出强大的设计实用性和可用性，证明其在 Logo 设计领域的价值。

- 实用与可用性：实际应用中，TypeDance 可帮助多样化受众群体轻松创建多种风格的 Logo 设计，从简约现代到创意前卫，应有尽有。仿和创作在内的双任务用户评估，证实了 TypeDance 在不同应用场景下的设计实用性和可用性。

12.OK-Robot：基于开放知识的新型机器人框架

OK-Robot：一个突破性的开放知识机器人框架

来自纽约大学和 Meta 公司的研究团队共同开发了 OK-Robot，这是一个全新的开放知识机器人框架。它将视觉-语言模型（VLMs）、导航原语和抓取原语结合起来，形成了一个无需训练的集成解决方案，用于物品的取放操作。

OK-Robot 在开放式取放任务中取得了 58.5% 的成功率，代表了开放词汇移动操作（OVMM）领域的最新技术水平，其性能是之前工作的近 1.8 倍。在更干净整洁的环境中，OK-Robot 的性能提高到了 82%，证明了其在现实世界中的实用性。

OK-Robot 有以下几个特点：

* 无需训练：OK-Robot 无需任何训练即可执行取放操作，这使其成为一种非常灵活和适应性强的工具。

* 开放式词汇：OK-Robot 可以理解和执行各种各样的指令，包括那些使用自然语言表述的指令。

* 视觉-语言融合：OK-Robot 可以将视觉信息与语言指令结合起来，从而更好地理解和执行任务。

OK-Robot 的应用前景非常广阔，它可以被用于各种各样的场景，包括家庭、办公室、医院和仓库等。它可以帮助人们完成各种各样的任务，包括整理物品、清洁房间、准备食物和送货上门等。是之前工作的近 1.8 倍。在更干净整洁的环境中，OK-Robot 的性能提高到了 82%。

，时长01:16

13.SpatialVLM：教视觉语言模型学会空间推理

自动生成 3D 空间 VQA 数据集，助力空间视觉语言模型 (VLM) 发展

- 研究团队开发了自动 3D 空间 VQA 数据生成框架，在 1000 万张真实世界图像上生成了 20 亿个 VQA 示例。

- SpatialVLM 特色：互联网规模的度量空间 3D 空间推理数据集。

- 在此数据上训练 VLM，极大提高了 VLM 在定性和定量空间 VQA 的能力。

14.WARM：提高LLM预测的整体质量和对齐

使用加权平均奖励模型（WARM）解决强化学习中的奖励破解问题

背景：

在人类反馈的强化学习（RLHF）中，大型语言模型（LLMs）利用奖励模型（RM）中的失误，获得看似很高的奖励，却没有达到基本目标，这被称为“奖励破解”。

方法：

谷歌研究团队提出了加权平均奖励模型（WARM），该模型通过对多个 RM 的预测结果进行加权平均，来提高 LLM 预测的准确性和一致性。

结果：

实验表明，WARM 提高了 LLM 预测的整体质量和一致性。例如，使用 WARM 进行微调的策略 RL 与使用单一 RM 进行微调的策略 RL 相比，胜率高达 79.4%。

结论：

WARM 有效地解决了 RLHF 中的奖励破解问题，并提高了 LLM 预测的质量和一致性，为 RLHF 的进一步发展提供了新的思路和方法。来自谷歌公司的研究团队提出了加权平均奖励模型（WARM）。实验表明，WARM 提高了 LLM 预测的整体质量和一致性；例如，使用 WARM 进行微调的策略 RL 与使用单一 RM 进行微调的策略 RL 相比，胜率高达 79.4%。

15.PhotoMaker：一种高效个性化定制人像照片的文生图模型

PhotoMaker：高效的个性化文本生成图像方法

研究团队：南开大学、腾讯公司和东京大学

核心创新：

* 提出一种高效的个性化文本生成图像方法—— PhotoMaker。

* PhotoMaker 采用堆叠的 ID 嵌入来保留 ID 信息，作为统一的 ID 表示。

* 该嵌入能够全面封装相同输入 ID 的特征，并容纳不同 ID 的特征以供后续整合。

应用前景：

* 为更多有趣且具有实际价值的应用提供可能。腾讯公司和东京大学的研究团队提出了一种高效的个性化文本生成图像方法—— PhotoMaker。PhotoMaker 能够将任意数量的输入 ID 图像编码成一个堆叠的 ID 嵌入，以保留 ID 信息。作为一个统一的 ID 表示，这种嵌入不仅能够全面封装相同输入 ID 的特征，还能够容纳不同 ID 的特征以供后续整合。这为更多有趣且具有实际价值的应用提供可能。

多模态大型语言模型的最新进展,看看最新的研究成果

继续阅读

龙芯大秀工业生态成果：73家新品齐发、开源鸿蒙好朋友

终端AI分级标准落地，手机大模型“战火”烧到了智能体

J Clin Invest丨杨伟莉/李世华/李晓江团队利用猴模型揭示帕金森疾病新病理机制

投资番禺永远正当时！外资企业在番禺40年成果丰硕

大模型训练遭投毒损失千万美元？Anthropic发现LLM代码库暗藏bug

全市近千名青少年齐聚中海博，在航海、航空、建筑三大模型竞赛中一展身手

DeepMind联合MIT开发Fluid，让自回归模型实现文生图的大规模扩展

杜汇良在达拉特旗、杭锦旗调研巩固拓展脱贫攻坚成果同乡村振兴有效衔接工作

AI周报 | 字节跳动大模型训练被“投毒”；微软将终止中国个人Azure OpenAI服务

区级名单+4！泰达绿色制造取得新成果

前沿进展 | 激动人心的临床成果：NICHE-3研究带来dMMR结直肠癌治疗的新希望！

字节跳动回应大模型训练被实习生攻击：已被辞退，不影响线上业务

中医药领域卷出多个大模型，“AI老中医”来了？

出手即王炸？照片级真实度生成式世界模型，还获得皮克斯投资

腾讯、华为等接入DeepSeek每月亏损超4亿，MaaS模型即服务将要被颠覆了？｜钛媒体AGI

性趣机器人意外获大模型赋能，成人用品概念股集体上涨，逆天了？