大模型晚报｜Snap团队最新AI研究成果：2秒文字成图，手机上运行

大模型资讯：

Snap团队最新AI研究成果：2秒文字成图，手机上运行

据 arxiv上的一篇论文显示，一款名为 SnapFusion 的图片生成模型现已进入测试阶段。据悉，该模型开发团队的大部分人员均来自snap。

SnapFusion 可以在移动设备上使用，能在不到2秒的时间内生成一张512x512的高质量图片。与传统的文生图模型相比，SnapFusion 的生成速度快且质量高，同时避免了高端GPU和云推理这些成本高昂的方式，也规避了可能出现的隐私问题。

目前SnapFusion 已经进入实测环节。根据测试画面显示，SnapFusion 可以在极快的时间内按照文本要求生成不同的图片。用户可以根据自己的需求来改善图片内的内容，并且拥有不同的风格可供选择。目前SnapFusion 还没有正式发布，具体发布日期尚未公布。

Bing Chat再次放宽限制，提高单次会话上限

微软搜索和人工智能副总裁 Jordi Ribas今天在推特上表示，Bing Chat再次放宽用户的使用限制。

Ribas 表示，即日起，Bing Chat 允许用户每次进行三十轮对话，每天的对话上限也提升到三百轮。

硅谷知名产品经理Peter Deng加盟 OpenAI

据领英页面显示，硅谷知名产品经理Peter Deng现已加 OpenAI，担任消费产品副总裁一职。

Peter Deng毕业于斯坦福大学，先后任职微软、谷歌、Facebook、Uber等公司。在facebook任职期间，Peter Deng 曾先后负责过Instagram和Oculus，被称为facebook的产品明星。

加入OpenAI之后，他将负责ChatGPT的产品、设计和工程团队。

富士通发布AI平台FujitsuKozuchi

富士通发布AI平台“Fujitsu Kozuchi”，将面向全球企业用户提供一系列AI（人工智能）与ML（机器学习）技术。

该平台整合了多种解决方案与工具，包括能够自动生成机器学习模型的Fujitsu AutoML解决方案；用于测试AI模型公平性的Fujitsu AI Ethics for Fairness；用于从各种数据中挖掘复杂因果关系的因果发现技术；用于模拟科学发现过程的Fujitsu Wide Learning；以及支持对合作伙伴公司开源软件（OSS）和AI技术的简化访问。

微软与初创公司CoreWeave签署AI算力协议，价值或达数十亿美元

微软与初创公司CoreWeave签署AI算力协议，同意在未来数年内向CoreWeave投资数十亿美元，用于云计算基础设施建设。

据悉，微软今年早些时候与CoreWeave签署了协议，以确保运营ChatGPT的OpenAI未来拥有足够的算力。OpenAI依赖微软的Azure云来满足其庞大的计算需求。

CoreWeave周三宣布，已获得2亿美元融资。就在一个多月前，该公司获得了20亿美元的估值。

苹果正招募新软件工程师,或在混合现实场景中推出生成式 AI

据 Mark Gurman 表示，苹果目前正在招募新的软件工程师，要求生成式 AI 和混合现实两个领域都有建树。

目前苹果已经在招聘网页中更新了职位要求。据Gurman 表示：“苹果正招募新的软件工程师，要求熟悉‘对话和生成式 AI’开发的人员，并暗示会借助生成式 AI 的力量，加速为头显设备创建 AR / VR 应用程序”。

AssemblyAI 推出新模型 LeMUR，可对录音进行处理

据机器之心报道，语音识别 AI 公司 AssemblyAI 推出了一个名为 LeMUR 的新模型，可以对长达 10 小时的录音进行转录、处理。

据悉，LeMUR可以处理完录音之后，帮用户总结语音中的核心内容，并回答用户输入的问题。LeMUR可以将 10 小时的音频内容转化为约 15 万个 token。相比之下，现成的、普通的 LLM 只能在其上下文窗口的限制范围内容纳最多 8K 或约 45 分钟的转录音频。

目前，LeMUR 已经开放试用，可惜的是，这款模型目前还不支持中文。

三六零参与编写中国大模型应用标准，360智脑应用入选标杆案例

近日，杭州通用人工智能论坛暨AIIA人工智能产业发展大会召开。三六零集团受邀参会，将参与编写中国大模型应用标准，“360智脑”的应用“图查查”被评为生成式人工智能技术和应用优秀案例。

据了解，AIIA代表国家推动AI产业发展，是中国人工智能“国家队”，三六零集团作为AIIA副理事单位，共同承担“国家队”使命。AIIA成立于2017年，由国家发改委和科技部等部委联合指导，中国信通院等单位牵头、全国200余家人工智能相关企业机构共同发起组建。

日本隐私监管机构警告OpenAI：不得未经允许收集用户敏感数据

据界面新闻报道，日本隐私监管机构周五表示，该机构已向OpenAI公司发出警告，不得在未经用户允许的情况下收集敏感数据。

日本个人信息保护委员会在一份声明中指出，OpenAI应尽量减少其为机器学习而收集的敏感数据。声明提到，如果存在更多担忧，该机构可能会采取进一步行动。

日本个人信息保护委员会还表示，有必要平衡隐私问题和生成式AI的潜在好处，包括加速创新和处理气候变化等问题。

GPT-4变笨？OpenAI回应：稳定性不足，但外部数据没有污染模型

据财联社报道，随着GPT-4的应用越来越广泛，有大量用户反馈近期大模型的回答质量有所下降，尤其在程序生成方面，GPT-4目前生成的代码时常出现错误。

对此，OpenAI开发者推广大使Logan Kilpatrick表示，自3月14日发布GPT-4以来，大模型的本体一直处于静态，不存在大量外部数据污染模型的情况。他也承认，由于大模型本身存在不稳定性，因此对于相通的提示词，大模型存在回答前后不一致的情况。

重点论文：

OpenAI 最新研究：减轻ChatGPT幻觉、更好地对齐，要靠齐一步一步“过程监督”

OpenAI提出一种通过“过程监督”来提高ChatGPT等AI大模型数学推理能力的新方法，该方法不仅仅奖励正确的最终答案，而是奖励每个正确的推理步骤。相比结果监督，在解决对齐难题方面存在优势，可以更好地对齐思维链，并且更可能产生可解释的推理。OpenAI的研究人员在MATH测试集中评估过程监督和结果监督奖励模型，结果表明过程监督的奖励模型在整体上表现更好，也更加可靠。未来探索过程监督在其他领域中的影响的研究将至关重要。

论文链接：https://www.aminer.cn/pub/64781108b650407c48cfd9ba

闭源大语言模型的对抗蒸馏

由香港科技大学提出的针对闭源大语言模型的对抗蒸馏框架，成功将ChatGPT的知识转移到了参数量7B 的LLaMA模型（命名为 Lion），在只有70k训练数据的情况下，实现了近95%的ChatGPT能力近似。此外，框架的普适性使它不仅可以用于蒸馏ChatGPT，还可方便地适用于其他闭源 LLMs。

论文链接：https://arxiv.org/abs/2305.12870

SpecInfer：利用推测推理和令牌树验证加速生成LLM

生成大型语言模型 (LLM) 的高计算和内存需求使得快速和廉价地提供服务具有挑战性。本文介绍了 SpecInfer，一种 LLM 提供服务系统，通过 speculative 推断和 token 树验证来加速生成 LLM 的推断。SpecInfer 背后的关键是将各种共同提高的小语言模型结合起来，共同预测 LLM 的输出;预测组织成 token 树，每个节点代表一个候选 token 序列。使用一种新的基于树的并行解码机制，LLM 同时并行验证所有由 token 树表示的候选 token 序列的正确性。使用 LLM 作为 token 树验证者而不是增量解码器，SpecInfer 在为生成 LLM 提供服务时显著减少了端到端延迟和计算需求，同时证明了模型质量的保留。

论文链接：https://arxiv.org/abs/2305.09781

ChatGPT能写长篇小说了，ETH提出RecurrentGPT实现交互式超长文本生成

Transformer 的固定大小上下文使得 GPT 模型无法生成任意长的文本。在本文中，我们介绍了 RecurrentGPT，一个基于 RNN recurrence 机制的语言模拟物。RecurrentGPT 建立在大型语言模型 (LLM) 上，如 ChatGPT，并使用自然语言模拟 LSTM 的长短期记忆机制。在每个时间步上，RecurrentGPT 生成一篇文本，并更新其存储在硬盘和提示中的基于语言的长短期记忆。这种 recurrence 机制使得 RecurrentGPT 能够生成任意长度的文本，并且不会忘记。由于人类用户可以轻松地观察和编辑自然语言记忆，RecurrentGPT 是可解释的，并且能够进行交互式文本生成。RecurrentGPT 是下一代计算机辅助写作系统的第一步，超越了本地编辑建议。除了生成 AI 生成的内容 (AIGC) 外，我们还展示了 RecurrentGPT 如何使用作为直接与消费者交互的交互式小说。我们称之为“AI 作为内容”(AIAC),我们相信这是传统 AIGC 的下一个形式。我们还展示了使用 RecurrentGPT 创建个性化交互小说，直接与读者交互，而不是与作家交互。更广泛地说，RecurrentGPT 展示了从认知科学和深度学习中借用流行模型设计的想法对于提示 LLM 的实用性。

论文链接：https://arxiv.org/abs/2305.13304

BigTrans：增强100多种语言的多语言翻译能力的大型语言模型

大型语言模型 (LLMs) 在各种不同的自然语言之间展示了良好的翻译性能。然而，许多 LLMs 特别是开源的 LLMs，如 BLOOM 和 LLaMA，英语主导并支持只有几十种自然语言，使得 LLM 在语言翻译方面的潜力未被充分发掘。在此工作中，我们介绍了 BigTrans，它适应了只覆盖 20 种语言的 LLaMA，并增加了对超过 100 种语言的多语言翻译能力。BigTrans 建立在 LLaMA-13B 之上，并通过三步优化进行优化。首先，我们继续使用大规模的中文单语数据对 LLaMA 进行训练。其次，我们使用涵盖 102 种自然语言的大规模平行数据集继续训练模型。最后，我们使用多语言翻译指令对基础模型进行指导微调，从而产生了我们的大 trans 模型。在多语言翻译初步实验中，大 trans 在许多语言中与 ChatGPT 和 Google Translate 相当，甚至在 8 对语言中表现更好。我们发布了大 trans 模型，并希望它能促进研究进展。

论文链接：https://arxiv.org/abs/2305.18098