天天看点

大模型晚报|Snap团队最新AI研究成果:2秒文字成图,手机上运行

作者:品玩

大模型资讯:

Snap团队最新AI研究成果:2秒文字成图,手机上运行

据 arxiv上的一篇论文显示,一款名为 SnapFusion 的图片生成模型现已进入测试阶段。据悉,该模型开发团队的大部分人员均来自snap。

SnapFusion 可以在移动设备上使用,能在不到2秒的时间内生成一张512x512的高质量图片。与传统的文生图模型相比,SnapFusion 的生成速度快且质量高,同时避免了高端GPU和云推理这些成本高昂的方式,也规避了可能出现的隐私问题。

目前SnapFusion 已经进入实测环节。根据测试画面显示,SnapFusion 可以在极快的时间内按照文本要求生成不同的图片。用户可以根据自己的需求来改善图片内的内容,并且拥有不同的风格可供选择。目前SnapFusion 还没有正式发布,具体发布日期尚未公布。

Bing Chat再次放宽限制,提高单次会话上限

微软搜索和人工智能副总裁 Jordi Ribas今天在推特上表示,Bing Chat再次放宽用户的使用限制。

Ribas 表示,即日起,Bing Chat 允许用户每次进行三十轮对话,每天的对话上限也提升到三百轮。

硅谷知名产品经理Peter Deng加盟 OpenAI

据领英页面显示,硅谷知名产品经理Peter Deng现已加 OpenAI,担任消费产品副总裁一职。

Peter Deng毕业于斯坦福大学,先后任职微软、谷歌、Facebook、Uber等公司。在facebook任职期间,Peter Deng 曾先后负责过Instagram和Oculus,被称为facebook的产品明星。

加入OpenAI之后,他将负责ChatGPT的产品、设计和工程团队。

富士通发布AI平台FujitsuKozuchi

富士通发布AI平台“Fujitsu Kozuchi”,将面向全球企业用户提供一系列AI(人工智能)与ML(机器学习)技术。

该平台整合了多种解决方案与工具,包括能够自动生成机器学习模型的Fujitsu AutoML解决方案;用于测试AI模型公平性的Fujitsu AI Ethics for Fairness;用于从各种数据中挖掘复杂因果关系的因果发现技术;用于模拟科学发现过程的Fujitsu Wide Learning;以及支持对合作伙伴公司开源软件(OSS)和AI技术的简化访问。

微软与初创公司CoreWeave签署AI算力协议,价值或达数十亿美元

微软与初创公司CoreWeave签署AI算力协议,同意在未来数年内向CoreWeave投资数十亿美元,用于云计算基础设施建设。

据悉,微软今年早些时候与CoreWeave签署了协议,以确保运营ChatGPT的OpenAI未来拥有足够的算力。OpenAI依赖微软的Azure云来满足其庞大的计算需求。

CoreWeave周三宣布,已获得2亿美元融资。就在一个多月前,该公司获得了20亿美元的估值。

苹果正招募新软件工程师,或在混合现实场景中推出生成式 AI

据 Mark Gurman 表示,苹果目前正在招募新的软件工程师,要求生成式 AI 和混合现实两个领域都有建树。

目前苹果已经在招聘网页中更新了职位要求。据Gurman 表示:“苹果正招募新的软件工程师,要求熟悉‘对话和生成式 AI’开发的人员,并暗示会借助生成式 AI 的力量,加速为头显设备创建 AR / VR 应用程序”。

AssemblyAI 推出新模型 LeMUR,可对录音进行处理

据机器之心报道,语音识别 AI 公司 AssemblyAI 推出了一个名为 LeMUR 的新模型,可以对长达 10 小时的录音进行转录、处理。

据悉,LeMUR可以处理完录音之后,帮用户总结语音中的核心内容,并回答用户输入的问题。LeMUR可以将 10 小时的音频内容转化为约 15 万个 token。相比之下,现成的、普通的 LLM 只能在其上下文窗口的限制范围内容纳最多 8K 或约 45 分钟的转录音频。

目前,LeMUR 已经开放试用,可惜的是,这款模型目前还不支持中文。

三六零参与编写中国大模型应用标准,360智脑应用入选标杆案例

近日,杭州通用人工智能论坛暨AIIA人工智能产业发展大会召开。三六零集团受邀参会,将参与编写中国大模型应用标准,“360智脑”的应用“图查查”被评为生成式人工智能技术和应用优秀案例。

据了解,AIIA代表国家推动AI产业发展,是中国人工智能“国家队”,三六零集团作为AIIA副理事单位,共同承担“国家队”使命。AIIA成立于2017年,由国家发改委和科技部等部委联合指导,中国信通院等单位牵头、全国200余家人工智能相关企业机构共同发起组建。

日本隐私监管机构警告OpenAI:不得未经允许收集用户敏感数据

据界面新闻报道,日本隐私监管机构周五表示,该机构已向OpenAI公司发出警告,不得在未经用户允许的情况下收集敏感数据。

日本个人信息保护委员会在一份声明中指出,OpenAI应尽量减少其为机器学习而收集的敏感数据。声明提到,如果存在更多担忧,该机构可能会采取进一步行动。

日本个人信息保护委员会还表示,有必要平衡隐私问题和生成式AI的潜在好处,包括加速创新和处理气候变化等问题。

GPT-4变笨?OpenAI回应:稳定性不足,但外部数据没有污染模型

据财联社报道,随着GPT-4的应用越来越广泛,有大量用户反馈近期大模型的回答质量有所下降,尤其在程序生成方面,GPT-4目前生成的代码时常出现错误。

对此,OpenAI开发者推广大使Logan Kilpatrick表示,自3月14日发布GPT-4以来,大模型的本体一直处于静态,不存在大量外部数据污染模型的情况。他也承认,由于大模型本身存在不稳定性,因此对于相通的提示词,大模型存在回答前后不一致的情况。

重点论文:

OpenAI 最新研究:减轻ChatGPT幻觉、更好地对齐,要靠齐一步一步“过程监督”

OpenAI提出一种通过“过程监督”来提高ChatGPT等AI大模型数学推理能力的新方法,该方法不仅仅奖励正确的最终答案,而是奖励每个正确的推理步骤。相比结果监督,在解决对齐难题方面存在优势,可以更好地对齐思维链,并且更可能产生可解释的推理。OpenAI的研究人员在MATH测试集中评估过程监督和结果监督奖励模型,结果表明过程监督的奖励模型在整体上表现更好,也更加可靠。未来探索过程监督在其他领域中的影响的研究将至关重要。

论文链接:https://www.aminer.cn/pub/64781108b650407c48cfd9ba

闭源大语言模型的对抗蒸馏

由香港科技大学提出的针对闭源大语言模型的对抗蒸馏框架,成功将ChatGPT的知识转移到了参数量7B 的LLaMA模型(命名为 Lion),在只有70k训练数据的情况下,实现了近95%的ChatGPT能力近似。此外,框架的普适性使它不仅可以用于蒸馏ChatGPT,还可方便地适用于其他闭源 LLMs。

论文链接:https://arxiv.org/abs/2305.12870

SpecInfer:利用推测推理和令牌树验证加速生成LLM

生成大型语言模型 (LLM) 的高计算和内存需求使得快速和廉价地提供服务具有挑战性。本文介绍了 SpecInfer,一种 LLM 提供服务系统,通过 speculative 推断和 token 树验证来加速生成 LLM 的推断。SpecInfer 背后的关键是将各种共同提高的小语言模型结合起来,共同预测 LLM 的输出;预测组织成 token 树,每个节点代表一个候选 token 序列。使用一种新的基于树的并行解码机制,LLM 同时并行验证所有由 token 树表示的候选 token 序列的正确性。使用 LLM 作为 token 树验证者而不是增量解码器,SpecInfer 在为生成 LLM 提供服务时显著减少了端到端延迟和计算需求,同时证明了模型质量的保留。

论文链接:https://arxiv.org/abs/2305.09781

ChatGPT能写长篇小说了,ETH提出RecurrentGPT实现交互式超长文本生成

Transformer 的固定大小上下文使得 GPT 模型无法生成任意长的文本。在本文中,我们介绍了 RecurrentGPT,一个基于 RNN recurrence 机制的语言模拟物。RecurrentGPT 建立在大型语言模型 (LLM) 上,如 ChatGPT,并使用自然语言模拟 LSTM 的长短期记忆机制。在每个时间步上,RecurrentGPT 生成一篇文本,并更新其存储在硬盘和提示中的基于语言的长短期记忆。这种 recurrence 机制使得 RecurrentGPT 能够生成任意长度的文本,并且不会忘记。由于人类用户可以轻松地观察和编辑自然语言记忆,RecurrentGPT 是可解释的,并且能够进行交互式文本生成。RecurrentGPT 是下一代计算机辅助写作系统的第一步,超越了本地编辑建议。除了生成 AI 生成的内容 (AIGC) 外,我们还展示了 RecurrentGPT 如何使用作为直接与消费者交互的交互式小说。我们称之为“AI 作为内容”(AIAC),我们相信这是传统 AIGC 的下一个形式。我们还展示了使用 RecurrentGPT 创建个性化交互小说,直接与读者交互,而不是与作家交互。更广泛地说,RecurrentGPT 展示了从认知科学和深度学习中借用流行模型设计的想法对于提示 LLM 的实用性。

论文链接:https://arxiv.org/abs/2305.13304

BigTrans:增强100多种语言的多语言翻译能力的大型语言模型

大型语言模型 (LLMs) 在各种不同的自然语言之间展示了良好的翻译性能。然而,许多 LLMs 特别是开源的 LLMs,如 BLOOM 和 LLaMA,英语主导并支持只有几十种自然语言,使得 LLM 在语言翻译方面的潜力未被充分发掘。在此工作中,我们介绍了 BigTrans,它适应了只覆盖 20 种语言的 LLaMA,并增加了对超过 100 种语言的多语言翻译能力。BigTrans 建立在 LLaMA-13B 之上,并通过三步优化进行优化。首先,我们继续使用大规模的中文单语数据对 LLaMA 进行训练。其次,我们使用涵盖 102 种自然语言的大规模平行数据集继续训练模型。最后,我们使用多语言翻译指令对基础模型进行指导微调,从而产生了我们的大 trans 模型。在多语言翻译初步实验中,大 trans 在许多语言中与 ChatGPT 和 Google Translate 相当,甚至在 8 对语言中表现更好。我们发布了大 trans 模型,并希望它能促进研究进展。

论文链接:https://arxiv.org/abs/2305.18098