天天看点

本周发布了哪些重要模型和应用?|智能周报(上)

作者:第一财经YiMagazine

撰文 :江睿杰、张司钰、陆彦君、徐弢、杨秋秋

编辑 :吴洋洋

OpenAI的AI搜索产品传了一周也没有真的发布,新的传闻称,它会在下周二之前发布该产品,因为周二就是Google的I/O开发者大会。而微软会在周四召开其Build开发者大会,这意味着,即使OpenAI到时不发布ChatGPT Search,下周也会充满交锋。

一些锋芒已经在本周释放。过去5天,全球有至少4个值得关注的模型发布,其中之一是DeepMind发布的AlphaFold 3,虽然在准确率上仍然可能赶不上人类科学家,但在预测维度上,它已远超人类。简单来说,这个能预测分子结构的模型在2018年刚刚面市时,还只能预测二维的蛋白质序列;3年后,它开始可以预测蛋白质的三维结构;又过了两年,2023年,它就可以预测比蛋白质更多的分子了,包括RNA以及小分子「配体」;现在,其最新模型不仅可以预测这些分子的结构,还能动态地预测这些分子间的相互作用。有了这个工具,新药研发的效率将大大提升,这会是一个价值千亿美元的生意。

在此简述一个分子结构预测模型的发展史,是想提醒有关AI的另一个事实:泡沫虽然存在,但创新远未停止。而且这种创新是各个维度上的。本周,一家叫「深度求索」的中国公司也发布了一个新模型,令人惊讶的是,其模型推理成本只有GPT-4的约1/100。除了这种成本上的改良,还有越来越多公司在尝试将AI应用于各个行业,比如游戏智能体公司Altera尝试为游戏公司开发能陪玩家玩游戏的AI;AI金融公司Daloopa尝试用AI从财务报告和投资者演示文稿中为分析师提取和组织数据;合同自动化公司Lexion可以让法律、销售、IT、人力资源和财务等部门的人都可以用它创建专业文档,并使用自然语言就文档内容提问;Rad AI的新产品则可以自动识别需要后续跟踪健康状态的患者,并通过电子邮件、短信或移动电话提醒患者及时复查。

当然,技术上和应用上的进步越快,来自现实的规范和压力也越大。本周,TikTok宣布将推出AI自动标记功能,以确保其识别为AI生成视频的内容得到相应标记,成为全球第一个自动标记AI生成内容的社交媒体平台;OpenAI也发布了AI检测工具,能识别某张图片是否由其DALL·E 3模型生成。

这些规范对行业来说是好消息,不过来自政府的管制就不一定了。本周,有消息称,美国政府正在考虑采取新的监管措施,限制专有或闭源人工智能模型的出口,并初步计划限制中国对包括ChatGPT在内的先进AI模型的访问权限,尤其涉及到如果AI能够被用来设计制造生物武器所需要的蛋白质——这恰恰是DeepMind本周发布的Alphafold系列模型有能力做的事。如果这些模型被限制出口,从事AI4Science(AI for Science)研究的团队可能会受到冲击。

再次,由于篇幅,我们的周报会分为上下两篇,上篇关注新模型和新应用,下篇关注新融资和一些公司动态。以下为上篇。

Key Points

新模型

AlphaFold 3发布,一个1000亿美元的生意来了;

微软自研5000亿参数大模型MAI-1,由Inflection创始人挂帅;

阿里云发布通义千问2.5,对标GPT-4 Turbo;

「深度求索」发布低成本模型DeepSeek-V2,API价格只有GPT-4的1/100;

Hugging Face发布机器人开源代码;

新应用

Google尝试让iPhone用户也用上Circle to Search;

Grok AI在X中总结新闻;

TikTok将自动标记AI生成内容;

OpenAI发布AI检测器。

新模型

AlphaFold 3发布,一个1000亿美元的生意来了

5月9日,Google DeepMind和Isomorphic Labs发布了一个用于药物研发的新AI模型AlphaFold 3,它能够精确预测蛋白质、DNA、RNA,以及小分子配体(许多药物属于这一类)等分子的结构及其相互作用。

AlphaFold 1能预测二维结构,AlphaFold 2能预测三维结构

2018年,AlphaFold 1是DeepMind的第一个尝试,它通过深度学习来预测蛋白质的三维结构,在43种蛋白质中成功预测了25种蛋白质的结构。不过这种预测都是二维的「接触图」——这种图是一个二维矩阵,只告诉研究人员哪些氨基酸是相邻的,并标注了这种连接,但不会告知这些氨基酸的具体位置或它们之间的确切距离。

2021年,DeepMind发布AlphaFold 2,通过引入一个全新的模型结构,它不再预测接触图,而是可以直接预测蛋白质的3D结构。但AlphaFold 2的局限性之一是它无法预测在真实世界中两个可以相互作用的蛋白的相互作用能力,此次发布的AlphaFold 3解决了这个问题。

AlphaFold-latest除了蛋白质,还能预测其他分子

2023年10月,DeepMind发布AlphaFold-latest。「新皮层」曾报道,与AlphaFold 2相比,AlphaFold-latest除了提高蛋白质结构预测的准确性,还扩大了可预测范围——除了蛋白质折叠,新版本还可以预测配体(与「受体」蛋白结合并导致细胞通讯方式发生变化的分子)的结构、核酸(DNA和RNA)和含有翻译后修饰(PTM)的分子。

AlphaFold 3不仅能预测分子结构,还能预测其相互作用

此次发布的AlphaFold 3主要进步在于能够预测分子间的相互作用。AlphaFold 3发布后, DeepMind CEO Hassabis对媒体称,「生物学是一个动态系统,生物学特性是通过细胞中不同分子之间的相互作用而显现出来的」。这意味着在基因组学研究中,AlphaFold 3可以展示DNA或RNA片段如何通过特定的化学变化影响细胞功能,从而促进基因活性的精准调控、预防和治疗基因表达失调相关的疾病。

论文显示,这次AlphaFold 3的升级,主要是加入了Diffusion Model(扩散模型),目前的图像生成模型大多使用了这一技术,包括Midjourney、Runway和Sora。

Hassabis在接受彭博社采访时称,通过加速生物学科研,AlphaFold 3将打开超过1000亿美元的药物研发市场。「新皮层」曾报道,DeepMind于2021年成立药物发现公司Isomorphic(「同构」,意思是信息系统和生物系统可能具有共同结构),今年1月8日,Isomorphic Labs宣布已与制药巨头礼来和诺华达成战略合作,将应用AI来发现治疗疾病的新药。

参考链接:

https://blog.google/technology/ai/google-deepmind-isomorphic-alphafold-3-ai-model/#future-cell-biology

微软自研5000亿参数大模型MAI-1,

由Inflection创始人挂帅

5月6日,有报道称微软正在内部训练一个名为MAI-1的大语言模型,以期与OpenAI和Google的最强模型竞争。

据报道,MAI-1拥有5000亿个参数,而OpenAI主推产品GPT-4以及Google旗下Gemini的参数量估计都超过1.5万亿个。该模型整体规模小于竞争对手,但已是微软内部自行开发的最大模型。

本周发布了哪些重要模型和应用?|智能周报(上)

由于微软是OpenAI最大的外部投资者,微软的人工智能应用长期基于GPT-4部署,自身只开发过一些小模型,比如上月发布的Phi-3-mini,仅有38亿个参数。

MAI-1的开发由新近加入微软的苏莱曼(Mustafa Suleyman)挂帅,他是DeepMind和AI初创公司Inflection的联合创始人。「新皮层」曾报道,3月,微软以6.5亿美元购买Inflection的知识产权并雇用其大部分员工为自己服务,苏莱曼也在其中。苏莱曼本身的业务背景偏重产品而非技术,当时微软宣称苏莱曼将组建一个名为Microsoft AI的新团队,专注推进微软AI助手应用Copilot和其他消费AI产品及相关研究。微软新模型据悉并非直接继承自Inflection的模型Pi,但有可能建立在该公司的训练数据之上。

本月下旬,微软将举办2024年开发者大会,MAI-1最早有可能在该活动上首次对外展示,不过其确切用途未定。

参考链接:

https://www.theinformation.com/articles/meet-mai-1-microsoft-readies-new-ai-model-to-compete-with-google-openai

阿里云发布通义千问2.5,

对标GPT-4 Turbo

5月9日,阿里云发布通义千问2.5大模型,开源了1100亿参数模型Qwen1.5-110B,并宣布将「通义千问」App更名为「通义」。

通义千问2.5对标GPT-4 Turbo

通义千问1.0和2.0分别于去年4月和10月发布,参数规模分别为300亿和千亿级别。阿里云没有公布通义千问2.5的参数规模,根据发布日当天开源的Qwen1.5-110B参数量为1100亿推算,通义千问2.5的参数规模至少超过这个数字。

阿里云称,通义千问2.5对标GPT-4 Turbo,单次最长可处理1000万字,单次最多可处理100个文档。具体表现为:

  • 多文件类型支持:PDF,Word,Excel,Mobi等;
  • 多数据格式解析:除了文档,通义还能理解表格和图表,可快速归纳总结;
  • 多场景应用:适用于合同、白皮书、研报、财报等;
  • 易于使用和集成,支持Markdown、JSON格式,易于阅读和编辑。

此外,阿里云CTO周靖人还介绍了通义的多模态能力,比如音视频理解能力在阿里云盘的智能速览、新东方AI课堂笔记中都得以应用。

一个月前,商汤科技发布其最新大模型「日日新5.0」时同样声称对标GPT-4 Turbo。

继续走开源路线

发布通义千问2.5当天,阿里云宣布开源Qwen1.5-110B(1100亿参数)。这是阿里云迄今开源的最大模型,也是国内最大的开源模型。此前,国内开源领域最大的模型是阿里云的Qwen1.5-72B(720亿参数)和的深圳元象科技的XVERSE-65B(650亿参数)。

本周发布了哪些重要模型和应用?|智能周报(上)

阿里云迄今已发布超过10个开源模型。

阿里云称,Qwen1.5-110B模型在MMLU、TheoremQA、GPQA等基准测评中超越了Meta的Llama-3-70B(700亿参数)模型。此外,通义还开源了视觉理解模型Qwen-VL、音频理解模型Qwen-Audio、代码模型CodeQwen1.5-7B、混合专家模型Qwen1.5-MoE。

效仿Gemini和Claude,通义千问也给模型划分了size

为适应不同场景用户的需求,通义推出参数规模横跨5亿到1100亿的8款大语言模型:小尺寸模型如0.5B、1.8B、4B、7B、14B,可在手机、PC等端侧设备部署(类似于Gemini nano和Claude Haiku);大尺寸模型如72B、110B支持企业级和科研级应用(类似于Gemini Ultra和Claude Opus);中等尺寸如32B则试图在性能、效率和内存占用之间找到平衡点(类似于Gemini Pro和Claude Sonnet)。

B端是业务重心,C端应用更名

阿里云称,通义通过阿里云已服务超过9万家企业,通过钉钉服务企业超过220万家。小米旗下的AI助手「小爱同学」与通义大模型在图片生成、图片理解等领域已有合作;微博、众安保险、完美世界游戏等公司也宣布接入通义大模型。

面向企业端,阿里云发布百炼平台2.0版,提供企业级检索增强(RAG)服务(注:了解什么是RAG检索增强,可阅读《OpenAI、Google、Kimi都在「Perplexity化」,谁是Perplexity?》),以企业数据对大模型做知识增强,提供专属的知识库与检索服务。阿里云的通义灵码也推出了企业版,这是一款智能编码助手,掌握近200种编程语言。

C端业务方面,通义千问App全面升级,同时更名为「通义App」。

参考链接:

https://mp.weixin.qq.com/s/hU5YDkjiAsAYl8h2akl14Q

深度求索发布低成本模型,

API价格只有GPT-4的1/100

5月6日,量化基金公司幻方量化旗下AI公司深度求索(DeepSeek)推出第二代专家混合(Mixture of Experts,MoE)开源大模型DeepSeek-V2,总参数2360亿,支持128K上下文窗口,性能对标GPT-4-0613。

DeepSeek-V2的API定价为每百万token输入1元、输出2元,而支持128K上下文GPT-4 Turbo对应的API价格是每百万token输入72元、输出217元——DeepSeek-V2的定价相当于只有GPT-4的1/100。

「深度求索」的母公司是一家量化投资公司

「深度求索」的母公司是幻方量化,后者是一家使用AI 投资的对冲基金,成立于2015年,由梁文锋、徐进联合创立。2021年,幻方量化的资金管理规模曾经达到千亿元,2023年年初的规模在600亿元左右。

幻方量化核心团队的成员大多来自于浙江大学。徐进为浙江大学信号与信息处理博士,创业前在华为上海研究所等公司就职;梁文锋曾经在浙江大学攻读人工智能方向。

2018年,幻方量化开始将机器学习、深度学习等技术用于投资组合优化。2021年,幻方量化自研了深度学习训练平台「萤火二号」,投资10亿元,搭载约1万枚英伟达A100芯片。2023年5月,幻方量化组建独立研究组织「深度求索」进入生成式AI领域,目标是「探索AGI的本质」。

今年1月,「深度求索」开源MoE大模型DeepSeek,拥有20亿、160亿以及1450亿3个参数尺寸。

参考链接:

https://mp.weixin.qq.com/s/oJ3qdjE1KmcrC6NaMtdpqw

Hugging Face发布机器人开源代码

一向专注软件领域的Hugging Face也入局机器人领域了。5月6日,Hugging Face的机器人项目负责人Remi Cadene宣布推出LeRobot开源代码库,形容它对机器人的意义就如同「Transformer架构之于NLP(自然语言处理)」。

Remi Cadene是谁?

Remi Cadene两个月前加入Hugging Face后开始在法国巴黎搭建团队,主要招募具身机器人工程师。此前,他先后在特斯拉自动驾驶汽车部门与人形机器人Optimus团队担任科学家。Cadene表示,他将在Hugging Face建立一个真正的开源机器人项目,因为「人工智能开发的下一步是将其应用到物理世界」,Cadene称团队「正在围绕机器人人工智能开展以社区为驱动的工作,并且向所有人开放」。

LeRobot是什么?

LeRobot是一个可以共享、有可视化数据、可训练最新模型的多功能库。用户可以访问大量预训练模型,加速项目进程。另外,LeRobot与物理模拟器无缝集成,允许那些没有实体机器人硬件的开发者在虚拟环境中模拟和测试AI模型。

Hugging Face表示,LeRobot开源是一项战略决策,为的是避免权力和创新集中在少数公司手中。Hugging Face是一家总部位于纽约的AI独角兽公司,估值约45亿美元,主营业务均为软件,包括开源AI模型库和AI助手Hugging Chat Assistants。

参考链接:

https://venturebeat.com/automation/hugging-face-launches-lerobot-open-source-robotics-code-library/

新应用

Google尝试让iPhone用户也用上Circle to Search

5月8日,Google的Google Lens设计经理Minsang Choi在社交平台X上分享了Google App iOS团队开发的快捷方式,允许用户在iPhone 15 Pro上实现Circle to Search功能。「新皮层」曾报道,Circle to Search是今年早些时候Google推出的视觉搜索功能,用户可以截取屏幕并查找用户选择要查找的内容。

不过该功能此前是安卓独有的,曾最先登陆三星的首款AI手机Galaxy S24。如今,Google试图通过Google Lens在苹果的iOS设备上实现类似功能。iOS用户可以创建iOS快捷方式,在对屏幕截图后执行Google Lens程序,实现快速复制文本、翻译或执行视觉搜索的功能,用户还可以通过添加文本来进一步查询。

本周发布了哪些重要模型和应用?|智能周报(上)

不过,该快捷方式只支持对完整屏幕截图的搜索,用户无法单独在屏幕截图上圈出或画出他们想要查找的内容。此外,Chrome版本的Circle to Search或类似功能也正在浏览器上测试,或将在之后推出。

苹果目前正在与包括OpenAI、Google、百度等在内的公司谈判,以便将其大模型应用于苹果设备中。不过与此同时,苹果也在开发自己的模型,尤其是能够读懂用户屏幕的那一类模型。比如「新皮层」曾报道过的ReALM(Reference Resolution As Language Modeling),该研究关注如何让大模型理解手机屏幕上的视觉元素,以及Ferret-UI,它能够「看懂」手机的UI界面并执行相应任务。

参考链接:

https://9to5google.com/2024/05/07/google-lens-circle-to-search-iphone/

Grok AI在X上总结新闻

5月3日,社交平台X宣布在「为你推荐」板块推出名为「Stories」的新功能,它通过马斯克旗下xAI公司开发的Grok模型工作,可以为用户总结当下热门新闻和事件的概要。目前,该功能仅限付费的X Premium订阅用户使用。

马斯克称,他的想法是,利用人工智能融合突发新闻和用户评论,构建实时事件摘要,再鼓励用户通过与Grok聊天获得更多事件相关信息。但是,Grok不是从新闻报道中总结摘要,而是根据用户在X平台发布的帖子汇总信息。这可能是为了让Grok避免新闻出版机构的投诉。

不少网页浏览器也已经开始通过AI总结搜索结果、生成摘要信息,包括Google开发的生成式AI搜索平台SGE、微软旗下的必应浏览器以及Arc浏览器等。

参考链接:

https://techcrunch.com/2024/05/03/x-launches-stories-on-x-delivering-news-summarized-by-grok-ai/

TikTok将自动标记AI生成内容

5月9日,TikTok宣布将推出AI自动标记功能,以确保其识别为AI生成视频的内容得到相应标记,包括使用Adobe的Firefly工具、TikTok自己的AI图像生成器和OpenAI的Dall·E制作的内容都将被识别并标记。这使得TikTok成为第一个自动标记某些人工智能生成内容的社交媒体平台。Google、微软、索尼、OpenAI等大公司也在探索将该技术嵌入各自的AI工具Meta本月早些时候表示,它将开始检测Google、OpenAI、微软、Adobe、Midjourney和Shutterstock等公司由AI生成的内容,并为它们贴上「AI制作」标签。

参考链接:

https://techcrunch.com/2024/05/09/tiktok-automatically-label-ai-generated-content-created-other-platforms/

OpenAI发布AI检测器,拟参与制定行业AI检测标准

5月7日,OpenAI宣布推出专用AI检测工具,能识别某张图片是否由其DALL·E 3 模型生成,准确率高达98%。同日,OpenAI还宣布加入C2PA执行委员会,计划参与制定C2PA标准。C2PA全称是「内容来源和真实性联盟」(the Coalition for Content Provenance and Authenticity),由Adobe、ARM、英特尔、微软和数据验真平台Truepic联合组建。

OpenAI从今年年初就已经在DALL·E 3创作和修改的图片中置入C2PA元数据,并计划在视频生成模型Sora大范围普及之后在其生成的视频中也置入C2PA数据以资识别。为避免置入的C2PA数据被删除或篡改,OpenAI正在开发新方法,包括实施防篡改水印以及研发检测分类器。后者的原理是使用AI来判断一项内容是否由AI生成。

OpenAI已于5月7日当天向首批外部测试人员开放访问权限。该分类器可以有效处理常见的修改,如压缩、裁减、饱和度更改等,但对其他修改的判断正确率有所下降,如果图片由其他AI模型生成,分类器的正确率也会下降。

参考链接:

https://openai.com/index/understanding-the-source-of-what-we-see-and-hear-online/

-END-

本周发布了哪些重要模型和应用?|智能周报(上)

OpenAI、Google、Kimi都在「Perplexity化」,谁是Perplexity?

五一期间,这两款AI火了|智能周报(上篇)

人形机器人在硅谷变热|智能周报(下篇)

Rokid祝铭明:「成为下一个iPhone还是下一个诺基亚」让人焦虑

本周发布了哪些重要模型和应用?|智能周报(上)

继续阅读