天天看点

腾讯混元正式“参战” 大模型下半场启幕

作者:休闲荒野
腾讯混元正式“参战” 大模型下半场启幕

混元大模型接入腾讯50多个业务

作者/ IT时报记者 郝俊慧

编辑/ 孙妍

9月7日,2023腾讯全球数字生态大会,腾讯混元大模型正式亮相。作为中国互联网企业三驾马车之一的腾讯,于今年6月19日以行业大模型先行入局之后,终于携通用大语言模型加入“百模大战”。

一切已有先兆。一周前,有消息称,百度文心一言、阿里通义千问、百川大模型等国内11家大模型产品首批通过《生成式人工智能服务管理暂行办法》备案,可正式上线面向公众提供服务,腾讯也在名单之列。

7日上午,腾讯混元正式揭开面纱:拥有超千亿参数规模,预训练语料超2万亿Tokens,并已接入腾讯云、腾讯广告、腾讯游戏、腾讯金融科技、腾讯会议、腾讯文档等50多个腾讯业务。

腾讯混元正式“参战” 大模型下半场启幕

同日,腾讯宣布,混元大模型正式通过腾讯云对外开放。腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生表示,千行百业都可以通过API调用混元,或者将混元作为基底模型,为不同产业场景构建大模型应用。

腾讯混元正式“参战” 大模型下半场启幕

腾讯集团高级执行副总裁、云与智慧产业事业群CEO 汤道生

至此,国产通用大语言模型赛道缓缓“关门”,后来者将更聚焦行业大模型、垂直大模型,而随着备案大模型陆续上线,“百模大战”的下半场正式启幕。

腾讯混元正式“参战” 大模型下半场启幕

从零到两万亿

“腾讯混元大模型从第一个token开始从零训练。”从0到2万亿,姗姗来迟的混元,是腾讯从模型算法到机器学习框架,再到AI基础设施全链路自研技术的集大成者,这给了腾讯副总裁蒋杰极大的信心,他说:“正因为我们掌握了全链条技术,所以有信心在未来不断升级这一技术体系,以应对外部环境的各种变化。”

尽管已是“百模大战”,但拥有全链路自研能力的大模型厂商,全球范围内的可选项并不多,参与者需要同时在软件开发和硬件基础设施方面都有“杀手锏”。

事实也是如此,除了谷歌、微软、亚马逊、阿里、百度、腾讯、华为等大型云服务商,其他大模型厂商很难做到全链路全部自研。动辄万亿级参数的大模型,需大量服务器通过高速网络组成算力集群,共同完成训练任务,只有实力强劲的大云商能啃下“软硬网一体”的硬骨头。

现场介绍的案例侧面印证了腾讯混元全链路自研的成效。

“关公和秦琼谁的战斗力更强?”“幻觉”是所有大模型都难以避免的问题,对于这个典型的“错误”问题,国内某大模型和ChatGPT 3.5都给出了错误答案,而混元回答正确。

业界消除“幻觉”的通用做法是为大模型添加搜索增强或知识图谱等外挂,相当于开卷考试,但这种做法在实际应用中存在很大的局限性。从第一行代码开始写起的混元,采用了在预训练阶段优化目标函数的“探真”技术方法。据蒋杰介绍,与目前市场上常见的开源大模型相比,该方法能有效降低幻觉30%至50%。

腾讯混元另一个明显优于其他大模型的优势是支持超长文本输出。尽管多模态正在成为主流大模型重要演进方向,但在文本输出方面,包括GPT-3.5或者GPT-4在内的大模型,很难支持1000字以上的回答,用户需要输入“继续”来让大模型持续给出答案。混元突破了这个限制。在通过位置编码优化提高超长文的处理效果和性能后,它具备了生成长文的能力,可以给出一篇4000字的完整答案。显然,这将极大拓展AIGC的使用范围,并有利于大模型“思考”一些更深刻、全面的答案。

腾讯混元正式“参战” 大模型下半场启幕

四天训练万亿级模型

主论坛上,第三个演讲的是腾讯副总裁邱跃鹏,并特意绕道自蒋杰身后上台。邱跃鹏的另一个身份是腾讯云总裁,“因为,云是大模型背后的底座”。

今年4月以来,腾讯云发布一系列面向大模型训练的基础设施。从自研的星星海服务器,到新一代HCC(High-Performance Computing Cluster)高性能计算集群,再到自研的星脉高速网络,腾讯为自己打造了一整套面向AIGC的高性能智算网络。

“我们就是国内最强高性能计算集群HCC,”腾讯云计算展台工作人员对此毫不讳言,“现在很多大模型厂商都会给客户做内测,我们的确是性能和性价比最好的。”

据工作人员介绍,该集群由最新一代腾讯云星星海自研服务器组成,集结了英伟达的H800和腾讯自研的XPU,并提供业界目前最高的3.2T超高互联带宽,相比上代性能提升了3倍,同样万亿参数大模型,训练时间缩短80%。邱跃鹏则进一步透露,目前腾讯云已可支持超10万张卡并行计算的大规模训练集群,万亿参数大模型一轮训练可在四天内完成。

算力提升存在典型的“木桶效应”,计算、存储、网络缺一不可,任何一方出现瓶颈都会导致运算速度严重下降。尤其在训练过程中,一旦出现卡的故障,整个训练都要中断并进行数据回滚,加上训练数据量巨大,Checkpoint读写速度要求极高。现在,腾讯云存储实现了60秒内超3TB的数据写入,从而提升整个模型的训练效率和训练时间。

腾讯混元正式“参战” 大模型下半场启幕

据了解,腾讯云已建立起围绕大模型的全套能力,包括高性能算力集群、云原生数据湖仓和向量数据库等数据处理引擎,以及模型安全、支持模型训练和精调的工具链等,企业、开发者可以根据各自需求,灵活选择产品,降低大模型的训练成本。

腾讯混元正式“参战” 大模型下半场启幕

混元接入腾讯50多个业务测试

经过近一年的摸索,已经没有人怀疑,一个面向未来的云服务商必须拥有自己的大模型,并提供MaaS服务。

腾讯当然是混元最好的“首位客户”。大会上,汤道生宣布,腾讯将全面拥抱大模型。目前混元已接入腾讯50多个业务测试并取得初步效果,包括腾讯云、腾讯广告、腾讯游戏、腾讯金融科技、腾讯会议、腾讯文档、微信搜一搜、QQ浏览器等业务和产品,正逐步成为腾讯公司的业务智能底座。

显然,大模型将开创下一代云服务的全新形态,重新定义云上工具,企业可以通过云,使用智能化水平更高、更便捷易用的云产品,全新的交互方式将持续涌现。当日,腾讯云宣布,基于AI大模型技术,更新升级近10款智能应用和解决方案,腾讯云风控大模型、腾讯云AI代码助手、腾讯会议AI小助手等产品,都因为大模型能力的加持,实现了显著的效率提升和体验优化。

以腾讯会议为例,一场会议一般持续几十分钟到几个小时,会涉及上万个文字,大量口语化的表达,如果参会时稍有走神,可以直接问AI小助手,刚才某位发言人说了什么,如果听到不理解的词,也可以直接询问,而助手不仅会回答这个词的意思,还会回答这个词在会议中出现的场合。会议结束后,所有会议内容可以直接由助手生成一个“to-do”待办,谁在什么时间应该完成什么事情,相当实用。

腾讯混元正式“参战” 大模型下半场启幕

目前,腾讯会议AI小助手、企点分析AI助手已经正式开放试用申请。

腾讯混元正式“参战” 大模型下半场启幕

“百模大战”下半场

虽迟但到的混元,似乎是最后一只落地的靴子,为近一年各大厂商的通用大模型“狂飙”画上休止符。

事实上,早在今年6月腾讯率先以行业大模型切入本轮“百模大战”时,大模型发展路径便开始分化,今年7月世界人工智能大会上露面的30多个大模型,大多也是行业大模型。业内基本形成共识:“昂贵”的通用大模型只是少数人的游戏,更注重场景化、面向 B端的行业大模型,是性价比最高的AI工具。

只是,腾讯不出通用大模型,总让人觉得“意难平”。

自2018年启动战略升级以来,腾讯喊出“扎根消费互联网,拥抱产业互联网”的口号,TO B成为腾讯转型的重点,如今五年一个小周期即满,效果明显。代表产业互联网数实融合的“金融科技及企业服务”已连续九个季度营收占比超过30%。

但腾讯依然是中国的“C端之王”,《CTR-Xinghan · 2023年Q2中国移动互联网实力榜》显示,微信依然以12.9亿季度活跃用户数雄踞榜首。无论是基于数据生产能力,还是用户需求,腾讯都需要一个通用大模型。

从此次腾讯宣布的内容来看,50多个接入混元的腾讯业务中,腾讯会议、腾讯文档、微信搜一搜、QQ浏览器等都是C端可直接接触、且使用频次相当高的产品。这意味着,混元一开始便有着天然高企的用户触点,一旦开放,无论是成本,还是压力,都将高于行业大模型和一般通用大模型。

“随着模型的复杂度提升,推理的延迟也会很高,为满足业务性能要求,模型推理所需的GPU性能也会变得异常的高,极大提升了单QPS的推理成本。目前大模型主要被用于生产力,原因是服务成本太高,只能用于高价值用户场景。如果成本能降到1/10甚至更多,就可以让大模型从生产力进一步扩展到娱乐、内容,乃至所有的用户界面。”在2023腾讯全球数字生态大会互联网AIGC应用专场上,腾讯云正式发布AIGC全栈解决方案,腾讯云行业解决方案专家毛得辉表示,腾讯云的全链路加速能力,可以让企业在AGI之路上提效降本,让AIGC服务更可用。

或许,对于腾讯而言,只有万事俱备,将“混元”送上云霄的东风才能来。

9月7日,记者在微信小程序里搜索“腾讯混元助手”,系统显示,“申请成功,正在排队”。相较已正式上线的百度文心一言等其他大模型,混元依然保持最后的审慎。

腾讯混元正式“参战” 大模型下半场启幕

排版/ 季嘉颖

图片/ 腾讯 IT时报

来源/《IT时报》公众号vittimes

E N D

请加「星标」不错过我们

腾讯混元正式“参战” 大模型下半场启幕
腾讯混元正式“参战” 大模型下半场启幕