腾讯混元正式“参战” 大模型下半场启幕

混元大模型接入腾讯50多个业务

作者／ IT时报记者郝俊慧

编辑／孙妍

9月7日，2023腾讯全球数字生态大会，腾讯混元大模型正式亮相。作为中国互联网企业三驾马车之一的腾讯，于今年6月19日以行业大模型先行入局之后，终于携通用大语言模型加入“百模大战”。

一切已有先兆。一周前，有消息称，百度文心一言、阿里通义千问、百川大模型等国内11家大模型产品首批通过《生成式人工智能服务管理暂行办法》备案，可正式上线面向公众提供服务，腾讯也在名单之列。

7日上午，腾讯混元正式揭开面纱：拥有超千亿参数规模，预训练语料超2万亿Tokens，并已接入腾讯云、腾讯广告、腾讯游戏、腾讯金融科技、腾讯会议、腾讯文档等50多个腾讯业务。

同日，腾讯宣布，混元大模型正式通过腾讯云对外开放。腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生表示，千行百业都可以通过API调用混元，或者将混元作为基底模型，为不同产业场景构建大模型应用。

腾讯集团高级执行副总裁、云与智慧产业事业群CEO 汤道生

至此，国产通用大语言模型赛道缓缓“关门”，后来者将更聚焦行业大模型、垂直大模型，而随着备案大模型陆续上线，“百模大战”的下半场正式启幕。

从零到两万亿

“腾讯混元大模型从第一个token开始从零训练。”从0到2万亿，姗姗来迟的混元，是腾讯从模型算法到机器学习框架，再到AI基础设施全链路自研技术的集大成者，这给了腾讯副总裁蒋杰极大的信心，他说：“正因为我们掌握了全链条技术，所以有信心在未来不断升级这一技术体系，以应对外部环境的各种变化。”

尽管已是“百模大战”，但拥有全链路自研能力的大模型厂商，全球范围内的可选项并不多，参与者需要同时在软件开发和硬件基础设施方面都有“杀手锏”。

事实也是如此，除了谷歌、微软、亚马逊、阿里、百度、腾讯、华为等大型云服务商，其他大模型厂商很难做到全链路全部自研。动辄万亿级参数的大模型，需大量服务器通过高速网络组成算力集群，共同完成训练任务，只有实力强劲的大云商能啃下“软硬网一体”的硬骨头。

现场介绍的案例侧面印证了腾讯混元全链路自研的成效。

“关公和秦琼谁的战斗力更强？”“幻觉”是所有大模型都难以避免的问题，对于这个典型的“错误”问题，国内某大模型和ChatGPT 3.5都给出了错误答案，而混元回答正确。

业界消除“幻觉”的通用做法是为大模型添加搜索增强或知识图谱等外挂，相当于开卷考试，但这种做法在实际应用中存在很大的局限性。从第一行代码开始写起的混元，采用了在预训练阶段优化目标函数的“探真”技术方法。据蒋杰介绍，与目前市场上常见的开源大模型相比，该方法能有效降低幻觉30%至50%。

腾讯混元另一个明显优于其他大模型的优势是支持超长文本输出。尽管多模态正在成为主流大模型重要演进方向，但在文本输出方面，包括GPT-3.5或者GPT-4在内的大模型，很难支持1000字以上的回答，用户需要输入“继续”来让大模型持续给出答案。混元突破了这个限制。在通过位置编码优化提高超长文的处理效果和性能后，它具备了生成长文的能力，可以给出一篇4000字的完整答案。显然，这将极大拓展AIGC的使用范围，并有利于大模型“思考”一些更深刻、全面的答案。

四天训练万亿级模型

主论坛上，第三个演讲的是腾讯副总裁邱跃鹏，并特意绕道自蒋杰身后上台。邱跃鹏的另一个身份是腾讯云总裁，“因为，云是大模型背后的底座”。

今年4月以来，腾讯云发布一系列面向大模型训练的基础设施。从自研的星星海服务器，到新一代HCC（High-Performance Computing Cluster）高性能计算集群，再到自研的星脉高速网络，腾讯为自己打造了一整套面向AIGC的高性能智算网络。

“我们就是国内最强高性能计算集群HCC，”腾讯云计算展台工作人员对此毫不讳言，“现在很多大模型厂商都会给客户做内测，我们的确是性能和性价比最好的。”

据工作人员介绍，该集群由最新一代腾讯云星星海自研服务器组成，集结了英伟达的H800和腾讯自研的XPU，并提供业界目前最高的3.2T超高互联带宽，相比上代性能提升了3倍，同样万亿参数大模型，训练时间缩短80%。邱跃鹏则进一步透露，目前腾讯云已可支持超10万张卡并行计算的大规模训练集群，万亿参数大模型一轮训练可在四天内完成。

算力提升存在典型的“木桶效应”，计算、存储、网络缺一不可，任何一方出现瓶颈都会导致运算速度严重下降。尤其在训练过程中，一旦出现卡的故障，整个训练都要中断并进行数据回滚，加上训练数据量巨大，Checkpoint读写速度要求极高。现在，腾讯云存储实现了60秒内超3TB的数据写入，从而提升整个模型的训练效率和训练时间。

据了解，腾讯云已建立起围绕大模型的全套能力，包括高性能算力集群、云原生数据湖仓和向量数据库等数据处理引擎，以及模型安全、支持模型训练和精调的工具链等，企业、开发者可以根据各自需求，灵活选择产品，降低大模型的训练成本。

混元接入腾讯50多个业务测试

经过近一年的摸索，已经没有人怀疑，一个面向未来的云服务商必须拥有自己的大模型，并提供MaaS服务。

腾讯当然是混元最好的“首位客户”。大会上，汤道生宣布，腾讯将全面拥抱大模型。目前混元已接入腾讯50多个业务测试并取得初步效果，包括腾讯云、腾讯广告、腾讯游戏、腾讯金融科技、腾讯会议、腾讯文档、微信搜一搜、QQ浏览器等业务和产品，正逐步成为腾讯公司的业务智能底座。

显然，大模型将开创下一代云服务的全新形态，重新定义云上工具，企业可以通过云，使用智能化水平更高、更便捷易用的云产品，全新的交互方式将持续涌现。当日，腾讯云宣布，基于AI大模型技术，更新升级近10款智能应用和解决方案，腾讯云风控大模型、腾讯云AI代码助手、腾讯会议AI小助手等产品，都因为大模型能力的加持，实现了显著的效率提升和体验优化。

以腾讯会议为例，一场会议一般持续几十分钟到几个小时，会涉及上万个文字，大量口语化的表达，如果参会时稍有走神，可以直接问AI小助手，刚才某位发言人说了什么，如果听到不理解的词，也可以直接询问，而助手不仅会回答这个词的意思，还会回答这个词在会议中出现的场合。会议结束后，所有会议内容可以直接由助手生成一个“to-do”待办，谁在什么时间应该完成什么事情，相当实用。

目前，腾讯会议AI小助手、企点分析AI助手已经正式开放试用申请。

“百模大战”下半场

虽迟但到的混元，似乎是最后一只落地的靴子，为近一年各大厂商的通用大模型“狂飙”画上休止符。

事实上，早在今年6月腾讯率先以行业大模型切入本轮“百模大战”时，大模型发展路径便开始分化，今年7月世界人工智能大会上露面的30多个大模型，大多也是行业大模型。业内基本形成共识：“昂贵”的通用大模型只是少数人的游戏，更注重场景化、面向 B端的行业大模型，是性价比最高的AI工具。

只是，腾讯不出通用大模型，总让人觉得“意难平”。

自2018年启动战略升级以来，腾讯喊出“扎根消费互联网，拥抱产业互联网”的口号，TO B成为腾讯转型的重点，如今五年一个小周期即满，效果明显。代表产业互联网数实融合的“金融科技及企业服务”已连续九个季度营收占比超过30%。

但腾讯依然是中国的“C端之王”，《CTR-Xinghan · 2023年Q2中国移动互联网实力榜》显示，微信依然以12.9亿季度活跃用户数雄踞榜首。无论是基于数据生产能力，还是用户需求，腾讯都需要一个通用大模型。

从此次腾讯宣布的内容来看，50多个接入混元的腾讯业务中，腾讯会议、腾讯文档、微信搜一搜、QQ浏览器等都是C端可直接接触、且使用频次相当高的产品。这意味着，混元一开始便有着天然高企的用户触点，一旦开放，无论是成本，还是压力，都将高于行业大模型和一般通用大模型。

“随着模型的复杂度提升，推理的延迟也会很高，为满足业务性能要求，模型推理所需的GPU性能也会变得异常的高，极大提升了单QPS的推理成本。目前大模型主要被用于生产力，原因是服务成本太高，只能用于高价值用户场景。如果成本能降到1/10甚至更多，就可以让大模型从生产力进一步扩展到娱乐、内容，乃至所有的用户界面。”在2023腾讯全球数字生态大会互联网AIGC应用专场上，腾讯云正式发布AIGC全栈解决方案，腾讯云行业解决方案专家毛得辉表示，腾讯云的全链路加速能力，可以让企业在AGI之路上提效降本，让AIGC服务更可用。

或许，对于腾讯而言，只有万事俱备，将“混元”送上云霄的东风才能来。

9月7日，记者在微信小程序里搜索“腾讯混元助手”，系统显示，“申请成功，正在排队”。相较已正式上线的百度文心一言等其他大模型，混元依然保持最后的审慎。

排版／季嘉颖

图片／腾讯 IT时报

来源／《IT时报》公众号vittimes

E N D

请加「星标」不错过我们