騰訊混元正式“參戰” 大模型下半場啟幕

混元大模型接入騰訊50多個業務

作者／ IT時報記者郝俊慧

編輯／孫妍

9月7日，2023騰訊全球數字生态大會，騰訊混元大模型正式亮相。作為中國網際網路企業三駕馬車之一的騰訊，于今年6月19日以行業大模型先行入局之後，終于攜通用大語言模型加入“百模大戰”。

一切已有先兆。一周前，有消息稱，百度文心一言、阿裡通義千問、百川大模型等國内11家大模型産品首批通過《生成式人工智能服務管理暫行辦法》備案，可正式上線面向公衆提供服務，騰訊也在名單之列。

7日上午，騰訊混元正式揭開面紗：擁有超千億參數規模，預訓練語料超2萬億Tokens，并已接入騰訊雲、騰訊廣告、騰訊遊戲、騰訊金融科技、騰訊會議、騰訊文檔等50多個騰訊業務。

同日，騰訊宣布，混元大模型正式通過騰訊雲對外開放。騰訊集團進階執行副總裁、雲與智慧産業事業群CEO湯道生表示，千行百業都可以通過API調用混元，或者将混元作為基底模型，為不同産業場景建構大模型應用。

騰訊集團進階執行副總裁、雲與智慧産業事業群CEO 湯道生

至此，國産通用大語言模型賽道緩緩“關門”，後來者将更聚焦行業大模型、垂直大模型，而随着備案大模型陸續上線，“百模大戰”的下半場正式啟幕。

從零到兩萬億

“騰訊混元大模型從第一個token開始從零訓練。”從0到2萬億，姗姗來遲的混元，是騰訊從模型算法到機器學習架構，再到AI基礎設施全鍊路自研技術的集大成者，這給了騰訊副總裁蔣傑極大的信心，他說：“正因為我們掌握了全鍊條技術，是以有信心在未來不斷更新這一技術體系，以應對外部環境的各種變化。”

盡管已是“百模大戰”，但擁有全鍊路自研能力的大模型廠商，全球範圍内的可選項并不多，參與者需要同時在軟體開發和硬體基礎設施方面都有“殺手锏”。

事實也是如此，除了谷歌、微軟、亞馬遜、阿裡、百度、騰訊、華為等大型雲服務商，其他大模型廠商很難做到全鍊路全部自研。動辄萬億級參數的大模型，需大量伺服器通過高速網絡組成算力叢集，共同完成訓練任務，隻有實力強勁的大雲商能啃下“軟硬網一體”的硬骨頭。

現場介紹的案例側面印證了騰訊混元全鍊路自研的成效。

“關公和秦瓊誰的戰鬥力更強？”“幻覺”是所有大模型都難以避免的問題，對于這個典型的“錯誤”問題，國内某大模型和ChatGPT 3.5都給出了錯誤答案，而混元回答正确。

業界消除“幻覺”的通用做法是為大模型添加搜尋增強或知識圖譜等外挂，相當于開卷考試，但這種做法在實際應用中存在很大的局限性。從第一行代碼開始寫起的混元，采用了在預訓練階段優化目标函數的“探真”技術方法。據蔣傑介紹，與目前市場上常見的開源大模型相比，該方法能有效降低幻覺30%至50%。

騰訊混元另一個明顯優于其他大模型的優勢是支援超長文本輸出。盡管多模态正在成為主流大模型重要演進方向，但在文本輸出方面，包括GPT-3.5或者GPT-4在内的大模型，很難支援1000字以上的回答，使用者需要輸入“繼續”來讓大模型持續給出答案。混元突破了這個限制。在通過位置編碼優化提高超長文的處理效果和性能後，它具備了生成長文的能力，可以給出一篇4000字的完整答案。顯然，這将極大拓展AIGC的使用範圍，并有利于大模型“思考”一些更深刻、全面的答案。

四天訓練萬億級模型

主論壇上，第三個演講的是騰訊副總裁邱躍鵬，并特意繞道自蔣傑身後上台。邱躍鵬的另一個身份是騰訊雲總裁，“因為，雲是大模型背後的底座”。

今年4月以來，騰訊雲釋出一系列面向大模型訓練的基礎設施。從自研的星星海伺服器，到新一代HCC（High-Performance Computing Cluster）高性能計算叢集，再到自研的星脈高速網絡，騰訊為自己打造了一整套面向AIGC的高性能智算網絡。

“我們就是國内最強高性能計算叢集HCC，”騰訊雲計算展台從業人員對此毫不諱言，“現在很多大模型廠商都會給客戶做内測，我們的确是性能和成本效益最好的。”

據從業人員介紹，該叢集由最新一代騰訊雲星星海自研伺服器組成，集結了英偉達的H800和騰訊自研的XPU，并提供業界目前最高的3.2T超高互聯帶寬，相比上代性能提升了3倍，同樣萬億參數大模型，訓練時間縮短80%。邱躍鵬則進一步透露，目前騰訊雲已可支援超10萬張卡并行計算的大規模訓練叢集，萬億參數大模型一輪訓練可在四天内完成。

算力提升存在典型的“木桶效應”，計算、存儲、網絡缺一不可，任何一方出現瓶頸都會導緻運算速度嚴重下降。尤其在訓練過程中，一旦出現卡的故障，整個訓練都要中斷并進行資料復原，加上訓練資料量巨大，Checkpoint讀寫速度要求極高。現在，騰訊雲存儲實作了60秒内超3TB的資料寫入，進而提升整個模型的訓練效率和訓練時間。

據了解，騰訊雲已建立起圍繞大模型的全套能力，包括高性能算力叢集、雲原生資料湖倉和向量資料庫等資料處理引擎，以及模型安全、支援模型訓練和精調的工具鍊等，企業、開發者可以根據各自需求，靈活選擇産品，降低大模型的訓練成本。

混元接入騰訊50多個業務測試

經過近一年的摸索，已經沒有人懷疑，一個面向未來的雲服務商必須擁有自己的大模型，并提供MaaS服務。

騰訊當然是混元最好的“首位客戶”。大會上，湯道生宣布，騰訊将全面擁抱大模型。目前混元已接入騰訊50多個業務測試并取得初步效果，包括騰訊雲、騰訊廣告、騰訊遊戲、騰訊金融科技、騰訊會議、騰訊文檔、微信搜一搜、QQ浏覽器等業務和産品，正逐漸成為騰訊公司的業務智能底座。

顯然，大模型将開創下一代雲服務的全新形态，重新定義雲上工具，企業可以通過雲，使用智能化水準更高、更便捷易用的雲産品，全新的互動方式将持續湧現。當日，騰訊雲宣布，基于AI大模型技術，更新更新近10款智能應用和解決方案，騰訊雲風控大模型、騰訊雲AI代碼助手、騰訊會議AI小助手等産品，都因為大模型能力的加持，實作了顯著的效率提升和體驗優化。

以騰訊會議為例，一場會議一般持續幾十分鐘到幾個小時，會涉及上萬個文字，大量口語化的表達，如果參會時稍有走神，可以直接問AI小助手，剛才某位發言人說了什麼，如果聽到不了解的詞，也可以直接詢問，而助手不僅會回答這個詞的意思，還會回答這個詞在會議中出現的場合。會議結束後，所有會議内容可以直接由助手生成一個“to-do”待辦，誰在什麼時間應該完成什麼事情，相當實用。

目前，騰訊會議AI小助手、企點分析AI助手已經正式開放試用申請。

“百模大戰”下半場

雖遲但到的混元，似乎是最後一隻落地的靴子，為近一年各大廠商的通用大模型“狂飙”畫上休止符。

事實上，早在今年6月騰訊率先以行業大模型切入本輪“百模大戰”時，大模型發展路徑便開始分化，今年7月世界人工智能大會上露面的30多個大模型，大多也是行業大模型。業内基本形成共識：“昂貴”的通用大模型隻是少數人的遊戲，更注重場景化、面向 B端的行業大模型，是成本效益最高的AI工具。

隻是，騰訊不出通用大模型，總讓人覺得“意難平”。

自2018年啟動戰略更新以來，騰訊喊出“紮根消費網際網路，擁抱産業網際網路”的口号，TO B成為騰訊轉型的重點，如今五年一個小周期即滿，效果明顯。代表産業網際網路數實融合的“金融科技及企業服務”已連續九個季度營收占比超過30%。

但騰訊依然是中國的“C端之王”，《CTR-Xinghan · 2023年Q2中國移動網際網路實力榜》顯示，微信依然以12.9億季度活躍使用者數雄踞榜首。無論是基于資料生産能力，還是使用者需求，騰訊都需要一個通用大模型。

從此次騰訊宣布的内容來看，50多個接入混元的騰訊業務中，騰訊會議、騰訊文檔、微信搜一搜、QQ浏覽器等都是C端可直接接觸、且使用頻次相當高的産品。這意味着，混元一開始便有着天然高企的使用者觸點，一旦開放，無論是成本，還是壓力，都将高于行業大模型和一般通用大模型。

“随着模型的複雜度提升，推理的延遲也會很高，為滿足業務性能要求，模型推理所需的GPU性能也會變得異常的高，極大提升了單QPS的推理成本。目前大模型主要被用于生産力，原因是服務成本太高，隻能用于高價值使用者場景。如果成本能降到1/10甚至更多，就可以讓大模型從生産力進一步擴充到娛樂、内容，乃至所有的使用者界面。”在2023騰訊全球數字生态大會網際網路AIGC應用專場上，騰訊雲正式釋出AIGC全棧解決方案，騰訊雲行業解決方案專家毛得輝表示，騰訊雲的全鍊路加速能力，可以讓企業在AGI之路上提效降本，讓AIGC服務更可用。

或許，對于騰訊而言，隻有萬事俱備，将“混元”送上雲霄的東風才能來。

9月7日，記者在微信小程式裡搜尋“騰訊混元助手”，系統顯示，“申請成功，正在排隊”。相較已正式上線的百度文心一言等其他大模型，混元依然保持最後的審慎。

排版／季嘉穎

圖檔／騰訊 IT時報

來源／《IT時報》公衆号vittimes

E N D

請加「星标」不錯過我們