天天看點

騰訊混元正式“參戰” 大模型下半場啟幕

作者:休閑荒野
騰訊混元正式“參戰” 大模型下半場啟幕

混元大模型接入騰訊50多個業務

作者/ IT時報記者 郝俊慧

編輯/ 孫妍

9月7日,2023騰訊全球數字生态大會,騰訊混元大模型正式亮相。作為中國網際網路企業三駕馬車之一的騰訊,于今年6月19日以行業大模型先行入局之後,終于攜通用大語言模型加入“百模大戰”。

一切已有先兆。一周前,有消息稱,百度文心一言、阿裡通義千問、百川大模型等國内11家大模型産品首批通過《生成式人工智能服務管理暫行辦法》備案,可正式上線面向公衆提供服務,騰訊也在名單之列。

7日上午,騰訊混元正式揭開面紗:擁有超千億參數規模,預訓練語料超2萬億Tokens,并已接入騰訊雲、騰訊廣告、騰訊遊戲、騰訊金融科技、騰訊會議、騰訊文檔等50多個騰訊業務。

騰訊混元正式“參戰” 大模型下半場啟幕

同日,騰訊宣布,混元大模型正式通過騰訊雲對外開放。騰訊集團進階執行副總裁、雲與智慧産業事業群CEO湯道生表示,千行百業都可以通過API調用混元,或者将混元作為基底模型,為不同産業場景建構大模型應用。

騰訊混元正式“參戰” 大模型下半場啟幕

騰訊集團進階執行副總裁、雲與智慧産業事業群CEO 湯道生

至此,國産通用大語言模型賽道緩緩“關門”,後來者将更聚焦行業大模型、垂直大模型,而随着備案大模型陸續上線,“百模大戰”的下半場正式啟幕。

騰訊混元正式“參戰” 大模型下半場啟幕

從零到兩萬億

“騰訊混元大模型從第一個token開始從零訓練。”從0到2萬億,姗姗來遲的混元,是騰訊從模型算法到機器學習架構,再到AI基礎設施全鍊路自研技術的集大成者,這給了騰訊副總裁蔣傑極大的信心,他說:“正因為我們掌握了全鍊條技術,是以有信心在未來不斷更新這一技術體系,以應對外部環境的各種變化。”

盡管已是“百模大戰”,但擁有全鍊路自研能力的大模型廠商,全球範圍内的可選項并不多,參與者需要同時在軟體開發和硬體基礎設施方面都有“殺手锏”。

事實也是如此,除了谷歌、微軟、亞馬遜、阿裡、百度、騰訊、華為等大型雲服務商,其他大模型廠商很難做到全鍊路全部自研。動辄萬億級參數的大模型,需大量伺服器通過高速網絡組成算力叢集,共同完成訓練任務,隻有實力強勁的大雲商能啃下“軟硬網一體”的硬骨頭。

現場介紹的案例側面印證了騰訊混元全鍊路自研的成效。

“關公和秦瓊誰的戰鬥力更強?”“幻覺”是所有大模型都難以避免的問題,對于這個典型的“錯誤”問題,國内某大模型和ChatGPT 3.5都給出了錯誤答案,而混元回答正确。

業界消除“幻覺”的通用做法是為大模型添加搜尋增強或知識圖譜等外挂,相當于開卷考試,但這種做法在實際應用中存在很大的局限性。從第一行代碼開始寫起的混元,采用了在預訓練階段優化目标函數的“探真”技術方法。據蔣傑介紹,與目前市場上常見的開源大模型相比,該方法能有效降低幻覺30%至50%。

騰訊混元另一個明顯優于其他大模型的優勢是支援超長文本輸出。盡管多模态正在成為主流大模型重要演進方向,但在文本輸出方面,包括GPT-3.5或者GPT-4在内的大模型,很難支援1000字以上的回答,使用者需要輸入“繼續”來讓大模型持續給出答案。混元突破了這個限制。在通過位置編碼優化提高超長文的處理效果和性能後,它具備了生成長文的能力,可以給出一篇4000字的完整答案。顯然,這将極大拓展AIGC的使用範圍,并有利于大模型“思考”一些更深刻、全面的答案。

騰訊混元正式“參戰” 大模型下半場啟幕

四天訓練萬億級模型

主論壇上,第三個演講的是騰訊副總裁邱躍鵬,并特意繞道自蔣傑身後上台。邱躍鵬的另一個身份是騰訊雲總裁,“因為,雲是大模型背後的底座”。

今年4月以來,騰訊雲釋出一系列面向大模型訓練的基礎設施。從自研的星星海伺服器,到新一代HCC(High-Performance Computing Cluster)高性能計算叢集,再到自研的星脈高速網絡,騰訊為自己打造了一整套面向AIGC的高性能智算網絡。

“我們就是國内最強高性能計算叢集HCC,”騰訊雲計算展台從業人員對此毫不諱言,“現在很多大模型廠商都會給客戶做内測,我們的确是性能和成本效益最好的。”

據從業人員介紹,該叢集由最新一代騰訊雲星星海自研伺服器組成,集結了英偉達的H800和騰訊自研的XPU,并提供業界目前最高的3.2T超高互聯帶寬,相比上代性能提升了3倍,同樣萬億參數大模型,訓練時間縮短80%。邱躍鵬則進一步透露,目前騰訊雲已可支援超10萬張卡并行計算的大規模訓練叢集,萬億參數大模型一輪訓練可在四天内完成。

算力提升存在典型的“木桶效應”,計算、存儲、網絡缺一不可,任何一方出現瓶頸都會導緻運算速度嚴重下降。尤其在訓練過程中,一旦出現卡的故障,整個訓練都要中斷并進行資料復原,加上訓練資料量巨大,Checkpoint讀寫速度要求極高。現在,騰訊雲存儲實作了60秒内超3TB的資料寫入,進而提升整個模型的訓練效率和訓練時間。

騰訊混元正式“參戰” 大模型下半場啟幕

據了解,騰訊雲已建立起圍繞大模型的全套能力,包括高性能算力叢集、雲原生資料湖倉和向量資料庫等資料處理引擎,以及模型安全、支援模型訓練和精調的工具鍊等,企業、開發者可以根據各自需求,靈活選擇産品,降低大模型的訓練成本。

騰訊混元正式“參戰” 大模型下半場啟幕

混元接入騰訊50多個業務測試

經過近一年的摸索,已經沒有人懷疑,一個面向未來的雲服務商必須擁有自己的大模型,并提供MaaS服務。

騰訊當然是混元最好的“首位客戶”。大會上,湯道生宣布,騰訊将全面擁抱大模型。目前混元已接入騰訊50多個業務測試并取得初步效果,包括騰訊雲、騰訊廣告、騰訊遊戲、騰訊金融科技、騰訊會議、騰訊文檔、微信搜一搜、QQ浏覽器等業務和産品,正逐漸成為騰訊公司的業務智能底座。

顯然,大模型将開創下一代雲服務的全新形态,重新定義雲上工具,企業可以通過雲,使用智能化水準更高、更便捷易用的雲産品,全新的互動方式将持續湧現。當日,騰訊雲宣布,基于AI大模型技術,更新更新近10款智能應用和解決方案,騰訊雲風控大模型、騰訊雲AI代碼助手、騰訊會議AI小助手等産品,都因為大模型能力的加持,實作了顯著的效率提升和體驗優化。

以騰訊會議為例,一場會議一般持續幾十分鐘到幾個小時,會涉及上萬個文字,大量口語化的表達,如果參會時稍有走神,可以直接問AI小助手,剛才某位發言人說了什麼,如果聽到不了解的詞,也可以直接詢問,而助手不僅會回答這個詞的意思,還會回答這個詞在會議中出現的場合。會議結束後,所有會議内容可以直接由助手生成一個“to-do”待辦,誰在什麼時間應該完成什麼事情,相當實用。

騰訊混元正式“參戰” 大模型下半場啟幕

目前,騰訊會議AI小助手、企點分析AI助手已經正式開放試用申請。

騰訊混元正式“參戰” 大模型下半場啟幕

“百模大戰”下半場

雖遲但到的混元,似乎是最後一隻落地的靴子,為近一年各大廠商的通用大模型“狂飙”畫上休止符。

事實上,早在今年6月騰訊率先以行業大模型切入本輪“百模大戰”時,大模型發展路徑便開始分化,今年7月世界人工智能大會上露面的30多個大模型,大多也是行業大模型。業内基本形成共識:“昂貴”的通用大模型隻是少數人的遊戲,更注重場景化、面向 B端的行業大模型,是成本效益最高的AI工具。

隻是,騰訊不出通用大模型,總讓人覺得“意難平”。

自2018年啟動戰略更新以來,騰訊喊出“紮根消費網際網路,擁抱産業網際網路”的口号,TO B成為騰訊轉型的重點,如今五年一個小周期即滿,效果明顯。代表産業網際網路數實融合的“金融科技及企業服務”已連續九個季度營收占比超過30%。

但騰訊依然是中國的“C端之王”,《CTR-Xinghan · 2023年Q2中國移動網際網路實力榜》顯示,微信依然以12.9億季度活躍使用者數雄踞榜首。無論是基于資料生産能力,還是使用者需求,騰訊都需要一個通用大模型。

從此次騰訊宣布的内容來看,50多個接入混元的騰訊業務中,騰訊會議、騰訊文檔、微信搜一搜、QQ浏覽器等都是C端可直接接觸、且使用頻次相當高的産品。這意味着,混元一開始便有着天然高企的使用者觸點,一旦開放,無論是成本,還是壓力,都将高于行業大模型和一般通用大模型。

“随着模型的複雜度提升,推理的延遲也會很高,為滿足業務性能要求,模型推理所需的GPU性能也會變得異常的高,極大提升了單QPS的推理成本。目前大模型主要被用于生産力,原因是服務成本太高,隻能用于高價值使用者場景。如果成本能降到1/10甚至更多,就可以讓大模型從生産力進一步擴充到娛樂、内容,乃至所有的使用者界面。”在2023騰訊全球數字生态大會網際網路AIGC應用專場上,騰訊雲正式釋出AIGC全棧解決方案,騰訊雲行業解決方案專家毛得輝表示,騰訊雲的全鍊路加速能力,可以讓企業在AGI之路上提效降本,讓AIGC服務更可用。

或許,對于騰訊而言,隻有萬事俱備,将“混元”送上雲霄的東風才能來。

9月7日,記者在微信小程式裡搜尋“騰訊混元助手”,系統顯示,“申請成功,正在排隊”。相較已正式上線的百度文心一言等其他大模型,混元依然保持最後的審慎。

騰訊混元正式“參戰” 大模型下半場啟幕

排版/ 季嘉穎

圖檔/ 騰訊 IT時報

來源/《IT時報》公衆号vittimes

E N D

請加「星标」不錯過我們

騰訊混元正式“參戰” 大模型下半場啟幕
騰訊混元正式“參戰” 大模型下半場啟幕