天天看點

騰訊混元參戰大模型:“幻覺率”可降低30%,多個名額超越GPT3.5

騰訊混元參戰大模型:“幻覺率”可降低30%,多個名額超越GPT3.5

騰訊混元大模型logo。視覺中國 圖

“百模大戰”新增又一巨頭:騰訊官宣參戰。

9月7日,在2023騰訊全球數字生态大會上,騰訊正式釋出混元大模型,并宣布通過騰訊雲對外開放。

資料顯示,騰訊混元大模型是騰訊自研的一款通用大模型,目前已經接入騰訊50多個業務測試,包括騰訊雲、騰訊廣告、騰訊遊戲、騰訊金融科技、騰訊會議、騰訊文檔、微信搜一搜、QQ浏覽器等業務和産品。

值得注意的是,這并非是騰訊首次公開大模型相關進展。此前6月19日,騰訊曾釋出依托騰訊雲TI平台打造行業大模型精選商店,提供MaaS(Model-as-a-Service)一站式服務,建構專屬大模型及智能應用。

“大模型競争還在馬拉松的第一公裡,這個行業太新了,不存在清晰的市場佔有率或占比。”9月7日,在接受澎湃新聞等媒體采訪時,騰訊集團進階執行副總裁、雲與智慧産業事業群CEO湯道生坦言,“大家動不動就喜歡釋出通用大模型,在我看來這條路有點走偏了,不能解決産業實際問題和痛點。”

對于大模型落地前景,他也直言:“有些前沿投入和布局,可能要3到5年才能看到商業回報,現在談大模型的商業前景還為時過早。”

騰訊的大模型“路線圖”

今年上半年,多家大廠紮堆釋出大模型,“百模大戰”一度成為輿論焦點,而騰訊一直到9月份才釋出通用大模型,似乎顯得有些姗姗來遲。

“騰訊做大模型隻看自己,不看别人。”9月7日,對于釋出時間,騰訊副總裁蔣傑向澎湃新聞記者坦言,“混元大模型在騰訊内部已經内測很久,在推出時間上,沒有考慮過和同行進行賽跑。”

從基本參數來看,目前騰訊混元的參數規模超千億,預訓練語料超2萬億tokens,具備中文創作能力,複雜語境下的邏輯推理能力,以及任務執行能力。

和其他模型相比,混元大模型的特點和優勢是什麼?澎湃新聞記者梳理發現,其最大特點是在解決“幻覺”能力上表現較為突出。所謂的“幻覺”,指的是大模型在回答提問時會出現答非所問、胡說八道的現象,騰訊混元大模型在預訓練階段通過“探真”算法進行事實修正,實測幻覺率可以降低30%-50%。

“其他廠商往往會通過知識圖譜或是搜尋外挂來讓大模型的檢索能力變得更加準确,但使用外挂會導緻新的幻覺出現,是以騰訊決定在大模型預訓練階段就解決這個問題。”蔣傑表示。

騰訊混元參戰大模型:“幻覺率”可降低30%,多個名額超越GPT3.5

此外,混元大模型還具備超長文本的處理能力,能夠提供超過4000字的長文回答,而在同樣的命題下GPT-3.5隻能提供超過1000字的問答。在資料源頭方面,蔣傑介紹,騰訊做小模型、大模型甚至大語言模型,都不會使用個人隐私資料。此外,騰訊的内容産品,也為騰訊混元大模型提供了大規模、多樣化的語料庫,能夠學習到各類應用場景中的語言知識和語境了解能力。

在具體名額上,混元大模型在多個名額上超越了GPT-3.5,包括代碼子項、STEM子項、聯考題子項和數學子項上,但和GPT-4還有距離。蔣傑表示,國内的廠商在做大語言模型的時候,需要循序漸進,腳踏實地做好每一項技術突破,并且坦誠面對和國際廠商在技術上的一些差距。

騰訊混元參戰大模型:“幻覺率”可降低30%,多個名額超越GPT3.5

外界好奇的是,為何騰訊在推出行業大模型後再次推出通用大模型?

此前湯道生曾提到,通用大模型可以在100個場景中,解決70%-80%的問題,但未必能100%滿足企業某個場景的需求。相比盲目使用通用大模型,企業基于行業大模型建構自己的專屬模型,也許是更優的選項。模型參數比通用大模型少,訓練和推理的成本更低,優化也更容易。

對此,湯道生告訴澎湃新聞記者,推出時間較晚是因為騰訊一直在研發和應用的過程中。其實騰訊内部早已開始内測混元大模型,但在沒有經曆充分的應用融合和實踐前不會對外公布其具體進展,最終公布的成品,是經過充分打磨後的,但依然會不斷更新和疊代。

大模型商業化究竟路在何方?

在“百模大戰”的熱度略有減退後,大模型的實際落地效能成為外界考量的重點。

談到混元大模型未來商業前景時,蔣傑坦言,在To B(企業)端産生商業收入還有待探索,因為目前混元大模型在面對成熟度和複雜任務的處理能力還不夠全面,是以對于較多專業場景不能充分解鎖,應用有待完善。

“混元大模型一開始就不是為了釋出而釋出,而是根據騰訊自身應用,例如微信、QQ等進行相關研發和比對,提供互相深度融合的能力,才能抵消大模型背後的高昂裝置、訓練和人力成本。”蔣傑表示。

此前,百度智能雲副總裁朱也在接受澎湃新聞記者在内的媒體采訪時曾表示:“從衡量大模型本身的商業價值角度看,如果應用不起來,整個大模型很難持續下去,确實是需要投入,整個生态起來、應用繁榮很重要。我們判斷,偏向于營銷服務、辦公提效這兩個場景,可能會首先實作大規模落地,我認為接下來幾個月能夠看到應用逐漸落地,規模逐漸增大。”

對于大模型研發的高額成本,湯道生透露,騰訊内部對于資源配置設定有傾斜性,混元大模型是騰訊内部最重要的項目之一,是以會以第一優先級進行考慮,目前公司内部的人員配置和資源合作“跑得很順利”,但大模型的競争尚在馬拉松的第一公裡,可能要到3到5年後才能看到相應回報。

就在不久前,百度宣布“文心一言”向全社會全面開放,還将開放一批經過全新重構的AI原生應用,讓廣大使用者充分體驗生成式AI的了解、生成、邏輯、記憶四大核心能力。

混元大模型是否也将對外開放?對此,蔣傑表示,是否提供C端(消費者端)服務僅僅是時間和選擇的問題,“目前我們還是側重在内部應用場景中做嘗試,TO C與否隻是一種‘開關’,做好自身能力、提高準确性才是我們最為關注的。”