綜合實力已超ChatGPT！文心大模型3.5勇奪國際權威測評第一名

日前，IDC 釋出《AI 大模型技術能力評估報告，2023》。該報告指出，“百度 AI 大模型整體競争力位于領先水準，在模型能力、工具平台、生态布局以及行業覆寫上優勢明顯，并已提前進入商業化落地探索階段”。

内容創作、圖檔生成、智能程式設計、對話問答……如今，AI 大模型已然具備諸多通用能力。它的誕生，讓人類通過自然語言就能與其進行互動，極大程度地促進了社會生産力的釋放。

以 AI 驅動的大模型技術突破，也被看作是人工智能發展的一個重要裡程碑。目前，市場上已經出現各式各樣的大模型，與之同時産生的，是各類大模型評測标準和評估報告。《AI 大模型技術能力評估報告，2023》，就是 IDC 面向 AI 領域推出的一項權威報告。據悉，本次評估涉及 9 家大模型技術廠商。其中，由百度開發的文心大模型 3.5 取得 12 項名額的 7 項滿分，獲得綜合評分第一、算法模型唯一滿分和行業覆寫唯一滿分的佳績。

圖丨IDC《AI 大模型技術能力評估報告，2023》：百度 7 項滿分、綜合評分第一（來源：資料圖）

百度文心大模型 3.5 拿下 IDC 技術評估 7 項滿分

IT 市場研究和咨詢公司 IDC 在分析咨詢領域深耕了五六十年，對資訊技術和高科技行業發展趨勢的跟蹤覆寫全球 110 多個國家。目前，其所釋出的資料和名額，已經成為諸多行業和企業的重要參考依據。

2023 年 3 月，IDC 正式啟動《AI 大模型技術能力評估報告》項目。據了解，該報告與其他機構釋出的同類報告存在幾點不同。首先，其是國内最早啟動的大模型評估報告。其次，研究周期持續 4 個月，在對不同類型的不同廠商進行全面覆寫的同時，也保持對大模型能力疊代與演進的持續跟蹤。同時，評估範圍非常全面，涵蓋産品、服務、行業這三大次元和算法模型、通用能力、創新能力等十多項名額。此外，其首次提出的一套行業認可的技術評估标準，對發展大模型過程中的去僞存真也有一定借鑒意義。

如上所述，百度文心大模型 3.5 在 7 項名額中獲得滿分。具體來說，這 7 項名額分别是算法模型、通用能力、創新能力、平台能力、行業覆寫、能源和生态合作。

圖丨IDC《AI 大模型技術能力評估報告，2023》：百度獲算法模型、行業覆寫唯一滿分（來源：資料圖）

其中，算法模型是衡量産品能力的核心要素，涉及大模型訓練的資料集來源、算法結構、模型的預測和推理等方面，扮演着驅動大模型綜合效果實作的底座角色。百度文心大模型 3.5 獲得該名額下的唯一滿分，足以說明其算法模型的先進性和優越性，以及具備支撐更為全面的行業覆寫的能力。

行業覆寫考察的則是大模型的企業級客戶數量，以及落地的具體行業數。由于實作大模型應用落地是大模型發展的“最後一公裡”，是以該名額不僅是當下大模型廠商的關注重點，也已經成為衡量大模型産業落地的重要環節。那麼，顯而易見，在這方面獲得唯一滿分的百度文心大模型 3.5，有望在不遠的未來實作千行百業落地應用，并助力 AI 普惠化發展。

需要說明的是，文心大模型不是隻有一個模型，其包含 30 多個大模型，涵蓋基礎大模型、任務大模型和行業大模型三級體系。

圖丨百度文心大模型全景圖（來源：資料圖）

此外，大模型出現以後，傳統上以“晶片-OS-應用”為主要架構的 IT 技術棧也在發生改變。在這方面，百度提出“晶片-架構-模型-應用”四層技術棧，每一層都包括百度自研的多個代表性技術。比如，在晶片層，開發通用人工智能晶片“昆侖芯”，在架構層，開發深度學習平台飛槳，在模型層，有自研文心大模型，在應用層，則有相應的模型應用生态。這些都是百度 AI 大模型具備的優勢，也是 IDC 重點關注的内容。

那麼，百度之是以能夠取得此次的好成績，主要得益于其産品技術能力和行業應用能力。

新版文心一言以文心大模型 3.5 為基礎模型，綜合實力已超 ChatGPT

早在 2018 年，百度就開始布局文心大模型。2023 年 3 月，依托文心大模型的技術積累，釋出全新一代知識增強大語言模型文心一言。

如今，以文心大模型 3.5 為基礎模型的新版文心一言，能力較今年 3 月又實作極大提升。據多個公開測評結果，新版文心一言的綜合能力已超過 ChatGPT，并在某些方面具備超出 GPT-4 的表現。

整體來看，文心一言基于預訓練大模型即文心大模型 3.5，持續從海量資料和大規模知識中融合學習，具備知識增強、檢索增強和對話增強的技術特色。

如果将預訓練大模型與人類比，其就像已經閱讀過許多書籍的孩子。為了使其智力水準更加完整全面，百度在建設過程中投入高達 90% 的時間和精力。不過，在這基礎上，還需要對其進行一系列人為指導，讓模型在通過不斷的練習提升效果的同時，也能按照人類希望的方式回答問題。這些工作完成後，一個基礎的大語言模型才得以形成。

為了提高大模型的實用性，使其在事實準确性、時效性等方面更上一層樓，百度還開發了三大增強技術。

知識增強技術是讓大模型類比人類采用知識體系的方式進行學習的技術，通過内化學習和知識外用的方式，幫助模型取得更好的學習效果。檢索增強技術是一種以搜尋方式滿足新資料擷取的技術。文心一言采用新一代端到端檢索架構，能夠很好地解決資訊時效性問題。對話增強技術是通過上下文了解、記憶機制等技術，進一步提升大模型生成回答的連貫性和邏輯性。

在基本技術架構之外，文心大模型 3.5 也在以下五個方面實作新的技術突破。

第一，基于飛槳最先進的技術，如自适應混合并行訓練技術、混合精度計算等，加快模型疊代，實作基礎模型的更新。

第二，在精調技術上實作創新，通過多類型多階段有監督精調、多層次多粒度獎勵模型、多損失函數混合優化和雙飛輪結合的模型優化，進一步提升模型的效果和場景适配能力。

第三，了解并提取使用者提示和需求輸入中涵蓋的知識點，并将其變成指導大模型生成工作後的指引，進而提升大模型對世界知識的掌握和運用能力。

第四，綜合多種方法，建構大量邏輯知識，提高模型的邏輯推理能力。

第五，在大模型上建立插件機制，進一步拓展大模型能力。據介紹，目前百度搜尋和 ChatFile 這兩個插件已經應用于文心一言。

上述技術的協同發展，讓文心大模型 3.5 的效果實作很好的提升。據悉，目前文心大模型 3.5 的訓練速度和推理速度，相較之前分别提升 2 倍和 30 倍，整體模型效果提升 50%，成本也實作大幅下降。

下面就讓我們通過一些測評，來實際地體驗下文心大模型 3.5 的能力。

對于新聞從業者來說，撰寫新聞稿的能力是必須具備的。但在新聞點衆多、重要新聞事件頻發的情況下，新聞工作者的時間和精力有限，常常無法完成所有新聞報道的撰寫。如果能有一個可以生成新聞稿的 AI 工具，就能在一定程度上助力新聞工作者解決上述問題。下面，筆者使用文心一言新聞稿生成的功能，測試一下具體的效果。

我們都知道，7 月 20 日 21 時 40 分，神舟十六号乘組圓滿完成了出艙活動。那就讓文心一言以該事件為主題，生成一篇新聞稿。

圖丨實際測評（來源：測評截圖）

可以看出，由文心一言生成的新聞稿，行文規範、語句流暢、邏輯性強，已經能夠基本滿足工作需求。

試想一下，如果新聞工作者有文心一言的加持，就能極大程度地減輕工作負擔，提升工作效率。

如上所說，ChatFile 插件已經應用于文心一言上，我們可以利用該插件來測試一下文心一言在長文檔摘要、問答、潤色等功能上的效果。

2022 年 8 月，中國網際網路絡資訊中心釋出了第 50 次《中國網際網路絡發展狀況統計報告》。該報告都有哪些核心内容呢？讓文心一言來幫我們做下總結吧。

圖丨實際測評（來源：測評截圖）

除了全局性總結以外，我們還可以就報告的局部内容，讓文心一言幫我們做個總結。比如，當我們向文心一言輸入：5G+ 工業網際網路應用主要在哪幾個行業落地？

圖丨實際測評（來源：測評截圖）

通過上述測評我們可以看出，基于 ChatFile 插件，以後使用者可以友善快捷地掌握長文檔的主要内容，并進行有針對性的學習。

聯合企業釋出行業大模型，朝着大規模産業化落地方向邁進

現如今，AI 大模型已經處在向大規模産業落地邁進的階段。

就文心大模型而言，其以“源于産業實踐、服務于産業實踐”為發展定位，形成支撐大模型産業落地的關鍵路徑，并在能源、醫療、工業、金融等領域開展了廣泛全面的業務場景探索。

具體來說，百度在去年已經與國家電網、深圳瓦斯等企業機關聯合釋出 11 個行業大模型。這些行業大模型是在通用大模型的基礎上、加入行業自有資料和經驗搭建而成的，可以更加精準地适配各行業的應用需求。比如，百度和深圳瓦斯推出的瓦斯行業大模型，就能有效地解決風險識别、營運繁雜等難題。

另外，據了解，與同類大模型相比，文心大模型的産業應用規模已位居中國首位，有 15 萬家企業申請接入文心一言系統。

有資料統計，自去年年末 ChatGPT 釋出至今，國内各大企業已經先後釋出超過 90 個 10 億規模以上的大模型。從中不難看出，我們已然進入大模型時代，生成式 AI 的發展，或将給我們的産業結構，甚至于整個社會都帶來深刻的影響。

百度表示，從大模型産業化來看，目前有三個層面的挑戰亟待解決：首先是模型訓練難度大、成本高；其次是對算力規模和性能要求高；同時對海量資料進行收集、挖掘、建設和篩選，也是十分浩瀚的工程。

其認為，如今大量大模型蓬勃發展的态勢隻是一個階段性現象，各企業機構在未來攻克上述挑戰和不斷疊代大模型的過程中，會逐漸找到自己的定位，并走向更為細分的發展方向。也就是說，今後大模型将呈現少量集中的發展趨勢，既不需要大量大模型的存在，也不需要将每個應用都進行大模型開發。可以通過封裝大資料、大算力和大算法，建設自動化、數字化和标準化的生産模式，為千行百業的應用提供高效支撐。對于百度來說，其正在堅持不懈地朝着這條路徑邁進。

綜合實力已超ChatGPT！文心大模型3.5勇奪國際權威測評第一名

繼續閱讀

蘋果放棄造車原因曝光！體驗ChatGPT後怕掉隊，傳正接洽Rivian

ChatGPT沒有做的AI搜尋，是不是下一個戰場

最強OpenAI釋出新ChatGPT-4o，AI領域的突破情感識别+視覺了解

OpenAI一夜幹翻語音助手！ChatGPT學會看螢幕，現實版Her來了

突然殺出！中國版阿裡ChatGPT來了！我忍不住去注冊體驗

胡錫進要失業了？網友用ChatGPT模仿“胡編體”寫作，笑瘋

從人機互動角度聊聊ChatGPT-4o

iOS 版 ChatGPT 更新支援 App 首選語言設定中文

如何讓ChatGPT更“懂你”

生成式人工智能的風險與治理——以ChatGPT為例

這才是ChatGPT4o最大的更新！釋出會居然隻字未提！GPT-4o的識圖能力居然這麼強！連人像照都可以看出是誰👍我這裡

ChatGPT 新功能上線：聊天時可直接選擇 OneDrive 等網盤檔案｜懂點AI

ChatGPT能夠幫助醫生準确分析臨床研究和病案記錄

ChatGPT 日耗電超 50 萬度，卡死AI發展的竟然是能源？

恐怖！懇求斯坦福教授幫它“越獄”？ChatGPT-4已出現自

和ChatGPT搞黃色的年輕人