“ChatGPT第一”神話終結，文心大模型3.5已整體超越C

近期多項權威測評顯示，文心大模型綜合評分已超越ChatGPT3.5，而從文心一言亮相至今，僅僅過去四個月。這無疑是中國科技領域的又一“中國速度”。

報告中，人民資料選取文心一言、訊飛星火、通義千問、ChatGPT等四個大模型進行綜合能力測評，從内容生态、資料認知、言語了解、知識問答、邏輯推理、助力科研六個次元建構測評模型。

在内容生态層面，報告指出，四個AI大模型回答内容均具有正向引導性，文心一言的綜合表現最佳，在社會熱點事件認知、資訊來源權威性等次元評分遠超ChatGPT。在回答“明星譴責虐待動物被洩露資訊”等話題時，文心一言在回答中明确指出“在讨論相關問題時，我們應該以事實為依據，避免盲目傳播和利用個人資訊，同時也要尊重他人的隐私和權利”，但包括ChatGPT在内的多個大模型，出現了答非所問或應答問答現象，無法完整了解題意。

在資料認知層面，文心一言等大模型注重保護個人資訊和資料安全，能夠多元度分析事件本身并提出相應建議。從測評結果來看，文心一言成為唯一超過評分均值的國内大模型，在個人資訊安全、敏感資料保護層面領先于其他大模型。

在邏輯推理層面，報告資料顯示，文心一言在文本推理、算數推理能力上的評分均超過其他國内大模型。在文本推理層面，回答經典的三段論推理問題時，各大模型均能做出準确回答，文心一言的分析最為詳細；在算數推理層面，文心一言在“找規律問題”上能夠迅速發現一般性規律并得出正确答案，而其他國内AI大模型規律識别能力有待提升。

值得一提的是，多個公開測評顯示，文心大模型3.5版支援下的文心一言中文能力突出，甚至有超出GPT-4的表現；綜合能力在評測中超過ChatGPT，遙遙領先于其他大模型。例如，全球領先的IT市場研究和咨詢公司IDC最新釋出的《AI大模型技術能力評估報告，2023》顯示，百度文心大模型3.5拿下12項名額的7個滿分，得到“綜合評分第一，算法模型第一，行業覆寫第一”三個絕對第一；在新華網《國内LLM産品測試報告》中，百度文心一言整體領先，在内容安全、閱讀了解、常識問答，數學運算等次元得分遠超ChatGPT3.5、訊飛星火和 ChatGLM，充分展現文心大模型的“國家隊”擔當。

作為大模型技術突破者和應用引領者，百度文心大模型在短短數月就實作了快速疊代更新。百度正式釋出文心大模型3.5版本，實作了基礎模型更新、精調技術創新、知識點增強、邏輯推理增強等，在效果、功能、性能全面提升，模型效果提升50%，訓練速度提升2倍，推理速度提升30倍。

文心大模型頻頻取得“第一”，得益于百度“晶片-架構-模型-應用”四層技術棧優勢、知識增強的核心特色和繁榮的大模型生态三大優勢。百度擁有包含5500億知識的世界上規模最大的知識圖譜、最大的中文搜尋引擎以及資料處理技術等，為文心大模型的快速疊代提供了堅實技術支撐。

“ChatGPT第一”神話終結，文心大模型3.5已整體超越C

繼續閱讀

資深老鳥幹貨分享：使用ChatGPT學習Go語言容易得多

颠覆未來：ChatGPT 4o 如何徹底改變人機互動的規則

ChatGPT-4o，OpenAI的一小步，人類「AI助理」的一大步

蘋果放棄造車原因曝光！體驗ChatGPT後怕掉隊，傳正接洽Rivian

ChatGPT沒有做的AI搜尋，是不是下一個戰場

最強OpenAI釋出新ChatGPT-4o，AI領域的突破情感識别+視覺了解

OpenAI一夜幹翻語音助手！ChatGPT學會看螢幕，現實版Her來了

突然殺出！中國版阿裡ChatGPT來了！我忍不住去注冊體驗

胡錫進要失業了？網友用ChatGPT模仿“胡編體”寫作，笑瘋

從人機互動角度聊聊ChatGPT-4o

iOS 版 ChatGPT 更新支援 App 首選語言設定中文

如何讓ChatGPT更“懂你”

生成式人工智能的風險與治理——以ChatGPT為例

這才是ChatGPT4o最大的更新！釋出會居然隻字未提！GPT-4o的識圖能力居然這麼強！連人像照都可以看出是誰👍我這裡

ChatGPT 新功能上線：聊天時可直接選擇 OneDrive 等網盤檔案｜懂點AI

ChatGPT能夠幫助醫生準确分析臨床研究和病案記錄