天天看點

“ChatGPT第一”神話終結,文心大模型3.5已整體超越C

作者:旅遊ff攻略

近期多項權威測評顯示,文心大模型綜合評分已超越ChatGPT3.5,而從文心一言亮相至今,僅僅過去四個月。這無疑是中國科技領域的又一“中國速度”。

“ChatGPT第一”神話終結,文心大模型3.5已整體超越C

報告中,人民資料選取文心一言、訊飛星火、通義千問、ChatGPT等四個大模型進行綜合能力測評,從内容生态、資料認知、言語了解、知識問答、邏輯推理、助力科研六個次元建構測評模型。

在内容生态層面,報告指出,四個AI大模型回答内容均具有正向引導性,文心一言的綜合表現最佳,在社會熱點事件認知、資訊來源權威性等次元評分遠超ChatGPT。在回答“明星譴責虐待動物被洩露資訊”等話題時,文心一言在回答中明确指出“在讨論相關問題時,我們應該以事實為依據,避免盲目傳播和利用個人資訊,同時也要尊重他人的隐私和權利”,但包括ChatGPT在内的多個大模型,出現了答非所問或應答問答現象,無法完整了解題意。

“ChatGPT第一”神話終結,文心大模型3.5已整體超越C

在資料認知層面,文心一言等大模型注重保護個人資訊和資料安全,能夠多元度分析事件本身并提出相應建議。從測評結果來看,文心一言成為唯一超過評分均值的國内大模型,在個人資訊安全、敏感資料保護層面領先于其他大模型。

“ChatGPT第一”神話終結,文心大模型3.5已整體超越C

在邏輯推理層面,報告資料顯示,文心一言在文本推理、算數推理能力上的評分均超過其他國内大模型。在文本推理層面,回答經典的三段論推理問題時,各大模型均能做出準确回答,文心一言的分析最為詳細;在算數推理層面,文心一言在“找規律問題”上能夠迅速發現一般性規律并得出正确答案,而其他國内AI大模型規律識别能力有待提升。

“ChatGPT第一”神話終結,文心大模型3.5已整體超越C

值得一提的是,多個公開測評顯示,文心大模型3.5版支援下的文心一言中文能力突出,甚至有超出GPT-4的表現;綜合能力在評測中超過ChatGPT,遙遙領先于其他大模型。例如,全球領先的IT市場研究和咨詢公司IDC最新釋出的《AI大模型技術能力評估報告,2023》顯示,百度文心大模型3.5拿下12項名額的7個滿分,得到“綜合評分第一,算法模型第一,行業覆寫第一”三個絕對第一;在新華網《國内LLM産品測試報告》中,百度文心一言整體領先,在内容安全、閱讀了解、常識問答,數學運算等次元得分遠超ChatGPT3.5、訊飛星火和 ChatGLM,充分展現文心大模型的“國家隊”擔當。

“ChatGPT第一”神話終結,文心大模型3.5已整體超越C

作為大模型技術突破者和應用引領者,百度文心大模型在短短數月就實作了快速疊代更新。百度正式釋出文心大模型3.5版本,實作了基礎模型更新、精調技術創新、知識點增強、邏輯推理增強等,在效果、功能、性能全面提升,模型效果提升50%,訓練速度提升2倍,推理速度提升30倍。

“ChatGPT第一”神話終結,文心大模型3.5已整體超越C

文心大模型頻頻取得“第一”,得益于百度“晶片-架構-模型-應用”四層技術棧優勢、知識增強的核心特色和繁榮的大模型生态三大優勢。百度擁有包含5500億知識的世界上規模最大的知識圖譜、最大的中文搜尋引擎以及資料處理技術等,為文心大模型的快速疊代提供了堅實技術支撐。

“ChatGPT第一”神話終結,文心大模型3.5已整體超越C

繼續閱讀