天天看點

卷出新高度!“盲考”20個主流大模型 文心3.5國内斬獲第一

作者:響鈴說

7月25日消息,中文通用大模型綜合性基準SuperClue釋出了最新中文大語言模型排行榜。榜單結果顯示,百度文心一言總分超GPT-3.5-Turbo,領跑國内大模型。

卷出新高度!“盲考”20個主流大模型 文心3.5國内斬獲第一

SuperCLUE-Opt評測基準是SuperCLUE綜合性三大基準之一,每期有3700+道客觀題(選擇題),由基礎能力(10個子任務)、中文特性能力(10個子任務)、學術專業能力(50+子任務)組成,用于考察大模型在70餘個任務上的綜合表現。

此次SuperCLUE從基礎能力、專業能力、中文特性能力三個次元70餘項子能力,選取國内外20個有代表性的可用大模型進行測評,兼具綜合能力考量與中文特定任務了解積累的考察,并通過自動化測評以相對客觀形式進行效果測評。在總分榜中,文心一言緊随GPT-4,總分超GPT-3.5及國内其他大模型,模型效果最佳。

卷出新高度!“盲考”20個主流大模型 文心3.5國内斬獲第一

從榜單結果可以看出,雖然國外GPT-4效果較領先,但國内GPT模型也有不俗表現。在中文領域,國内研發的大模型在部分次元表現突出,整體在逐漸縮小與國際先進模型的差距。整體來看,國内大模型中百度文心一言表現最優。文心一言v2.2.0版背後搭載的是文心大模型3.5,文心大模型自2019年3月釋出1.0版後,現已更新到3.5版。新版本模型效果提升50%,訓練速度提升2倍,推理速度提升30倍。

據了解,這次評榜的SuperClue是一個由國内發起的大模型榜單,是中文領域權威測評社群。相較于國外的UC伯克利LLM排行榜和斯坦福排行榜AlpacaEval兩個流行榜單,多了一些國内大模型,更加适合國内使用者來橫向比較。作為針對中文可用的通用大模型測評标準,SuperCLUE使用多個次元能力對一系列國内外代表性模型進行測試,因其為封閉式問題,對大模型來說是“閉卷考試”,測評更難。

卷出新高度!“盲考”20個主流大模型 文心3.5國内斬獲第一

評測基準中,基礎能力包括了常見的有代表性的模型能力,如語義了解、對話、邏輯推理、角色扮演、代碼、生成與創作等10項能力;專業能力包括了中學、大學與專業考試,涵蓋了從數學、實體、地理到社會科學等50多項能力;中文特性能力包括了中文成語、詩歌、文學、字形等10項多種能力。

值得一提的是,全球領先的IT市場研究和咨詢公司IDC最新釋出《AI大模型技術能力評估報告,2023》顯示,百度文心大模型3.5拿下12項名額的7個滿分,綜合評分第一,算法模型第一,行業覆寫第一,其中也是算法模型次元的唯一一個滿分 。

卷出新高度!“盲考”20個主流大模型 文心3.5國内斬獲第一

另據近期多個公開測評顯示,文心大模型3.5版支援下的文心一言中文能力突出,甚至有超出GPT-4的表現;綜合能力在評測中超過ChatGPT,遙遙領先于其他大模型,穩居國内第一。