天天看點

《2023 大語言模型綜合能力測評報告》出爐:國内産品即将沖出重圍

作者:InfoQ

作者 | 魯冬雪

近日國内與人工智能領域相關的利好政策陸續釋放,中央召開的相關會議強調“未來要重視通用人工智能發展,營造創新生态。”《北京市促進通用人工智能創新發展的若幹措施(2023-2025 年)(征求意見稿)》圍繞五大方向提出 21 項具體措施,包括“開展大模型創新算法及關鍵技術研究”,“加強大模型訓練資料采集及治理工具研發”等,同時面向政務服務、醫療、科學研究、金融、自動駕駛、城市治理等領域拓展應用場景,以搶抓大模型發展機遇,推動通用人工智能領域實作創新引領,中國大模型技術産業迎來了一波前所未有的發展契機,百度、阿裡、華為等國内衆多企業迅速布局了相關業務,推出自家的人工智能大模型産品。

此外,目前全球整個大模型領域都擁有着較高密度的人才團隊,且有資本加持。在人才方面,從目前公布的部分大模型研發團隊背景可以看出, 團隊成員均來自國際頂級高校或擁有頂級科研經驗;在資本方面,以 Amazon 和 Google 舉例,這兩家 2022 年在大模型技術方面的資本性支出分别達 583 億美元和 315 億美元,并仍然呈現上漲趨勢,就 Google 最新披露資料,其訓練參數規模 1750 億的大模型, 理想訓練費用超過 900 萬美元。

當一個領域有高密度的資本和人才團隊,那意味着這個領域将有更快的發展。很多人覺得,ChatGPT 這一現象級産品橫空出世,拉開了大語言模型技術蓬勃發展的序幕。但實際上,自 2017 年大語言模型誕生,OpenAI、微軟、谷歌、Facebook、百度、華為等科技巨頭在大語言模型領域的探索持續不斷,ChatGPT 隻是将大語言模型技術推進至了爆發階段,當下大模型産品格局更是呈現出了新形勢——國外基礎模型積累深厚,國内應用側優先發力。

《2023 大語言模型綜合能力測評報告》出爐:國内産品即将沖出重圍

為此 InfoQ 研究中心基于桌面研究、專家訪談、科學分析三個研究方法,查找了大量文獻及資料,采訪了 10+ 位領域内的技術專家,同時圍繞語言模型準确性、資料基礎、模型和算法的能力、安全和隐私四個大次元,拆分出語義了解、文法結構、知識問答、邏輯推理、代碼能力、上下文了解、語境感覺、多語言能力、多模态能力、資料基礎、模型和算法的能力、安全和隐私 12 個細分次元,分别對 ChatGPT gpt-3.5-turbo、Claude-instant、Sage gpt-3.5-turbo、天工 3.5、文心一言 V2.0.1、通義千問 V1.0.1、訊飛星火認知大模型、Moss-16B、ChatGLM-6B、vicuna-13B 進行了超過 3000+ 道題的評測,根據測評結果釋出了《大語言模型綜合能力測評報告 2023》(下文簡稱《報告》)。

為了保證報告的客觀性、公正性及計算結果的準确性,InfoQ 研究中心根據樣本制造了一套科學的計算方法——通過實際測試獲得各模型對 300 道題目的答案,針對答案進行評分,正确答案獲得 2 分,部分正确的答案獲得 1 分,完全錯誤的獲得 0 分,模型表示不會做的獲得 -1 分。計算公式為“某模型在某細分類别題目得分率 = 模型得分 / 模型總分”。舉個例子,A 大模型在 7 道題目的類别中總得分為 10,該類題目可獲得的總得分為 7*2=14,則 A 大模型在這個題目類别的得分為 10/14=71.43%。

基于以上評測方法,報告主要得出了許多值得大家關注的結論,希望下文的核心結論解讀可以為各位的未來大語言模型技術具體實踐和探索提供方向。

百億參數規模是大模型訓練的“入場券”,大模型技術革命已經開始

企業對于大模型産品研發需要同時具備三大要素,分别為資料資源要素、算法和模型要素、資金和資源要素。通過對目前市場中的産品特征進行分析,InfoQ 研究中心發現資料資源、資金和資源兩要素為大模型研發的基礎要素,算法和模型是目前區分大語言模型研發能力的核心要素。算法和模型影響的的模型豐富度、模型準确性、能力湧現等都成為評價大語言模型優劣的核心名額。此處需要說明的是,雖然資料、資金資源為大語言模型研發設定了高門檻, 但對于實力雄厚的大型企業仍然是挑戰較小的。

《2023 大語言模型綜合能力測評報告》出爐:國内産品即将沖出重圍

仔細研究大模型産品的核心要素會發現,大模型訓練需要“足夠大”,百億參數規模是“入場券”。就 GPT-3 和 LaMDA 的資料顯示,在模型參數規模處于 100 到 680 億這個區間時,大模型的很多能力(如計算能力)幾乎為零。同時,大量計算觸發了“煉丹機制”,根據 NVIDIA 論文裡的附錄章節顯示,一次疊代的計算量約為 4.5 ExaFLOPS,而完整訓練需要 9500 次疊代,完整訓練的計算量即為 430 ZettaFLOPS(相當于單片 A100 跑 43.3 年的計算量)。

《2023 大語言模型綜合能力測評報告》出爐:國内産品即将沖出重圍

資料來源:Sparks of Artificial General Intelligence Early experiments with GPT-4

縱觀全球大模型訓練參數規模的數量級,根據民生證券研究所和 wiki 百科資料顯示,國際領先的大模型 GPT-4 的推測參數量級可達 5 萬億以上,國内部分大模型規模大于 100 億。其中,百度研發的 Ernie 和華為研發的盤古目前是有資料的國内大模型參數規模的領先者。

《2023 大語言模型綜合能力測評報告》出爐:國内産品即将沖出重圍

InfoQ 研究中心對各家的大語言模型進行了綜合測試後也發現,國外的 ChatGPT 各項能力确實很抗打,位居第一位。令人驚喜的是,百度的文心一言闖進了前三名,位居第二,而且值得一提的是,其綜合得分僅落後 ChatGPT 2.15,遠超第三名 Claude。

《2023 大語言模型綜合能力測評報告》出爐:國内産品即将沖出重圍

資料說明:測評結果僅基于上文所列模型,測評截止時間為 2023 年 5 月 25 日

在整個研究過程中,InfoQ 研究中心發現,算法和訓練模型水準主導大語言模型的能力表現。從基礎模型到訓練方式的工程化,再到具體的模型訓練技術,目前賽道中的所有廠商,每一個環節模型選型的差異造就了大語言模型的最終能力表現的差異。

《2023 大語言模型綜合能力測評報告》出爐:國内産品即将沖出重圍

可能各個廠商的産品能力有所差異,但是因為參與到大模型技術建設的玩家足夠多,他們對技術持續的探索,讓我們看到了大模型技術革命成功的希望。在大模型産品百花齊放的當下,大語言模型将計算機能力從“搜尋”拓展到了“認知 & 學習”到“行動 & 解決方案”層面,大語言模型的核心能力已經呈現出金字塔結構。

《2023 大語言模型綜合能力測評報告》出爐:國内産品即将沖出重圍

“寫作能力”和“語句了解能力”是大語言模型目前擅長能力的 Top2

據 InfoQ 研究中心的測評結果顯示,安全和隐私問題是大語言模型研發的共識和底線,位居能力評分第一位。大語言模型的基礎能力整體表現均排名更為靠前,邏輯推理相關的程式設計、推理和上下文了解目前整體表現仍有較大的提升空間;多模态仍然是少數大語言模型的獨特優勢。

《2023 大語言模型綜合能力測評報告》出爐:國内産品即将沖出重圍

在基礎能力層面,大語言模型展現出了優秀的中文創意寫作能力。在六個寫作細分題目分類中, 大語言模型表現均較為突出,其中訪談提綱和郵件寫作都獲得了接近滿分的成績,而比較之下視訊腳本的寫作仍然是大語言模型産品較不熟悉的領域,細分題目類别得分僅為 75%。

《2023 大語言模型綜合能力測評報告》出爐:國内産品即将沖出重圍

關于文學題,随着寫作難度的升高,大語言模型表現的能力水準遞減。其中表現最好的闆塊為簡單寫作題,得分為 91%;對聯題雖然很多模型表現較好,但是有⼀些模型對對聯回答表現欠佳, 整體得分最低為 55%。

《2023 大語言模型綜合能力測評報告》出爐:國内産品即将沖出重圍

然而,在語義了解方面,目前的大語言模型就沒有那麼“靈”了。在方言了解、關鍵詞提煉、語義相似判斷、“怎麼辦”4 個題目分類中, 大語言模型呈現很大的差異化分布, “怎麼辦”題獲得最高分 92.5%,中文方言了解題難倒了大語言模型,整體準确率僅為 40%。

《2023 大語言模型綜合能力測評報告》出爐:國内産品即将沖出重圍

InfoQ 研究中心的報告顯示,就中文知識這一類題目而言,國内模型表現明顯優于國際模型。在十個模型中知識得分最高的為文心一言,得分 73.33%,得分第二的為 ChatGPT,得分為 72.67%。除 IT 知識問答題目外,其他八個題目分類中國内的大模型産品在中文知識環境中會的問答表現整體接近或優于國際大模型産品。

《2023 大語言模型綜合能力測評報告》出爐:國内産品即将沖出重圍

事實上,無論是中文創意寫作,還是語義了解、中文知識問答,這些題目都主要反應的是大語言模型産品對文字的基礎認知和學習能力,而我們從測評結果中清晰的看到,百度文心一言各方面資料表現優異,各項能力評分都位居 Top2。然而,我們看到的其實不僅是文心一言的技術能力,我們更多看到的是國内大語言模型的強勢技術突破和顯著進步。

國内産品在跨語言翻譯中仍有較大提升空間,邏輯推理能力整體挑戰較大

随着近幾年,國家和國内各廠商在人工智能領域的投入逐年增大,我們看到了國内大語言模型的飛速進步,技術成果使我們喜悅,但是當我們更客觀地去看大語言模型技術的發展,我們會發現我們在一些方面和國際水準相比還有許多提升空間。

比如我們從 InfoQ 研究中心釋出的《報告》就可以得知,國外産品程式設計能力顯著高于國内産品,在十個模型中程式設計得分最高的為 Claude,得分 73.47%,國内産品表現最好的文心一言,得分 68.37%,與 Claude 還存在一定的距離。在四個題目分類中,Android 相關題目國外産品明顯超越國内産品,但令人驚喜的是,在“代碼自動補全類”題目中,國内産品文心一言已經超越國外産品,這說明國内産品超越國際水準僅是時間問題。

《2023 大語言模型綜合能力測評報告》出爐:國内産品即将沖出重圍

此外,在十個模型中知識得分最高者也是 Claude,得分 93.33%,國内大語言模型得分最高的分别為文心一言和天工 3.5,但與國際水準依舊存在差距。要知道,翻譯類題目主要反應大語言模型産品對語言的了解能力,此次 InfoQ 評測的“程式設計翻譯題”、“英文寫作”、“英文閱讀了解”三個題目分類中,大語言模型呈現很大的差異化分布, 在測評的所有模型中,英文寫作題獲得的最高分 80%,而英文閱讀了解僅獲得得分 46%,這意味着國内産品在跨語言翻譯方面還需要繼續努力疊代。

《2023 大語言模型綜合能力測評報告》出爐:國内産品即将沖出重圍

差距猶在,但不必妄自菲薄,大模型技術的技術演進一直在進行着。據《報告》顯示,目前整個大語言模型在邏輯推理能力方面的挑戰都比較大。為了考評大語言模型的了解力和判斷力,InfoQ 研究中心設定了多個次元的邏輯推理題。在商務制表題、數學計算題、數學應用題、幽默題、中文特色推理題 5 個題目分類中,大語言模型整體得分都低于基礎能力。分析原因, 商務制表題不但需要搜集和識别内容還需要在内容的基礎上做邏輯分類和排序,整體難度較大,邏輯推理能力是未來大語言模型産品的主要進攻方向。

在 InfoQ 研究中心測評的十個模型中,邏輯推理題得分最高的為文心一言和訊飛星火,得分均為 60%,與得分最高的 ChatGPT 僅差 1.43%。在部分細分領域,國内産品的表現還是十分優異的,比如在中文特色推理題中,國内模型領先國際模型得分較多, 國内模型對中文内容和邏輯的熟悉應該是該結果的核心原因。

《2023 大語言模型綜合能力測評報告》出爐:國内産品即将沖出重圍

從 InfoQ 研究中心釋出的以上測評結果來看國内産品與國外産品的差距,國内大語言模型能力接近 GPT3.5 水準,但是與 GPT4 能力仍存在巨大差距。然而,縱觀整個大語言模型領域,其實我們每個人都可以清晰地發現,大語言模型技術的發展門檻和挑戰還是非常高的,晶片門檻、實踐經驗積累的門檻、資料和語料門檻都需要國内外各大廠商一起努力突破。

從 InfoQ 研究中心的評測結果來看,文心一言的綜合評分已與 ChatGPT 所差無幾,在中國最新湧起的網際網路革命浪潮中,文心一言可以稱之為國内最有希望在短期内趕超國際水準的 AIGC 産品。而擁有衆多 AI 專家的文心一言團隊一直保持着兢兢業業地技術探索态度,努力縮小差距中,文心一言的下一次突破已經不遠了,值得我們所有人期待。

活動推薦

《大語言模型綜合能力測評報告 2023》選取語言模型準确性、資料基礎、模型和算法的能力、安全和隐私四個大次元和 12 個細分次元,分别對 ChatGPT、Claude、Sage、天工 3.5、文心一言、通義千問、訊飛星火、Moss、ChatGLM、vicuna-13B 進行了超過 3000+ 道題的評測。識别下圖二維碼或點選閱讀原文,立即獲得大語言模型、AGI 創業方向選擇、工作實際應用的最新認知吧!

繼續閱讀