天天看點

Llama-2首個全方位評測,國内外開源模型大比拼

作者:量子位

允中 發自 凹非寺

量子位 | 公衆号 QbitAI

進入2023年7月,大語言模型(LLM)的發展進入了新階段,開源成為一個火熱的主題。

  • 7月6日,上海人工智能實驗室與商湯科技等聯合釋出了書生·浦語開源體系(https://github.com/InternLM),不僅開源了書生·浦語的輕量版本(InternLM-7B),還率先開源了從資料、訓練到評測的全鍊條工具體系,并提供完全免費的商用許可;
  • 7月14日,智譜科技開放ChatGLM2-6B免費商用;
  • 7月19日,Meta開源了性能更強的Llama-2,也提供了更加寬松的商用許可。

面對語言模型的新一波開源浪潮,圖靈獎得主Yann Lecun在推特上評價:

This is going to change the landscape of the LLM market.
Llama-2首個全方位評測,國内外開源模型大比拼

可是,開源模型的表現是否可以當得起業界的熱切期待?

我們在拿到Llama-2的系列開源模型後,通過OpenCompass對它進行了全方位的評測(https://opencompass.org.cn)。

Llama-2有多強

Llama-2相比Llama-1有不少技術層面的改進,進而帶來了模型性能、推理效率以及安全性等方面的有效提升。具體而言,重要的改進有以下幾點:

  • 模型架構上使用Group-Query-Attention(GQA)來提高模型推理效率,語境長度從2K增加一倍到4K。
  • 預訓練語料從1.4T tokens增加到2T tokens。
  • 在監督微調(SFT)階段更加注重資料集品質,使用更少但品質更高的SFT資料相比使用百萬量級的公開SFT資料,效果顯著提升。
  • 引入了三項安全訓練技術Supervised Safety Fine-Tuning、Safety RLHF、Safety Context Distillation 提升模型的安全性。

相比前代性能大增,仍難媲美ChatGPT

那麼,Llama-2的整體能力究竟如何呢?

雖然在官方技術報告中已經展示了在20個左右資料集上的測試結果,但評價能力次元仍然有限,對比的模型也還不夠全面。

這裡我們借助開源評測工具OpenCompass,對Llama-2釋出的各個模型在40多個評測集上進行了全方位的評測,從學科、語言、知識、了解、推理五大次元綜合衡量大模型的能力。

Llama-2首個全方位評測,國内外開源模型大比拼

結果可以總結為以下的雷達圖:

Llama-2首個全方位評測,國内外開源模型大比拼

下表列出Llama、Llama-2、以及ChatGPT在幾個有代表性評測集上的表現:

Llama-2首個全方位評測,國内外開源模型大比拼

更全面和詳細的評測結果數字請參看https://opencompass.org.cn。

相比上代模型全面提升:

從綜合能力角度,Llama-2-70B(綠色)相比于Llama-1-65B(紫色)更勝一籌,在語言、知識、推理、了解、學科等各個能力次元相比Llama-1都有明顯提升。比如綜合考試集MMLU上從63.71提升到69.75,GSM8K 上從54.51提升到63.46。

對話和基座模型基本持平:

經過微調和對齊的模型Llama-2-70B-Chat(黃色)相比基座模型Llama-2-70B(綠色),綜合能力基本持平,在語言、推理和了解上相比基座有性能提升,在學科綜合能力和知識能力上略有下降。比如翻譯評測集Flores和代碼評測集HumanEval上,Chat模型分别有超過40%和20%的相對提升,而在MMLU和TrivialQA上則有大約10%的相對降低。

離ChatGPT仍有較大差距:

相比ChatGPT-0613(藍色),Llama-2-70B-Chat(黃色)仍需繼續追趕,尤其在推理能力、了解能力、和學科綜合能力上差距還比較明顯。其中數學評測集MATH和代碼評測集HumanEval的差距都超過了一倍。

中文能力短闆明顯

在Llama的訓練語料中,中文占比較小,微調階段也沒有針對中文進行調優,是以目前Llama-2-Chat在中文問題上仍顯不足。

一個典型的表現就是給定中文問題時,模型還是會以英文回答。

Llama-2首個全方位評測,國内外開源模型大比拼

為了對Llama-2的中英文能力有更深入的了解,我們選取了OpenCompass中的中英文資料集進行分别分析。

Llama-2首個全方位評測,國内外開源模型大比拼
Llama-2首個全方位評測,國内外開源模型大比拼

結果顯示:

  • Llama-2在英語語言能力、知識水準和了解能力上已經較為接近ChatGPT。
  • Llama-2在中文能力上全方位遜色于ChatGPT。這一結果表明,Llama-2本身作為基座模型直接支援中文應用并不是一個特别優秀的選擇。
  • 推理能力上,不管中英文,Llama-2距離ChatGPT仍然存在較大差距。由此可見,對于大模型來說,推理能力提升的難度比基礎語言能力提升的難度要高得多。

安全對齊讓模型過度謹慎

Llama-2的一大特色是它在訓練過程中采用了比較完善的安全對齊方案,在價值對齊和安全性上有較大提升。

但在測試中我們也發現,Llama-2的安全性和模型能力的平衡沒有做得特别好,模型非常謹小慎微,對于很多常見問題都拒絕回複。

Llama-2首個全方位評測,國内外開源模型大比拼
Llama-2首個全方位評測,國内外開源模型大比拼

國内模型不落下風

近幾個月,國内大模型發展迅速,多個企業和科研機構都釋出了各自的大模型,其中不乏千億參數的大模型。

那麼國内大模型和Llama-2相比,究竟表現如何呢?很多朋友都關心這個問題。

重量級模型的對比

國内機構釋出的70B或者更高量級的模型普遍尚未開源,很多模型隻通過内測API提供有限服務,是以我們還很難獲得對很多國産模型的全量評測資料。

在OpenCompass上,由上海人工智能實驗室和商湯科技聯合多所高校釋出的千億參數書生·浦語模型(InternLM-104B)已經有了全面的評測結果。

基于這個結果,我們比較了書生·浦語和ChatGPT與Llama-2的性能:

Llama-2首個全方位評測,國内外開源模型大比拼

在重量級模型的對比中,書生·浦語表現優秀,在大部分主流評測集上領先于Llama-2以及ChatGPT。具體而言,在43個評測集中,InternLM-104B在34個評測集中超越ChatGPT,在41個評測集上超越Llama-2-70B。

中文考試大幅領先:

在中文考試評測集CEval和聯考評測集GAOKAO-Bench上,InternLM-104B都大幅超過Llama2-70B。

語言能力略有優勢:

在中英文的基礎語言任務上,包括字詞了解,成語習語,翻譯等評測集上,InternLM-104B都有優勢,其中中文評測集上差距更大。

閱讀了解“書生”名副其實:

在中英文的各類閱讀了解評測集上,InternLM-104B均表現出明顯的優勢,從文本段中總結和了解關鍵資訊的能力更勝一籌。

推理能力技高一籌:

在常識推理、數學推理、綜合推理的各種資料集上,InternLM-104B都有比較穩定的發揮,相比Llama2-70B有一定優勢。

知識問答平分秋色:

在BoolQ,CommonSenseQA,TrivialQA,NaturalQuestion等知識問答評測集上,兩個模型表現相當,可見知識水準沒有明顯差異。

代碼能力互有勝負:

InternLM-104B和Llama2-70B的代碼能力不相上下,HumanEval和 MBPP兩個資料集上互有勝負。

輕量級模型的對比

重量級賽道上你追我趕,在7B量級的輕量級賽道上,開源模型的競争也十分活躍。

在衆多國内開源模型之中,百川智能釋出的Baichuan-7B、清華大學和智譜AI釋出的ChatGLM2-6B、上海人工智能實驗室釋出的InternLM-7B等優秀模型廣受業界關注。

我們把這些國内模型和Llama-2-7B進行了全方位評測對比:

Llama-2首個全方位評測,國内外開源模型大比拼

下表列出了這幾個7B量級模型在幾個有代表性評測集上的表現:

Llama-2首個全方位評測,國内外開源模型大比拼

結果顯示:Llama-2在知識能力上有明顯優勢。

但在學科、語言、推理和了解能力上,InternLM和ChatGLM2都已經超越了Llama-2,而且InternLM的領先優勢十分明顯。

免費商用形成星火之勢

幾個月前Llama的開源引爆了社群,讓衆多開發者和研究者受益匪淺,衍生出整個羊駝家族,但遺憾的是其協定限制商用,将企業拒之門外。

7月6日,世界人工智能大會上,書生浦語開源體系正式釋出,開源了InternLM-7B并提供免費商用許可。

之後,ChatGLM2-6B和Llama2等開源模型相繼推進免費商用,順應了發展潮流和社群呼聲。

相信開源社群的星星之火将對産業形成燎原之勢,進一步降低大模型落地應用的門檻。

— 完 —

量子位 QbitAI · 頭條号簽約

關注我們,第一時間獲知前沿科技動态