天天看點

面壁新模型:早于Llama3、比肩 Llama3、推理超越 Llama3!

作者:雷峰網

[雷峰網]兩周前,面壁釋出領先的開源大模型「Eurux-8x22B 」。相比口碑之作 Llama3-70B,釋出時間更早,綜合性能相當,尤其是擁有更強的推理性能——重新整理開源大模型推理性能 SOTA,堪稱開源大模型中「理科狀元」。激活參數僅 39B,支援 64k 上下文,相比 Llama3 速度更快、可處理更長文本。

面壁新模型:早于Llama3、比肩 Llama3、推理超越 Llama3!

圖注:面壁Eurux-8x22B 模型在 LeetCode 和 TheoremQA這兩個具有挑戰性的基準測試中,重新整理開源大模型推理性能 SOTA。

面壁新模型:早于Llama3、比肩 Llama3、推理超越 Llama3!

圖注:面壁Eurux-8x22B 模型綜合性能比肩 LlaMa3-70B,超越開源模型 WizardLM-2-8x22b, Mistral-8x22b-Instruct,DeepSeek-67b,以及閉源模型 GPT-3.5-turbo。

Eurux-8x22B 由 Mistral-8x22B對齊而來。強勁戰鬥力,來自面壁 Ultra 對齊技術上新 UltraInterat 大規模、高品質對齊資料集。此前,面壁 Ultra 對齊系列資料集已經“強壯”了全球超 200 個大模型,堪稱大模型上分神器。

Eurux-8x22B模型+對齊資料集,全家桶開源:

https://github.com/OpenBMB/Eurus

https://huggingface.co/openbmb/Eurux-8x22b-nca

開源大模型「理科狀元」

開源大模型「理科狀元」

複雜推理能力是展現大模型性能差異的最核心能力之一,也是大模型真正落地應用所需的關鍵能力所在。

Eurux-8x22B 在代碼和數學等複雜推理的綜合性能方面超越 Llama3-70B,重新整理開源大模型 SOTA,堪稱「理科狀元」。特别在 LeetCode (180道LeetCode真題)和 TheoremQA(美國大學水準的STEM題目)這兩個具有挑戰性的基準測試中,超過現有開源模型。

面壁新模型:早于Llama3、比肩 Llama3、推理超越 Llama3!

圖注:Eurux-8x22B 在代碼和數學等複雜推理綜合性能方面超越 Llama3-70B,重新整理開源大模型 SOTA。

開源大模型「理科狀元」Eurux-8x22B在實際應用中表現如何呢?

在近期 LeetCode 周賽,這一檢驗人類程式員程式設計能力的真實競技場上:Eurux-8x22B 在 Python 程式設計方面取得綜合排名超越了80% 的人類參賽選手的優秀成績,成功解決四道算法題中的三道,可以初步通過網際網路大廠的程式員程式設計面試。

下面是本次周賽中Eurux-8x22B對一道中等難度的算法題的真實解答:

面壁新模型:早于Llama3、比肩 Llama3、推理超越 Llama3!
面壁新模型:早于Llama3、比肩 Llama3、推理超越 Llama3!

除了代碼能力優秀,Eurux-8x22B 解答數學題也是輕而易舉。

例如給它一道高中排列組合題,Eurux-8x22B 首先給出了清晰的解題思路,然後一步步地拆解執行,再進行結果彙總,最後得到正确答案。

面壁新模型:早于Llama3、比肩 Llama3、推理超越 Llama3!

再考察它一道代數題,Eurux-8x22B 直擊要害,運用二項式定理,清晰簡潔地給出了正确的解答。

面壁新模型:早于Llama3、比肩 Llama3、推理超越 Llama3!

接着給它一道向量代數題,Eurux-8x22B 也能輕松拿下。

面壁新模型:早于Llama3、比肩 Llama3、推理超越 Llama3!

聯考函數題可能是令很多人回憶起來就頭疼的一類題,Eurux-8x22B 也能解答無誤。

面壁新模型:早于Llama3、比肩 Llama3、推理超越 Llama3!

(需要說明的是,Eurux-8x22B 沒有針對中文語料進行額外的微調和對齊!)

面壁 Ultra 對齊技術,大模型上分神器!

本次大模型「理科狀元」 Eurux-8x22B 的優異表現,得益于來自面壁 Ultra 對齊技術的大規模、高品質對齊資料集UltraInteract上新。

好資料,才有好模型。此前,面壁 Ultra 對齊技術已經“強壯”了全球超 200 個大模型,堪稱大模型上分神器。

➤ UltraInterat對齊資料集位址:

? https://github.com/OpenBMB/Eurus

UltraInteract是專門設計用于提升大模型推理能力的大規模、高品質的對齊資料集,包含了覆寫數學、代碼和邏輯推理問題的12個開源資料集的86K條指令和220K偏好對,共有五十萬(條)左右資料。相比而言,LLaMA 3-70B模型則是使用了千萬量級的對齊資料,這從側面證明了 UltraInteract 資料集的優質性——資料品質勝過資料數量。UltraInteract 資料集開源後在社群受到了廣泛好評。

面壁新模型:早于Llama3、比肩 Llama3、推理超越 Llama3!
面壁新模型:早于Llama3、比肩 Llama3、推理超越 Llama3!

從領先的端側模型「小鋼炮」MiniCPM,到開源模型推理新 SOTA 的Eurux-8x22B,為什麼面壁智能總能推出同等參數、性能更優的「高效大模型」?答案是,大模型是一項系統工程,而面壁作為國内極少數兼具大模型算法與 infra 能力的團隊,擁有自研的全流程高效生産線:面壁 Ultra 對齊技術、Infra 工藝、獨家「模型沙盒」實驗和現代化資料工廠,從資料、訓練到調校工藝環環相扣,一條優秀的大模型Scaling Law增長曲線由此而生。

Infra工藝方面,面壁建構了全流程優化加速工具套件平台ModelForce,可以實作 10 倍推理加速,90% 成本降低。

面壁新模型:早于Llama3、比肩 Llama3、推理超越 Llama3!

算法方面,通過上千次以上的「模型沙盒」實驗,探索更加科學的訓模方法。以小見大,尋找高效模型訓練配置,實作模型能力快速形成。

面壁新模型:早于Llama3、比肩 Llama3、推理超越 Llama3!

➤ Eurux-8x22B模型GitHub位址:

https://github.com/OpenBMB/Eurus

➤ Eurux-8x22B模型HuggingFace位址:https://huggingface.co/openbmb/Eurux-8x22b-nc

➤ UltraInterat對齊資料集位址:

https://github.com/OpenBMB/Eurus

繼續閱讀