大模型又開“卷”，萬億參數閉源模型、四千億開源模型來了

4 月 17 日，兩家大模型企業相繼宣布重大更新。

午間，MiniMax在其公衆号宣布正式推出abab 6.5 系列模型，其中abab 6.5 包含萬億參數，支援 200k tokens的上下文長度，abab 6.5s 與 abab 6.5 使用了同樣的訓練技術和資料，但是更高效，支援 200k tokens 的上下文長度，可以 1 秒内處理近 3 萬字的文本。

更早一點，上午昆侖萬維在其官方公衆号宣布，開源4000億參數的大模型天工3.0，這超越了馬斯克此前開源的3140億參數的Grok-1，是全球最大的開源MoE（混合專家模型）大模型。昆侖萬維提到，天工3.0在語義了解、邏輯推理、通用性、泛化性、不确定性知識、學習能力等領域擁有突破性的性能提升，在MMBench等多項權威多模态測評結果中，天工3.0超越GPT-4V。

來到2024年，大模型領域的“千模大戰”還在繼續。開源模型的參數一次比一次更大，從幾百億來到幾千億，而閉源模型也在不斷沿着Scaling Laws（尺度定律）路徑更新，在千億參數的基礎上攀登萬億。同時，大模型廠商也拿出了更多的應用開始落地。

有觀點認為2024年會是應用爆發的一年，此前第一财經記者問及MiniMax技術副總裁安德森是否認可這一觀點，他認為很有可能爆發，“今年大模型相關技術仍然會高速發展，大機率會達到難以想象的高度。”

“卷”大模型

在釋出模型時，按照慣例各家都會公布對标頭部模型的能力分數。

MiniMax表示，各類核心能力測試中，abab 6.5開始接近 GPT-4、 Claude-3、 Gemini-1.5 等世界上最領先的大語言模型。

MiniMax在 200k token 内進行了業界常用的“大海撈針”測試，即在很長的文本中放入一個和該文本無關的句子（針），然後通過自然語言提問模型，看模型是否準确将這個“針”回答出來。MiniMax提到，在 891 次測試中，abab 6.5 均能正确回答。

昆侖萬維提到，“在MMBench等多項權威多模态測評結果中，天工3.0超越GPT-4V。”相較于上一代天工2.0 MoE大模型，天工3.0模型技術知識能力提升超過20%，數學/推理/代碼/文創能力提升超過30%。

天工3.0新增了搜尋增強、研究模式、調用代碼及繪制圖表、多次調用聯網搜尋等能力，并針對性地訓練了模型的Agent能力，能夠獨立完成規劃、調用、組合外部工具及資訊。

昆侖萬維表示，天工3.0是全球首個多模态“超級模型”（Super Model），內建了AI搜尋、AI寫作、AI長文本閱讀、AI對話、AI語音合成、AI圖檔生成、AI漫畫創作、AI圖檔識别、AI音樂生成、AI代碼寫作、AI表格生成等多項能力，是大模型時代的“超級應用”。

對于國内大模型圈子來說，兩家公司今日的更新都将大模型水準再提升了一個台階。

在MiniMax之前，階躍星辰是國内第一個對外公開萬億參數模型的創業公司，不過當時釋出的是預覽版，在3月23日的2024全球開發者先鋒大會上，在釋出Step-1 千億參數語言大模型的同時，階躍星辰創始人姜大昕對外釋出了Step-2萬億參數MoE語言大模型預覽版，提供 API 接口給部分合作夥伴試用。

階躍星辰創始人姜大昕是微軟前全球副總裁，在公布萬億參數模型預覽版時，他提到，“要把模型做大不是一件簡單的事情”。

在過去的一年，國内不下 10個模型達到了 GPT-3.5 的水準，是以業内有個觀點，認為追趕 OpenAI也沒有那麼困難。但實際上， GPT-3.5 是一個千億參數的模型。要達到 GPT-4 的萬億規模參數，各個次元的要求都上了一個台階，階躍星辰表示，“模型規模提升到萬億對算力、系統、資料和算法都提出了新要求。”業内隻有極少數公司能做到。

而在開源模型參數方面，上一次破紀錄的更新是在3月18日，馬斯克旗下大模型公司 xAI 在官網宣布開源 3140 億參數的大模型Grok-1，這是當時參數量最大的開源模型，此前開源大模型中影響力較大的是 Meta開源的Llama 2，有700億參數。

範圍縮小到國内，此前最大的開源模型是阿裡的千問72B，有着720億參數。就在4月2日，國内有了首個千億參數的開源MoE模型，當天APUS與大模型創企新旦智能聯手宣布開源APUS-xDAN大模型4.0，參數規模為1360億。據APUS實測，其綜合性能超過GPT-3.5，達到GPT-4的90%。

值得一提的是，APUS-xDAN大模型4.0可在消費級顯示卡4090上運作，這也是國内首個可以在消費級顯示卡上運作的千億MoE中英文大模型。官網表示，APUS-xDAN 大模型4.0采用GPT4類似的MoE架構，特點是多專家模型組合，同時激活使用隻有2個子子產品，實際運作效率對比傳統Dense同尺寸模型效率提升200%，推理成本下降400%。在實際部署上，通過進一步的高精度微調量化技術，模型尺寸縮小500%，進而擁有了國内首個可以在消費級顯示卡運作的千億MoE中英文大模型。

MoE模型架構已經成為目前大部分大模型廠商的共識，這種架構将神經網絡拆分成多個專家子網絡，面對一次輸入，既可以指定某一位“專家”來回答，也可以要求多位“專家”回答，甚至全部參與回答，最終依據權重綜合給出結果。這使得 MoE 架構的可擴充性優秀，開發者可以在一個巨型模型上，繼續增加參數量，進行橫向擴充。同時因為 MoE 可以選擇隻啟用部分專家子模型，也在保持性能的同時，降低了推理成本。

昆侖萬維提到，MoE混合專家模型是全球技術最領先、性能最強大的基座模型技術路徑，相較于其他模型，MoE大模型應對複雜任務能力更強、模型響應速度更快、訓練及推理效率更高、可擴充性更強。

模型越大越好嗎

除了MoE之外，大模型廠商們目前的另一信仰無一例外是Scaling Laws，他們堅信大力能出奇迹，要将大模型的規模做得更大。

此前階躍星辰就表示，“攀爬 Scaling Laws 是極其艱巨但必須堅持的任務，我們正走在正确的路上。”

MiniMax此次發文提到，在更新至萬億參數的過程中，找到了越來越多加速實作Scaling Laws（尺度定律）的途徑，包括改進模型架構，重構資料 pipeline，訓練算法及并行訓練政策優化等，此次釋出的 abab 6.5 和 abab 6.5s 就是加速 Scaling Laws 過程的階段性成果。

但要攀登Scaling Laws并不容易。在萬億參數規模上，根據階躍星辰資料，至少需要等效 A800 萬卡單一叢集，高效穩定的訓練，十萬億tokens 高品質的資料，加上駕馭新穎的MoE 架構，任何一環出現短闆，就很難将模型提升至萬億參數。

“我們就是因為充分意識到這件事情有多艱難，才判斷 GPT-3.5 以後隻有極少數團隊有能力繼續攀爬 Scaling Laws。”階躍星辰認為攀登 Scaling Law 是一個“鐵人四項”的超級工程，它包含了算力、系統、資料和算法四大要素。階躍星辰提到，從創立初始就在四要素方面做了充分準備，包括自建機房和租用算力，團隊此前實踐過單叢集萬卡以上的系統建設與管理，在算法上團隊也能駕馭萬億參數的 MoE 架構。

不過，對于大模型參數是否越大越好，業界已經開始反思。上海人工智能實驗室主任助理、領軍科學家喬宇此前在GDC大會上就表示，沿着Scaling Law，未來對于資料算力的需求越來越多，大家會有一個問題，Scaling Law何處是盡頭，跟現在相比，大模型至少還有1-2個數量級的提升。

“到2030年，是不是我們再提高兩個數量級就有機會實作真正通用的人工智能，但是我們也要考慮另外一個問題，按照目前這條技術路線，它對算力、對能耗的消耗非常巨大。我們真的需要把我們這麼大的社會資源都投入到這樣的領域中來，還是需要現在這種Scaling Laws更加高效的方法，後者是這個時代研究者、開發者必須思考的問題。”喬宇說。

更早前，喬宇提到，過去人工智能興起核心的一點是大力出奇迹，堆更多的資料、用更多的算力，但隻靠規模、隻靠資料解決不了幻覺、可信和可控的問題。

模型參數越大，還必然面臨的是成本的問題。在此前的采訪中有業内人士就表示，如果每一個使用者的需求都用大模型千億參數去響應的話，企業方的成本收益也會算不過來，更不用說萬億參數的規模所面臨的成本。

此前一位行業人士也提到大模型技術圈有一個現象，“去年年中時，Agent（智能體）很火，所有人都來問我有沒有做Agent，好像不做我就落後于這個時代了。過了不久大家開始做MoE，有時候出席交流活動，他們就會問你這個是不是MoE的模型，就變成好像隻要有了MoE這個模型就變得很先進。”

就在不久前，大模型廠商們又紛紛開始宣布長文本更新，上述行業人士認為，這個現象的意義是超越本身的技術突破的，國内所有的一線大模型機構都已經突破了兆級的長文本能力，但是不是把它作為最主要的方向去打磨，其實大家有不同的判斷。

放在參數規模上，大模型最終要落地非常關鍵一件事是成本可控，以盡可能低的成本達到相同的效果。而大模型本身模型越大使用成本越高，絕大部分真實的應用場景或許并不需要一個超大模型來服務，大部分簡單的問題相對規模小一點、成本低一點的模型就已經能解決問題，這時候，使用者可能需要考慮的是有沒有必要“殺雞用牛刀”。

(本文來自第一财經)

大模型又開“卷”，萬億參數閉源模型、四千億開源模型來了

繼續閱讀

小紅書讓智能體們吵起來了！聯合複旦推出大模型專屬群聊工具

開源大模型王座再易主,通義千問千億參數拿下SOTA,3月已推8款模型

神秘大模型一夜刷屏，能力太強被疑GPT4.5，奧特曼避而不答打啞謎

星環科技(688031.SH)：收入激增46.00%，擁抱信創與大模型浪潮

基于實驗室檢驗的人工智能模型可準确診斷卵巢癌：一項中國的多中心、回顧性隊列研究

科學家用STEM資料集評測神經網絡模型基礎，加快人工智能實作程序

國内大模型五虎融資僅是巨頭零花錢？

蘋果釋出 OpenELM：專為在裝置端運作而設計的小型開源 AI 模型

AIGC：我太“男”了？——大模型中的性别偏差問題 | YEF2024

大模型時代AI Agent的挑戰、優化與落地之道 | YEF2024

EIGEN代币經濟模型公布，第一季 Stakedrop 啟動

iPhone 16 系列手機模型曝光，外觀基本确定

大模型催生搜尋行業變革機遇，産品百花齊放效果幾何？

自我提升人生思維模型

【國中實體】《浮力》常考重難模型

OpenAI秘密上線神秘模型，疑似ChatGPT4.5進行公開測試