天天看點

大模型又開“卷”,萬億參數閉源模型、四千億開源模型來了

作者:第一财經

4 月 17 日,兩家大模型企業相繼宣布重大更新。

午間,MiniMax在其公衆号宣布正式推出abab 6.5 系列模型,其中abab 6.5 包含萬億參數,支援 200k tokens的上下文長度,abab 6.5s 與 abab 6.5 使用了同樣的訓練技術和資料,但是更高效,支援 200k tokens 的上下文長度,可以 1 秒内處理近 3 萬字的文本。

更早一點,上午昆侖萬維在其官方公衆号宣布,開源4000億參數的大模型天工3.0,這超越了馬斯克此前開源的3140億參數的Grok-1,是全球最大的開源MoE(混合專家模型)大模型。昆侖萬維提到,天工3.0在語義了解、邏輯推理、通用性、泛化性、不确定性知識、學習能力等領域擁有突破性的性能提升,在MMBench等多項權威多模态測評結果中,天工3.0超越GPT-4V。

來到2024年,大模型領域的“千模大戰”還在繼續。開源模型的參數一次比一次更大,從幾百億來到幾千億,而閉源模型也在不斷沿着Scaling Laws(尺度定律)路徑更新,在千億參數的基礎上攀登萬億。同時,大模型廠商也拿出了更多的應用開始落地。

有觀點認為2024年會是應用爆發的一年,此前第一财經記者問及MiniMax技術副總裁安德森是否認可這一觀點,他認為很有可能爆發,“今年大模型相關技術仍然會高速發展,大機率會達到難以想象的高度。”

“卷”大模型

在釋出模型時,按照慣例各家都會公布對标頭部模型的能力分數。

MiniMax表示,各類核心能力測試中,abab 6.5開始接近 GPT-4、 Claude-3、 Gemini-1.5 等世界上最領先的大語言模型。

大模型又開“卷”,萬億參數閉源模型、四千億開源模型來了

MiniMax在 200k token 内進行了業界常用的“大海撈針”測試,即在很長的文本中放入一個和該文本無關的句子(針),然後通過自然語言提問模型,看模型是否準确将這個“針”回答出來。MiniMax提到,在 891 次測試中,abab 6.5 均能正确回答。

昆侖萬維提到,“在MMBench等多項權威多模态測評結果中,天工3.0超越GPT-4V。”相較于上一代天工2.0 MoE大模型,天工3.0模型技術知識能力提升超過20%,數學/推理/代碼/文創能力提升超過30%。

大模型又開“卷”,萬億參數閉源模型、四千億開源模型來了

天工3.0新增了搜尋增強、研究模式、調用代碼及繪制圖表、多次調用聯網搜尋等能力,并針對性地訓練了模型的Agent能力,能夠獨立完成規劃、調用、組合外部工具及資訊。

昆侖萬維表示,天工3.0是全球首個多模态“超級模型”(Super Model),內建了AI搜尋、AI寫作、AI長文本閱讀、AI對話、AI語音合成、AI圖檔生成、AI漫畫創作、AI圖檔識别、AI音樂生成、AI代碼寫作、AI表格生成等多項能力,是大模型時代的“超級應用”。

對于國内大模型圈子來說,兩家公司今日的更新都将大模型水準再提升了一個台階。

在MiniMax之前,階躍星辰是國内第一個對外公開萬億參數模型的創業公司,不過當時釋出的是預覽版,在3月23日的2024全球開發者先鋒大會上,在釋出Step-1 千億參數語言大模型的同時,階躍星辰創始人姜大昕對外釋出了Step-2萬億參數MoE語言大模型預覽版,提供 API 接口給部分合作夥伴試用。

階躍星辰創始人姜大昕是微軟前全球副總裁,在公布萬億參數模型預覽版時,他提到,“要把模型做大不是一件簡單的事情”。

在過去的一年,國内不下 10個模型達到了 GPT-3.5 的水準,是以業内有個觀點,認為追趕 OpenAI也沒有那麼困難。但實際上, GPT-3.5 是一個千億參數的模型。要達到 GPT-4 的萬億規模參數,各個次元的要求都上了一個台階,階躍星辰表示,“模型規模提升到萬億對算力、系統、資料和算法都提出了新要求。”業内隻有極少數公司能做到。

而在開源模型參數方面,上一次破紀錄的更新是在3月18日,馬斯克旗下大模型公司 xAI 在官網宣布開源 3140 億參數的大模型Grok-1,這是當時參數量最大的開源模型,此前開源大模型中影響力較大的是 Meta開源的Llama 2,有700億參數。

大模型又開“卷”,萬億參數閉源模型、四千億開源模型來了

範圍縮小到國内,此前最大的開源模型是阿裡的千問72B,有着720億參數。就在4月2日,國内有了首個千億參數的開源MoE模型,當天APUS與大模型創企新旦智能聯手宣布開源APUS-xDAN大模型4.0,參數規模為1360億。據APUS實測,其綜合性能超過GPT-3.5,達到GPT-4的90%。

值得一提的是,APUS-xDAN大模型4.0可在消費級顯示卡4090上運作,這也是國内首個可以在消費級顯示卡上運作的千億MoE中英文大模型。官網表示,APUS-xDAN 大模型4.0采用GPT4類似的MoE架構,特點是多專家模型組合,同時激活使用隻有2個子子產品,實際運作效率對比傳統Dense同尺寸模型效率提升200%,推理成本下降400%。在實際部署上,通過進一步的高精度微調量化技術,模型尺寸縮小500%,進而擁有了國内首個可以在消費級顯示卡運作的千億MoE中英文大模型。

MoE模型架構已經成為目前大部分大模型廠商的共識,這種架構将神經網絡拆分成多個專家子網絡,面對一次輸入,既可以指定某一位“專家”來回答,也可以要求多位“專家”回答,甚至全部參與回答,最終依據權重綜合給出結果。這使得 MoE 架構的可擴充性優秀,開發者可以在一個巨型模型上,繼續增加參數量,進行橫向擴充。同時因為 MoE 可以選擇隻啟用部分專家子模型,也在保持性能的同時,降低了推理成本。

昆侖萬維提到,MoE混合專家模型是全球技術最領先、性能最強大的基座模型技術路徑,相較于其他模型,MoE大模型應對複雜任務能力更強、模型響應速度更快、訓練及推理效率更高、可擴充性更強。

模型越大越好嗎

除了MoE之外,大模型廠商們目前的另一信仰無一例外是Scaling Laws,他們堅信大力能出奇迹,要将大模型的規模做得更大。

此前階躍星辰就表示,“攀爬 Scaling Laws 是極其艱巨但必須堅持的任務,我們正走在正确的路上。”

MiniMax此次發文提到,在更新至萬億參數的過程中,找到了越來越多加速實作Scaling Laws(尺度定律)的途徑,包括改進模型架構,重構資料 pipeline,訓練算法及并行訓練政策優化等,此次釋出的 abab 6.5 和 abab 6.5s 就是加速 Scaling Laws 過程的階段性成果。

但要攀登Scaling Laws并不容易。在萬億參數規模上,根據階躍星辰資料,至少需要等效 A800 萬卡單一叢集,高效穩定的訓練,十萬億tokens 高品質的資料,加上駕馭新穎的MoE 架構,任何一環出現短闆,就很難将模型提升至萬億參數。

“我們就是因為充分意識到這件事情有多艱難,才判斷 GPT-3.5 以後隻有極少數團隊有能力繼續攀爬 Scaling Laws。”階躍星辰認為攀登 Scaling Law 是一個“鐵人四項”的超級工程,它包含了算力、系統、資料和算法四大要素。階躍星辰提到,從創立初始就在四要素方面做了充分準備,包括自建機房和租用算力,團隊此前實踐過單叢集萬卡以上的系統建設與管理,在算法上團隊也能駕馭萬億參數的 MoE 架構。

不過,對于大模型參數是否越大越好,業界已經開始反思。上海人工智能實驗室主任助理、領軍科學家喬宇此前在GDC大會上就表示,沿着Scaling Law,未來對于資料算力的需求越來越多,大家會有一個問題,Scaling Law何處是盡頭,跟現在相比,大模型至少還有1-2個數量級的提升。

“到2030年,是不是我們再提高兩個數量級就有機會實作真正通用的人工智能,但是我們也要考慮另外一個問題,按照目前這條技術路線,它對算力、對能耗的消耗非常巨大。我們真的需要把我們這麼大的社會資源都投入到這樣的領域中來,還是需要現在這種Scaling Laws更加高效的方法,後者是這個時代研究者、開發者必須思考的問題。”喬宇說。

更早前,喬宇提到,過去人工智能興起核心的一點是大力出奇迹,堆更多的資料、用更多的算力,但隻靠規模、隻靠資料解決不了幻覺、可信和可控的問題。

模型參數越大,還必然面臨的是成本的問題。在此前的采訪中有業内人士就表示,如果每一個使用者的需求都用大模型千億參數去響應的話,企業方的成本收益也會算不過來,更不用說萬億參數的規模所面臨的成本。

此前一位行業人士也提到大模型技術圈有一個現象,“去年年中時,Agent(智能體)很火,所有人都來問我有沒有做Agent,好像不做我就落後于這個時代了。過了不久大家開始做MoE,有時候出席交流活動,他們就會問你這個是不是MoE的模型,就變成好像隻要有了MoE這個模型就變得很先進。”

就在不久前,大模型廠商們又紛紛開始宣布長文本更新,上述行業人士認為,這個現象的意義是超越本身的技術突破的,國内所有的一線大模型機構都已經突破了兆級的長文本能力,但是不是把它作為最主要的方向去打磨,其實大家有不同的判斷。

放在參數規模上,大模型最終要落地非常關鍵一件事是成本可控,以盡可能低的成本達到相同的效果。而大模型本身模型越大使用成本越高,絕大部分真實的應用場景或許并不需要一個超大模型來服務,大部分簡單的問題相對規模小一點、成本低一點的模型就已經能解決問題,這時候,使用者可能需要考慮的是有沒有必要“殺雞用牛刀”。

(本文來自第一财經)

繼續閱讀