10萬億！達摩院釋出全球最大AI預訓練模型M6

今天，阿裡巴巴達摩院公布多模态大模型M6最新進展，其參數已從萬億躍遷至10萬億，成為全球最大的AI預訓練模型。

M6是達摩院研發的通用性人工智能大模型，擁有多模态、多任務能力，尤其擅長設計、寫作、問答，在電商、制造業、文學藝術、科學研究等領域有廣泛應用前景。

與傳統AI相比，大模型擁有成百上千倍“神經元”數量，認知和創造能力也更勝一籌，被普遍認為是未來的“基礎模型”。但大模型的算力成本相當高昂，訓練1750億參數語言大模型GPT-3所需能耗，相當于汽車行駛地月往返距離。

今年5月，通過專家并行政策及優化技術，達摩院M6團隊将萬億模型能耗降低超八成、效率提升近11倍。

10月，M6再次突破業界極限，使用512 GPU在10天内即訓練出具有可用水準的10萬億模型。相比去年釋出的大模型GPT-3，M6實作同等參數規模，能耗僅為其1%。

将10萬億參數放進512張GPU

模型擴充到千億及以上參數的超大規模時，将很難放在一台機器上。

為了幫助多模态預訓練模型進行快速疊代訓練，達摩院在阿裡雲PAI自研Whale架構上搭建MoE模型，并通過更細粒度的CPU offload技術，最終實作将10萬億參數放進512張GPU：

自研Whale架構：自研Whale分布式深度學習訓練架構，針對資料并行、模型并行、流水并行、混合并行等多種并行模型進行了統一架構設計，讓使用者在僅僅添加幾行API調用的情況下就可以實作豐富的分布式并行政策。

MoE專家并行政策：在Whale架構中實作Mixture-of-Experts（MoE）專家并行政策，在擴充模型容量、提升模型效果的基礎上，不顯著增加運算FLOPs（每秒所執行的浮點運算次數），進而實作高效訓練大規模模型的目的。

CPU offload創新技術：在自研的分布式架構Whale中通過更細粒度的CPU offload，解決了有限資源放下極限規模的難題，并通過靈活地選擇offload的模型層，進一步地提高GPU使用率。

訓練速度大幅度提升

此外，針對訓練效率問題，M6團隊設計了Pseudo-to-Real（共享解除）機制，即利用訓練好的共享參數模型初始化大模型，讓收斂效率進一步提升7倍，解決大模型訓練速度慢的問題。

對比不使用該機制，預訓練達到同樣loss用時僅需6%；和此前萬億模型相比，訓練樣本量僅需40%。

作為國内首個商業化落地的多模态大模型，M6已在超40個場景中應用，日調用量上億。

今年，大模型首次支援雙11，應用包括但不限于：

M6設計的飛行汽車

未來，M6将積極探索與科學應用的結合，通過AI for science讓大模型的潛力充分發揮，并加強M6與國産晶片的軟硬一體化研究。

達摩院智能計算實驗室負責人周靖人表示：

“接下來，我們将深入研究大腦認知機理，緻力于将M6的認知力提升至接近人類的水準；另一方面，還将不斷增強M6在不同場景中的創造力，産生出色的應用價值。”

目前，達摩院聯合阿裡雲已推出M6服務化平台（

），為大模型訓練及應用提供完備工具，首次讓大模型實作“開箱即用”，算法人員及普通使用者均可友善地使用平台。

繼續閱讀