天天看點

摩爾線程CEO張建中:萬卡叢集是AI主戰場上的标配

摩爾線程CEO張建中:萬卡叢集是AI主戰場上的标配

本文由半導體産業縱橫(ID:ICVIEWS)綜合

摩爾線程誇娥智算叢集可實作從千卡至萬卡叢集的無縫擴充。

摩爾線程CEO張建中:萬卡叢集是AI主戰場上的标配

“從今天起,世界徹底改變了。”這是GPT-3算法的發明人埃德·萊昂·克林格在GPT-3出現時說的一句話。

這是一個AI的時代,這是一個算力的時代。

今日,摩爾線程重磅宣布其AI旗艦産品誇娥(KUAE)智算叢集解決方案實作重大更新,從目前的千卡級别大幅擴充至萬卡規模。

同時,摩爾線程聯合中國移動通信集團青海有限公司、中國聯通青海公司、北京德道信科集團、中國能源建設股份有限公司總承包公司、桂林華崛大資料科技有限公司,分别就三個萬卡叢集項目進行了戰略簽約,多方聚力共同建構好用的國産GPU叢集。

此外,我們從現場也看到摩爾線程的産品能力和強大的生态連結力。與來自清華系兩家公司無問芯穹和清程極智已經開始深度合作,無問芯穹是由清華大學電子工程系系主任汪玉教授發起的,清程極智由清華大學計算機系鄭緯民院士發起的。還有京東、360、智平方等多家國内企業,誇娥智算叢集助力其在大模型訓練、大模型推理、具身智能等不同場景和領域的創新。

萬卡是最低标配

大模型自問世以來,關于其未來的走向和發展趨勢亟待時間驗證,但從目前來看,幾種演進趨勢值得關注,使得其對算力的核心需求也愈發明晰。

第一,Scaling Law将持續奏效。需要單點規模夠大并且通用的算力才能快速跟上技術演進。第二,Transformer架構不能實作大一統,和其他架構會持續演進并共存,形成多元化的技術生态。第三,AI、3D和HPC跨技術與跨領域融合不斷加速,大模型的訓練和應用環境更加複雜多元。

摩爾線程CEO張建中:萬卡叢集是AI主戰場上的标配

随着計算量不斷攀升,大模型訓練亟需超級工廠,即一個“大且通用”的加速計算平台,以縮短訓練時間。以Llama 3為例,在它問世之際,Meta就公布了其基礎設施詳情:“我們在兩個定制的24K GPU叢集上做訓練。”

摩爾線程創始人張建中提出了一個标準:“AI主戰場,萬卡是最低标配。”

國産萬卡萬P萬億大模型訓練平台

誇娥(KUAE)是摩爾線程智算中心全棧解決方案,是以全功能GPU為底座,軟硬一體化、完整的系統級算力解決方案,包括以誇娥計算叢集為核心的基礎設施、誇娥叢集管理平台(KUAE Platform)以及誇娥大模型服務平台(KUAE ModelStudio),旨在以一體化傳遞的方式解決大規模GPU算力的建設和營運管理問題。

摩爾線程CEO張建中:萬卡叢集是AI主戰場上的标配

基于對AI算力需求的深刻洞察和前瞻性布局,摩爾線程誇娥智算叢集可實作從千卡至萬卡叢集的無縫擴充,旨在滿足大模型時代對于算力“規模夠大+計算通用+生态相容”的核心需求,通過整合超大規模的GPU萬卡叢集、極緻的計算效率優化以及高度穩定的運作環境,以萬卡智算叢集的新超級工程,重新定義國産叢集計算能力的新标準。

誇娥萬卡智算解決方案具備多個核心特性:

  • 超大算力,萬卡萬P。浮點運算能力達到10Exa-Flops,大幅提升單叢集計算性能,能夠為萬億參數級别大模型訓練提供堅實算力基礎。
  • 超高穩定,月級長穩訓練。在叢集穩定性方面,摩爾線程誇娥萬卡叢集平均無故障運作時間超過15天,最長可實作大模型穩定訓練30天以上,周均訓練有效率在99%以上,遠超行業平均水準。
  • 極緻優化,超高MFU:實作大模型的高效率訓練,MFU最高可達到60%。在系統軟體層面,基于極緻的計算和通訊效率優化等技術手段,大幅提升叢集的執行效率和性能表現。
  • 全能通用,生态友好:可加速LLM、MoE、多模态、Mamba等不同架構、不同模态的大模型。s同時,基于高效易用的MUSA程式設計語言、完整相容CUDA能力和自動化遷移工具Musify,加速新模型“Day0”級遷移,實作生态适配“Instant On”,助力客戶業務快速上線。

建構萬卡叢集并非一萬張GPU卡的簡單堆疊,而是一項高度複雜的超級系統工程。它涉及到超大規模的組網互聯、高效率的叢集計算、長期穩定性和高可用性等諸多技術難題。

張建中也感歎到:“萬卡內建的難度比登喜馬拉雅山還難。”

共建大模型應用生态

根據《2023~2024年中國人工智能計算力發展評估報告》,中國智能算力規模正處于高速增長狀态。預計到2027年,中國智能算力規模将達1117.4EFLOPS,2022~2027年期間的年複合增長率為33.9%。

萬卡叢集的建設需要産業界的齊心協力,為實作大模型創新應用的快速落地,讓國産算力“為用而建”。

在今日的釋出會線程,摩爾線程攜手中國移動通信集團青海有限公司、中國聯通青海公司、北京德道信科集團、中國能源建設股份有限公司總承包公司、桂林華崛大資料科技有限公司,分别就青海零碳産業園萬卡叢集項目、青海高原誇娥萬卡叢集項目、廣西東盟萬卡叢集項目進行了戰略簽約。

摩爾線程CEO張建中:萬卡叢集是AI主戰場上的标配

今年5月,摩爾線程與無問芯穹正式完成基于國産全功能GPU千卡叢集的3B規模大模型實訓。該模型名為“MT-infini-3B”。MT-infini-3B模型訓練總用時13.2天,經過精度調試,實作全程穩定訓練不中斷,叢集訓練穩定性達到100%,千卡訓練和單機相比擴充效率超過90%。在行業内率先開啟了國産大語言模型與國産GPU千卡智算叢集深度合作的新範式。

摩爾線程CEO張建中:萬卡叢集是AI主戰場上的标配

清程極智與摩爾線程合作的過程中,發現其硬體架構、指令集、編譯器、MUSA軟體棧等設計非常優秀,極具潛力。清程極智将與摩爾線程強強聯合,攜手打造世界水準的大模型基礎設施。

摩爾線程CEO張建中:萬卡叢集是AI主戰場上的标配

此外,摩爾線程還與360、京東雲、智平方等多家國内企業合作。

結語

随着今年“AI+”首次被寫入兩會工作報告,AI算力成為新質生産力的重要引擎。

智算中心不應隻是硬體的堆積,更是對軟硬一體化的GPU智算系統整合能力的考驗,GPU分布式計算系統的适配、算力叢集的管理和高效推理引擎的應用等,都是提高算力中心可用性的重要因素。

四年多的潛心發展,摩爾線程在 AI GPU 方面具備了強勁的實力,建構起了一張包括晶片、闆卡、伺服器、叢集和軟體棧的全棧 AI 産品版圖,并且已經多點實作落地。

正如摩爾線程創始人兼CEO張建中所言:“目前,我們正處在生成式人工智能的黃金時代,技術交織催動智能湧現,GPU成為加速新技術浪潮來臨的創新引擎。誇娥萬卡智算叢集作為摩爾線程全棧AI戰略的一塊重要拼圖,可為各行各業數智化轉型提供澎湃算力,不僅有力彰顯了摩爾線程在技術創新和工程實踐上的實力,更将成為推動AI産業發展的新起點。”

*聲明:本文系原作者創作。文章内容系其個人觀點,我方轉載僅為分享與讨論,不代表我方贊成或認同,如有異議,請聯系背景。