天天看點

突破算力枷鎖!昇騰迎戰人工智能大模型“暴力計算”時代!

作者:樂天派AI聊科技

在過去的兩年裡,大模型的出現引發了對算力的巨大需求增長,增長了750倍,而硬體的算力供給隻增長了3倍。華為昇騰計算業務總裁張迪煊在2023世界人工智能大會上揭開了這個由大模型引發的算力缺口的真相。而且這個算力缺口還在不斷擴大,預計到2030年,人工智能所需的算力相對于2020年将增長500倍。同時,由于種種原因,算力的國産化也變得非常緊迫。

突破算力枷鎖!昇騰迎戰人工智能大模型“暴力計算”時代!

針對如何解決算力短缺問題,畢馬威中國數字化賦能主管合夥人張慶傑認為,需要通過算力建設、基礎設施的共享與優化、算法的優化和資料的品質這三個途徑來解決,其中算力建設是首要的。

華為在近幾年的算力建設方面非常積極。根據中信證券7月份的研究報告,在國内的城市智算中心中,華為目前占據了大約79%的市場佔有率。

除了量的增長,提升算力叢集的能力也非常重要。就在2023年世界人工智能大會上,華為宣布昇騰AI叢集将進行全面更新,叢集規模将從最初的4000卡擴充到16000卡,算力叢集将迎來“萬卡”時代。

突破算力枷鎖!昇騰迎戰人工智能大模型“暴力計算”時代!

華為輪值董事長胡厚崑表示,昇騰AI的叢集将把AI的算力中心當做一台超級計算機進行設計,使昇騰AI叢集的性能效率提升了超過10%,系統的穩定性也提高了十倍以上。

張迪煊在采訪中還透露,早在2018年,華為就預測到人工智能會快速發展,并改變了過去小模型的開發模式,形成了大算力、大資料生成大模型的模式,是以華為在當時就開始開發算力叢集産品。

進入人工智能時代,已經無法像在單機系統時代那樣依靠堆晶片來提升算力,而是需要對算力基礎設施進行系統化的重塑。除了擴大巨大的算力供給之外,還需要解決算力使用率低和門檻高等問題,最終實作算力的生态化。

今年ChatGPT的出現引發了對算力的需求,GPU在硬體端成為最先受益的産品,英偉達的市值今年已經上漲了66%,達到了1.05萬億美元。

突破算力枷鎖!昇騰迎戰人工智能大模型“暴力計算”時代!

以英偉達A100為主的GPU成為大模型必備的優秀選擇,但僅僅依靠堆卡已經無法滿足“百模大戰”的爆發需求。那麼,如何最大限度地發揮寶貴的算力資源呢?

由于單個伺服器已經很難滿足計算需求,将多個伺服器連接配接成一台“超級計算機”正在成為目前算力基礎設施的主要方向,這就是算力叢集。

華為在2019年就釋出了Atlas900AI訓練叢集,最初由數千顆華為自研的昇騰910(主要用于訓練)AI晶片構成,到今年6月已經支援到8000張卡。在剛剛結束的世界人工智能大會上,華為宣布計劃在今年年底或明年年初的時候,将叢集擴充到超過16000張卡的規模。萬卡叢集是指使用成千上萬張計算卡(例如顯示卡)進行訓練或推理的目标。舉例來說,使用1750億參數量的GPT-3模型進行訓練時,如果使用8張V100顯示卡,訓練時間預計需要36年;而使用512張V100顯示卡,訓練時間接近7個月;而如果使用1024張A100顯示卡,訓練時間可以縮短到1個月。

突破算力枷鎖!昇騰迎戰人工智能大模型“暴力計算”時代!

根據華為的評估,使用8000張昇騰AI計算卡的Atlas900AI叢集來訓練100B的GPT-3模型,隻需要1天就可以完成訓練;而使用16000張計算卡的叢集,隻需要半天就可以完成訓練。但是要想使用萬卡叢集進行模型訓練,并非易事。

中國工程院院士高文指出,全世界能夠同時選型适用于1000張計算卡以上的模型的研究人員隻有幾千人,能夠在4000張計算卡以上進行模型訓練的人數不超過100人,而能夠在10000張計算卡以上進行模型訓練的人更少。對于千卡和萬卡的訓練和推理,對于軟體規劃和資源排程都面臨着巨大挑戰。

突破算力枷鎖!昇騰迎戰人工智能大模型“暴力計算”時代!

萬卡規模的訓練對分布式并行訓練提出了更高的要求。分布式并行訓練是一種高效的機器學習方式,将大規模的資料集分成多個部分,在多個計算節點上并行訓練模型。這樣可以大大縮短訓練時間,提高模型的準确性和可靠性。

昇騰算力叢集的分布式并行訓練需要依靠華為自研的昇思MindSpore AI架構。昇思MindSpore支援多種模型類型,并且開發了一套自動混合并行解決方案,可以實作資料并行和模型并行的混合并行訓練。通過這種雙并行政策,在相同的算力和網絡條件下,可以實作更大的計算通信比,同時也解決了手動并行架構的困難,提高了大模型開發和調優的效率。

此外,由于分布式并行訓練,每訓練出一個結果時需要所有的晶片進行同步,這個過程中可能會出現錯誤的機率。在萬卡規模的訓練中,對穩定性的要求更高。華為的昇騰AI晶片設計的可靠性和可用性可以實作30天穩定的訓練,相比業界最先進的水準約為3天,提升了近10倍的性能穩定性和可用性優勢。

突破算力枷鎖!昇騰迎戰人工智能大模型“暴力計算”時代!

最近,祝語未來科技及多家上市公司宣布将ChatGPT與公司的虛拟數字人融合,研發出更智能、更拟人的虛拟數字人。祝語未來科技主打産品是一款以全新概念打造的“祝語”APP,通過該平台,名人可以免費建立超寫實的AI虛拟人模型,并利用公司積累的AI跨模态數字人3.0技術,實作高度拟人化的“思想和行為”,使用者可以定制“真人真聲”的祝福視訊。

現在,無論是對于華為還是其他大模型企業,如何從行業大模型L1中快速生産L2模型,還有部署L2模型到端側、邊側和雲側,成為打通行業應用最後一公裡的問題。

針對這最後一公裡,昇騰聯合科大訊飛、智譜AI、雲從等上遊的大模型合作對象,提出了“訓推一體化”方案。

簡單了解,做模型訓練就相當于大學學習階段,推理部署(訓練好的模型在特定環境中運作)就是正式上崗,訓推一體化就是“邊學習邊實習”。

對于整個人工智能領域的算力生态來說,如何盡快打通這最後一公裡成了重中之重,打通也就意味着被真正激活,未來才會有無限可能以及可持續的行業生态發展。

繼續閱讀