天天看點

中國算力網如何從“可用”到“好用”

編者按:

算力建設被設定為“十四五”時期重點任務之一,在一批雲廠商的積極布局下,一座座算力中心已建成落地。在全社會算力需求急劇膨脹背景下,如何盤活算力資源成為關鍵所在,由此,算力網絡已成為國家、社會、産業發展的戰略要求。

全文約6168字,建議閱讀時間16分鐘。

在智能時代,算力将成為社會發展的關鍵生産力。算力規模的增長不僅與 GDP 的增長呈正相關,且正在改變科學創新的模式,使得以往需要耗費大量時間、人力、物力的實驗可以通過計算機來完成。

在此基礎上,如同電力從水電、火電等各類發電類别跨越到統一服務的電力網,算力網是算力基礎設施發展的一個必然趨勢。

從算力到算力網

算力正在成為改變經濟增長模式的一種重要方式,算力的規模也正在成為衡量一個國家經濟增長幅度的一個重要名額。根據清華大學與網際網路資料中心(IDC)共同編制的《2021—2022全球計算力指數評估報告》(見圖1),算力和經濟增長具有很強的正相關性。算力指數每增長1個點,就可以帶來約1.8‰的GDP增長和3.5‰的數字經濟增長。截至目前,算力指數最高的是國家美國,第二是中國,随後依次是日本、德國、英國、法國等。

中國算力網如何從“可用”到“好用”

算力不僅與經濟有很強的正相關,在科學創新領域也正帶來巨大的沖擊。蛋白質分子的三維結構預測是困擾結構生物學領域長達50多年的一個難題。在過去幾年中,由于智能算力的快速發展,原本需要依靠生物學家反複實驗來預測的蛋白質結構,現在通過計算機和Alphafold2算法就可以精确預測絕大部分蛋白質結構。是以,基于人工智能的智能算力也正在改變科學創新的模式。

中國算力發展現狀

中國已經成為世界算力發展的主要生力軍之一,特别是在算力漲幅方面,中國是領跑者。目前全球算力規模排在前兩位的是美國和中國,然後是日本、德國、英國、法國、加拿大、南韓、澳洲等國家,印度、意大利、巴西則是剛剛起步。但就算力發展漲幅來說,大陸排在世界第一,達到13.5%,美國是5.0%。像經濟發展一樣,大陸正以非常高的算力發展漲幅繼續往前沖。對大陸網絡未來發展來說,算力優勢将不再僅限于算力體量,而是更高的計算效率、更廣泛的新興技術應用,以及更健全的基礎設施支撐。

從網格計算到算力網絡

2003年網格計算(grid computing)的概念被提出後,全世界很多超算領域的科學家紛紛參與,深入推動了網格計算的發展。現在,在x86 CPU的同步處理器上可以做到資料中心的互聯,而且帶寬和計算力的成本都較低。過去20年中帶寬的成本效益提升了100~1000倍,計算能力的成本效益也提高了15倍。是以今天在讨論算力和算力網絡的時候,整個背景和環境與20年前的網格計算相比都有着天翻地覆的變化。

當今社會,發展較為成熟的是電力網絡。電力網絡把電力發送到使用者需要的地方。電力是由各種不同的電力源組成,包括火力發電、水力發電、太陽能發電,風力發電等從各種各樣不同的電廠發送出來的電。使用者并不關心電力來自哪裡,其得到的電力也有可能以一定的比例來自不同的電廠,比如火力發電占了60%,水力發電占了40%。如今太陽能和風力發電等新型綠色電源的比例也在逐漸地擴大,但并不會影響終端使用者的使用體驗。這就是電力網絡起到的作用。我們國家的電力網絡包括特高壓工程、“源網荷儲”全網協同、“西電東送”直流特高壓、智能電網等,都發展得非常好。

将算力網和電網做個類比,算力網中的算力基本包含三大類:超算、智能算力和雲算力。在使用的時候,我們希望能夠設計一個算力網絡,把這些不同的算力封裝起來,輸送到使用者需要的地方。這個算力網絡可以考慮各種各樣的因素,對社會、經濟、科學等都有所裨益。

算力網絡可能的技術途徑

發展一個算力網絡需要4個技術步驟(見圖2):第一步是應用在單個資料中心送出任務、資料并運作;第二步是對同構的資料而言,應用可以在同構的環境但不同的資料中心進行送出,算力排程器統一排程資源,應用還在單個資料中心運作;第三步是應用可以跨多個同構的資料中心運作,也可以跨異構的資料中心統一送出,但最終還是在單個資料中心運作;第四步與電網類似,完全面向算力的使用者,使用者隻需要送出應用需求,然後算力網絡從網絡進行資源排程,通過網絡的相容層把不同異構的算力整合起來統一使用。這時一個應用可以跨多個異構的資料中心同時運作得到結果。

中國算力網如何從“可用”到“好用”

第一步到第二步的跨越是從單算力中心到同構多算力中心,這是目前應該解決的一個問題,包括同構多算力中心的使用率不均衡問題,主要的應用包括離線資料處理、模型訓練、科學計算等。面臨的主要技術挑戰包括:應用的封裝技術、算力網絡排程器、資料的快速遷移、計費、權限與資料安全保障等。是以首先需要對應用進行容器化封裝,就像集裝箱一樣,以前輪船、卡車、火車運貨,都用各自的倉儲結構裝載,中間環節需要各種各樣的挖鬥、吊車甚至是人工将貨物從一個容器運送至另一個容器,有了集裝箱以後,整個流程就變得簡單高效。對于應用也是類似的,到這個階段,算力網絡也應該做好應用的容器化封裝,這有益于對同構的硬體系統封裝相容,完成對算力資源、資料的集中輸送等。

算力網絡排程平台包括資源管理、作業排程、排程政策等方面,這樣就使不同計算中心之間的資源和應用的資料能夠通過算力網絡排程資源管理來進行很好的适配。排程政策包含多種多樣的政策,一種政策是采用全域原資料理念建立全域統一的資料目錄,快速查找關聯的資料,這樣就能對資料和資源的存放一目了然。另外兩種政策,一個是數随算走,一個是算随數走。“數随算走”,即算力在哪,資料就在哪,一般應用于資料量比較小的場景。

中國算力網如何從“可用”到“好用”

第二步到第三步的跨越包括兩個階段(見圖3),第一個階段是同構多算力中心向同構跨算力中心跨越。這樣做的好處是,應用頂層的軟體都是同類的,盡管可能版本不一,但絕大部分情況下都能減小适配難度,這時可以通過同構的資料中心統一送出,慢慢做到跨多個同構的資料中心送出和運作。這一階段主要解決單中心算力不足以及資料不出域的問題。主要應用包括:大模型訓練、聯邦學習、聯邦查詢等。面臨的主要技術挑戰是算力中心網際互連與傳輸技術、面向跨算力中心網絡的并行應用通信優化技術、隐私計算和聯邦學習技術等。算力中心網際互連與傳輸技術中比較重要的是網絡互連、感覺網絡編排、算網原生資料傳輸及表達。在面向跨算力中心網絡的并行應用通信優化技術階段,需要解決一些優化任務,例如考慮不同資料中心之間的通信模式、中間的任務劃分,算力和帶寬的配置設定,等等。

第二步到第三步跨越的另一個階段是同構多算力中心向異構多算力中心跨越。在同構多算力中心上采用的CPU、算力資源等都是一樣的,是以其上的封裝以及排程較為容易。而在異構多算力中心上,其封裝和排程的适配難度大大增加。由于其使用的是不同的算力資源,是以需要對異構的資料和資源提出更好的适配手段。

對于整個程式設計環境而言,資源的管理組織、負載平衡是一個較大的挑戰,需要在異構平台上統一程式設計與優化技術,現有相容層,如MPI(科學計算)、PyTorch和Spark(大資料),其中AI對各種人工智能加速器的移植性仍然是痛點問題。這涉及到算力底層算子的優化,例如對于一些異構算力,包括英偉達的GPU等提供的計算資源,需要提出一個統一的程式設計異構架構,來支援它們的算子優化。另外,工作流級别的異構排程的挑戰相對更大,須利用不同算力中心的優勢,協同解決問題。前人在分布式計算方面有一些有效的嘗試,可以借鑒來解決這類問題。

第三步到第四步是向異構跨算力中心的跨越。從同構的算力中心到完全異構的跨算力中心的使用,要在算力網絡的排程和算力網絡相容層的問題都解決之後才能進一步向異構的資料中心進行統一的送出,并跨多個異構資料中心運作,目前來看還需要花費較長的時間才能完成。它的主要應用包括大模型訓練、聯邦學習,以及與其他類型業務任務結合的工作流等。

鵬城實驗室的鵬城雲腦II實踐

鵬城實驗室設計完成了E級智算平台“鵬城雲腦Ⅱ”,既能滿足廣東省和深圳市本地的計算需求,也能為國家戰略提供一些支撐;既能用于理論研究支撐,也能用于核心技術管理和開發,同時也能滿足一些智能應用需求。

面向AI的專用架構

鵬城雲腦Ⅱ是專門面向AI的一個架構(見圖4),它具有100億億次的半浮點運算操作能力,配備的存儲達到64PB,任意節點之間的延遲隻有2微秒,是一個全節點交叉互聯的機器。

中國算力網如何從“可用”到“好用”

鵬城雲腦的建構需要超級處理能力的人工智能專用加速硬體、開放的軟體體系架構以及完備的開源生态環境。鵬城雲腦Ⅱ達到了E級的算力,是計算密度、算力規模、訓練速度均達到世界領先水準的AI基礎設施,能為中國人工智能的發展提供最好的支援和服務。

鵬城雲腦Ⅱ性能評估

鵬城雲腦Ⅱ從2020年10月上線至今已先後參加了5次lO500的打榜,均為第1名,IO性能非常出衆。在AI計算能力方面,2020年、2021年和2022年,連續三年在中國超算領域由CCF、ACM SIGHPC的專家聯手推出的AIPerf500榜單上排名第1。除此之外,華中科技大學的金海教授團隊将他們的程式在鵬城雲腦Ⅱ上進行優化後,在今年GRAPH500的兩個賽道上分别獲得了第一和第二的好成績。

鵬城雲腦Ⅱ上線以來已經支援了很多大模型的訓練,包括鵬程盤古、鵬程神農、鵬程大聖、鵬程扁鵲、鵬程通言、鵬程常羲等,也提供給國内一些頂尖的機構進行大模型訓練。

鵬城雲腦Ⅱ從上線至今折算後累計全機配置設定約492.78天,配置設定率為96.53%,實際的使用率為77.17%,對超級計算機而言是一個相當高的使用率。鵬城雲腦Ⅱ有25.76%由鵬城實驗室自己使用,60.92%提供給共建合作機關,7.53%提供給公益機構,2.45%提供給高校,3.34%提供給其他一些相關機構。鵬城雲腦Ⅱ作為科學裝置,展現了很好的開放性。不僅對科研機關,也對本地的政府和中小企業提供支援,例如廣州實驗室、深圳灣實驗室、深圳市衛健委、交警局、雲天勵飛等都在使用這台機器。鑒于對鵬城雲腦Ⅱ的大需求量,鵬城實驗室正在考慮設計鵬城雲腦Ⅲ,它的算力大約是鵬城雲腦Ⅱ的16倍,能夠進一步滿足科學計算的超大算力需求。

中國算力網的挑戰與展望

發展願景和目标

中國算力網(China Computing NET, C2NET)建設的願景是:像建設電網一樣建設國家算力網,像營運網際網路一樣營運算力網,讓使用者像用電一樣友善地使用算力。為了達成以上願景,中國算力網建設的主要目标包括:建構自主創新的算力網絡技術體系,建成覆寫國家超算中心、智算中心、資料中心等大型異構算力中心互聯互通、高效協同的國家級算力網絡基礎設施,推動實作算力供給模式的變革。

中國算力網面臨的若幹挑戰

第一,網絡挑戰。算力中心分散在全國各地,通過“超高壓”的遠端高速通信,讓所有算力網節點實作異構算力資源的共享,亟須突破超寬帶、超低延遲的網絡連接配接,比如帶寬達到100 Tbit/s 以上、延遲每200公裡不超過1毫秒;多芯光纖、相幹光通信、波分複用等是可能的突破技術。

第二,算力多樣性挑戰。集中的大型雲算力節點(CPU叢集)、智算中心節點(GPU叢集)、超級計算機節點(混合叢集)、分散的邊緣節點(嵌入式裝置),亟須實作異構節點直聯互通。

第三,晶片和指令系統的異構挑戰。底層晶片異構,提供CPU的包括Intel x86、AMD、ARM英偉達、摩爾線程、天數智芯等不同廠商;AI晶片異構,來源包括華為NPU、英偉達GPU、寒武紀MLU、海光DCU、平頭哥含光NPU等廠商。不同晶片廠商對異構算力中心的統一适配和排程的研究和開發意願低,而傾向自治管理。如何獲得底層晶片廠商的支援,實作算力中心的統一适配與排程是一大挑戰。

第四,營運商各自為戰的挑戰。網絡營運商專注于使用者體驗和效益,不同企業之間難以互通,算力網絡建設期投入量大但産出滞後,如何提升企業意願也是一大挑戰。

算力網鵬城探索(C2NET-0.1)

在國家發改委的部署與支援下,鵬城實驗室于2019年啟動中國智算網建設預研項目,研發了相容多種異構AI晶片的核心軟體棧與分布式排程平台,建設經費達3.5億元。2022年6月完成驗收。集合的算力總量為超過2.3E半浮點精度的運算能力。

中國算力網如何從“可用”到“好用”

2021年12月,人工智能産業技術創新戰略聯盟(AITISA)正式成立智算中心和智算網絡專題組,統籌推進智算中心和智算網絡的标準化研制工作。鵬城實驗室聯合多家機關在智算專題組提出了《人工智能算力網絡》系列标準規劃(見圖5),截至目前共送出了5份技術提案,7份需求提案。将不同的異構的智能算力分為不同層次進行标準化,友善封裝、資料定義和資源的統一調配。

中國算力網如何從“可用”到“好用”

算力網絡異構互聯技術也在快速發展。鵬城實驗室正在考慮采用高速、超寬帶、低延遲的專用網絡實作機器節點的之間的連接配接。例如在鵬城雲腦和廣州超算開展10 TB的全光網絡互聯;鵬城雲腦與濟南超算SD-WAN互聯,鵬城雲腦與中科大類腦MPLS互聯。同時開展基于全光網絡的360公裡長距離WRDMA傳輸技術研究,為實作全國算力中心互聯“大交換機”提供支撐。

節點間超寬帶低延遲通信是目前主攻的技術,目前在實驗室裡已經可以做到超過100 Tbit/s 的帶寬,超過2000公裡傳輸距離的實驗。未來在中國算力網1.0和2.0,預計可實作“東數西算”所有叢集節點間的100 Tbit/s直連通信。所謂直連,就是光纖從一個點直接連接配接到另外一個點,中間可能會有一些放大,但是沒有路由器的交換,是以中間的延遲是可控的,不僅有帶寬的保障,并且延遲非常低。

中國算力網一期規劃

中國算力網一期規劃(C2NET-1.0)的時間是從2022年7月至2025年12月,項目得到了國家科技部的支援,現在正在推進和實施,其總體建設目标包括三項内容(見圖6)。第一,算力彙聚,建構不同節點的高速網絡互聯,研制雲平台,實作算力的統一運維管理與彈性配置設定,為大模型提供可以跨節點分布學習的超級算力網絡。第二,資源彙聚,集合最全的公共資料資源,實作不同節點間公共資料、模型等資源的安全開放、拉通共享、可信流動。第三,自生态彙聚,建構最強的生态聚合平台,實作不同節點間模型能力統一開放,共享不同節點間的應用創新成果,營運以智算網絡為底座的開源社群。

中國算力網如何從“可用”到“好用”

總結

如同從電力跨越到電力網,算力網是算力基礎設施發展的必然趨勢,通過算力的彈性調配實作應用程式在異構跨算力中心高效執行。在此目标的引領下,算力網的建設會帶動一批核心關鍵技術的突破,包括異構算力資源的标準化封裝,以及算力節點的超寬帶低延時通信等,使大陸在算力技術上率先進入無人區。未來,鵬城實驗室将按照國家發改委和科技部的要求,聯合國内各方戰略科技力量,全力推動中國算力網的研發與建設。

來源:CNCC2022特邀報告

作者:高文

繼續閱讀