天天看點

“算力×聯接” 新華三網絡讓AI算力更普惠

作者:中關村線上

在生成式AI爆發的時代,人們需要的不止是大規模的加速計算,高品質的智算中心建設更為關鍵。這一過程中,算力、網絡、存儲、運維等環節缺一不可,要知道,大模型的推理和訓練需要成千上萬顆GPU,這些海量GPU連接配接後形成的超級計算叢集,離不開高可靠、低延遲時間、有韌性的智算網絡。尤其是對于中國算力産業的發展來說,計算叢集的并行化、協同化發展更為重要。例如,擁有1750億參數的ChatGPT-3由1萬個V100 GPU和28.5萬個CPU組成,每個GPU伺服器要有400Gb/s的網絡性能才能滿足算力需求,更不要說萬億級參數的GPT-4。

國家發展改革委等部門印發的《關于深入實施“東數西算”工程加快建構全國一體化算力網的實施意見》(下稱“《意見》”)指出,到2025年底,普惠易用、綠色安全的綜合算力基礎設施體系初步成型,東西部算力協同排程機制逐漸完善,通用算力、智能算力、超級算力等多元算力加速集聚,國家樞紐節點地區各類新增算力占全國新增算力的60%以上,國家樞紐節點算力資源使用率顯著超過全國平均水準。1ms時延城市算力網、5ms時延區域算力網、20ms時延跨國家樞紐節點算力網在示範區域内初步實作。算力電力雙向協同機制初步形成,國家樞紐節點建立資料中心綠電占比超過80%。使用者使用各類算力的易用性明顯提高、成本明顯降低,國家樞紐節點間網絡傳輸費用大幅降低。算力網關鍵核心技術基本實作安全可靠,以網絡化、普惠化、綠色化為特征的算力網高品質發展格局逐漸形成。?

“如果說過去的網絡是分析層級,是單點連接配接的,那麼在智算時代,網絡之間聯接的外延和内生都在拓展,深入到了伺服器内部、伺服器與伺服器之間、資料中心之間,以及廣域網、園區網之間等等。”新華三集團進階副總裁、網絡産品線總裁曾富貴談到,“多元化算力的異構性和大幅提升的計算性能需要更強的網絡支撐,是以,新華三網絡也迎來了全面更新,從‘算力+聯接’,演進到了‘算力×聯接’。”

“算力×聯接” 新華三網絡讓AI算力更普惠

新華三集團進階副總裁、網絡産品線總裁曾富貴

可以說,“算力×聯接”是新華三“AI in All”、“AI for All”戰略落地的技術基礎。在算力需求爆發的背景下,資料中心内部、資料中心之間的聯接和海量的資料傳輸對網絡提出了更嚴苛的要求,要實作資料在超長距離下的無損通信。是以,高品質、确定性的網絡聯接就顯得尤為重要,而這需要網絡基礎設施、控制和管理層,以及運維服務層協同更新。更重要的是,要有一個“智慧大腦”對網絡全局進行可視化的實時采集和分析,并使其靈活排程,穩定可靠。

依托于“算力×聯接”理念,新華三釋出了靈犀大模型,并通過全面融合AI能力的AD-NET 7.0承載靈犀大模型落地,支援其部署在雲端或本地,結合網絡裝置内嵌的NAI(Native Artificial Intelligence)智原生技術,對資料中心、園區網、廣域網等場景能力均進行了更新。通過靈犀大模型對整個網絡賦能,能夠讓資料中心以算力為目标,實作更高效率、更低能耗的算力生産;讓園區網以智快至簡為目标,實作超寬、随時随地線上的算力應用接入;讓廣域網以業務智享為目标,實作面向業務、精細化管理的算力傳送,滿足要不同地域上高效的算力排程。基于新華三的智算能力、行業知識和實踐經驗,AD-NET 7.0實作了從“應用驅動網絡”向“雙A(Application+AI)驅動”的進化。

與此同時,模型參數的暴增讓加速卡也來到了數十萬張的量級,這種參數對硬體數量的非線性關系使得相應的網絡裝置、端口、光子產品等數量會升至百萬級的規模,資料中心的密度會越來越高,端口密度随之提高,高密度使得一個端口要有多個連接配接芯數。此時,規模化帶來的第一個問題就是網絡彈性,涉及技術、架構、能源等多方面的挑戰,例如路由器跨城域無損、資料中心網絡無損等。

第二個要解決有限空間内的電力供應和成本,如果要支援1000個機櫃,需要數兆瓦的電力,電力和算網的成本同樣重要。

新華三集團副總裁、網絡産品線副總裁、交換機産品線總經理李玉濤介紹稱,新華三在400G、800G交換機的研發過程中重點考慮了能耗的問題,支援LPO線性光子產品,傳統400G光子產品的能耗是10-12瓦,LPO光子產品則是6.5瓦,規模降幅顯著。同時,新華三還推出了矽光交換機(CPO),省去了光子產品的能源消耗,讓機房的長期營運大受裨益。

為了確定大模型在訓練過程中的網絡可靠性,新華三的算網産品在出廠時就經過了各種嚴格的測試,通過專門的指導規範把光鍊路在上線後的故障率降到非常低的水準,并且在軟體層面利用負載均衡等技術,提供了充分的備援機制,在硬體故障時可以快速轉換。例如借助DPSH協定,讓過去鍊路斷掉後的秒級或毫秒級轉換,變為現在的微秒級轉換,硬體可以自行感覺鍊路狀态,甚至無需軟體介入。

可以看到,算力基礎設施、AD-NET 7.0、靈犀大模型,構成了新華三網絡AI能力的正向循環,即以網強算、以算提智、以智增效。其中,以智增效是指加速AI技術在資料通信領域的應用落地,AD-NET利用AIGC可實作高效的異常檢測、趨勢預測、故障診斷和智能調優,靈犀助手就是典型的應用,其支援使用者以自然語言的方式擷取網絡知識、配置、産品推薦等資訊,幫助各種複雜網絡自動調優,同樣,AI也可以讓系統排障、防護更專業,網絡運作更高效。以算提智,會基于新華三在ICT領域的知識語料積累,數萬名網絡專家,利用算力訓練和微調擷取靈犀大模型,對統一運維能力進行更新。以網強算,這也是網絡和算力融合的展現,由AD-NET提供算力産生和算力聯接的網絡基礎設施,為AI模型的訓練帶來了高效算力,支撐了智能化服務所需的聯接服務。

在提高算力的同時,還要通過網絡的無損、大吞吐量等方式讓算力的使用率大幅提升,負載均衡就是很有代表性的技術,包括增強逐流均衡、逐包均衡、信元均衡等。智算資料中心内訓練的模型參數非常大,大模型下面的流量模型差異較大,過去,不同業務之間的流量是10G、20G的差别,現在的均衡差别可能是數百G,這就導緻了按流負載會出現大面積不均衡的情況,産生擁塞和丢包,影響整個模型的效率,消耗過多的網絡帶寬和訓練時間。如果是按包負載,雖然能做到包數量的均衡,但在網絡末端有可能出現資料包的亂序,使得終端網卡或網絡要對亂序包進行重組,否則應用就會出現問題。這一過程中,并不是所有網卡和網絡末端都有重組排序的能力。對此,新華三的盒盒組網、框盒組網、DDC組網可以支援各種異構的算力、網絡末端的标卡和智能網卡,能夠根據客戶需求實施各類負載均衡的算法,實作了全局的負載均衡,無阻塞網絡可以讓每條鍊路都得到利用。

“比如說一條400G的鍊路,平時在訓練過程中的流量資料很少,一旦訓練完要做集合計算的時候,資料就會出現鋸齒的形态,抖動非常大,流量帶寬幾乎都被占滿了。如果多條鍊路同時再發的時候,一定會出現丢包,這就必須要用到負載均衡。我們可以預知不穩定因素,對流量進行排程,把丢包率降到最低。”李玉濤表示,“開放标準的以太網要通過負載均衡技術把RoCE最大的無損能力發揮出來,無論是DLB還是全局路徑的規劃,還有配合Agent軟體,我們在網絡鍊路中的效率提升是很明顯的。”新華三的負載均衡體系架構可以對不同智算場景提供适合的負載均衡技術組合,提升智算中心算力規模和效率。

新華三的多元化産品和技術組合打通了異構算力的有效聯接,支援開放的智算解決方案,還可以通過不同的組網形式群組網方案,讓客戶選擇自由解耦的方案,大幅節省智算中心的網絡建設成本,為供應鍊的多樣性和持續的可靠性帶來了保障。資料中心方面,新華三推出了基于DDC架構(Disaggregated Distributed Chassis分布式解耦機框)的算力叢集核心交換機H3C S12500 AI系列,旨在為使用者提供更具擴充性、更易運維管理、更具成本效益的分布式解耦機框方案。H3C S12500 AI系列具備信元級負載均衡、原生無損、超大規模的特點,可為使用者建構天然零丢包的無損網絡,提供自動化部署以及NCF與NCP的自組網能力,新增網元上線即可用,并且在網元失效時實作微秒級的拓撲收斂速度,适合異構GPU互聯的場景。

園區網方面,以太全光+PON融合的技術大幅提升了接入層使用者帶寬,進一步降低園區網的能耗和TCO,讓全網使用壽命得以提高。同時,新華三也在将更多的AI能力引入園區網,通過更精細化的粒度提升運維管理效率和體驗,打造智快至簡的園區網,讓算力随時随地可擷取和使用。為此,新華三更新了全光網絡+Wi-Fi 7的解決方案,為基于AI的各類場景化應用提供了“最後一跳”的高品質接入體驗,并且對輕量化園區BRAS(Broadband Remote Access Server)、可視化智能管理運維等環節進行了創新。此外,新華三也在推進FTTD接入産品、場景化Wi-Fi 7 AP和工業交換機的新品上市速度,針對全光施工部署的實際需求,新華三推出了光纖速熔技術,大幅簡化布線的工序數量和耗時。

“我們會關注結合AI技術的發展,讓園區智能運維再更新,比如無線4i技術(iRadio、iStation、iEdge、iHeal),用AI算法來優化軟硬體的結合,讓整體的網絡體驗變得更好。”新華三集團副總裁、無線産品線總經理趙玉金說。基于此,新華三推出了融入無線4i技術的Central AC解決方案,加上輕量化園區BRAS,可以大幅簡化有線無線使用者政策的管理複雜度,降低運維工作量,提供随需而動的園區政策管理和始終如一的園區使用者體驗。

《意見》中提到,以算力高品質發展賦能經濟高品質發展為主線,充分發揮全國一體化算力網絡國家樞紐節點引領帶動作用,協同推進“東數西算”工程,形成跨地域、跨部門協同發展合力,統籌通用算力、智能算力、超級算力協同計算,東中西地區及大中小城市協同布局,算力、資料、算法協同應用,算力和綠色電力協同建設,算力發展和安全協同保障,建構聯網排程、普惠易用、綠色安全的全國一體化算力網,助力網絡強國、數字中國建設,打造中國式現代化的數字基座。

要想把核心樞紐算力網、跨區算力網、城市算力網統一起來,技術、成本、帶寬都很重要。對于廣域算力網絡來說,帶寬、算法和可靠性更是關鍵。以主力的CR19000、CR16000E-F等核心路由産品為例,新華三做了三點更新:其一,提供更高的400G轉發速率,并利用确定性網絡技術大幅降低廣域網的延遲和抖動,借助DetNet、DetNetOAM等技術,新華三路由器可實作城域1毫秒、區域5毫秒、核心20毫秒的超低傳輸延遲,以及低至15微秒網絡抖動幅度,大幅提升算力網絡品質;其二,将算力因子融入了網絡裝置内嵌的路由算法,使廣域網天然适用于傳輸算力;其三,讓使用者能夠按需建構專用算力通道,提供服務化的算力專線。通過參數可選、随用随建、自動化建網、用完即拆、帶寬動态調整等一系列特性,新華三路由器可進一步提升算力網絡的資源使用率和網絡SLA。

新華三集團路由器産品線總經理汪小勇稱:“通過産品的創新、全網絡節能、大模型優化等方式,網絡成本會進一步降低,與此同時,網絡會更具靈活性和彈性,客戶自行操作也會更便捷。新華三的産品能做到從接入彙聚到核心網的端到端IPv6+的能力,把從城市算力網到核心算力網的技術底座全部打通。”

在AIGC的熱潮下,各行各業的智能化都在加速,新華三網絡的AD-NET也從Application驅動更新到了Application+AI的“雙AI階段”。“新華三在雲、網、安、算、存、端進行了深入布局,去年推出了百業靈犀大模型,強調做私域部署,做專、做精。”新華三集團智能管理與運維産品線總經理敖襄橋談到,“從網絡端來看,我們有着多年的技術和經驗積累,堅定融入大模型的能力。AD-NET就是要以AIGC為抓手,逐漸提升智能化的水準,進一步強化其作為‘專家顧問’的能力。”如今,使用者可以通過自然語言的方式讓“靈犀助手”推薦方案和配置、自動組網,滿足各類知識問答的需求,同時,還能夠進行特定場景的故障預測,例如光子產品診斷、流量預測等,并且Agent的能力還在提升。

可以說,算力和聯接在智算時代已加速融合、互為動力。深耕企業網領域二十餘年,新華三通過資料中心、園區、廣域的三大場景創新釋放了“算力×聯接”的乘數效應,為行業客戶提供了高品質的網絡聯接,推動了行業智能化的程序。“我們用AI技術對網絡進行了新的賦能和更新,同時,我們的網絡也對AI創新提供了堅實的基礎。我們希望新華三的網絡能夠對算力的普惠化貢獻更多,這既是未來的技術趨勢,也是我們的使命。”曾富貴說。

(8713491)

繼續閱讀