天天看點

CPU、GPU、DPU一體是資料中心未來必然的架構

CPU、GPU、DPU一體是資料中心未來必然的架構

集微網消息,資料作為重要的資源和生産要素,已經成為世界範圍内的共識。而這一切背後的支點——資料中心——計算和存儲資料的區域,必将是未來科技企業角逐的聖地。

資料中心已不再是原來的大型機時代,即處理關鍵的單一任務,也走過了在軟體定義資料中心下,運作多業務時如何優化利用資源的問題,目前資料中心正從縱向延伸走向了橫向擴張,現有的算力便成了瓶頸,英偉達網絡事業部亞太區市場開發進階總監宋慶春表示。

GPU很好的解決了算力瓶頸的問題,但僅是針對于單機的,再面向更為廣泛的資料中心,特别是對于安全和性能隔離時,該如何解決?

英偉達選擇了DPU。“現在在資料中心中CPU、GPU、DPU 3U一體缺一不可,這是資料中心成為計算單元的基礎,也是算力成為服務的基礎。”宋慶春指出。

DPU即Data Processing Unit,是面向資料中心的基礎架構的處理器。從某種角度而言,DPU的出現很好地釋放了CPU、GPU的資源,在英偉達眼中,它的出現為以資料為中心的新計算架構帶來不同的思路。由DPU執行通信架構、存儲架構、安全架構和業務隔離,将CPU、GPU算力資源“解壓”給應用,讓性能得到更優的釋放。宋慶春表示,有了DPU以後,把通信和計算重疊起來,這樣可以通過DPU來加速HPC業務中的通信,讓CPU與GPU執行真正的浮點計算。

他指出,DPU的出現彌補了在資料中心中對于基礎服務加速能力的不足,實作了3U一體的新型資料中心架構,讓資料中心成為新的計算單元,這也是一個必然的架構。

英偉達在GTC 2021上釋出了新一代 InfiniBand 網絡平台Quantum-2。包括 NVIDIA Quantum-2 交換機、ConnectX-7 網卡、BlueField-3 資料處理器 DPU(資料處理器)和所有支援這種新架構的軟體。這也是迄今為止最先進的端到端網絡平台。

宋慶春表示,Quantum-2是一個會計算的網絡,真正契合了超級計算和雲原生對網絡的需求。當超級計算機和雲原生超算系統要實作高性能時,所有資源一定需要參與到計算中去。

資料在網絡通信過程中,很多通信模型會制約整個系統性能的發展,用傳統的馮·諾依曼架構的計算模型就會造成網絡擁塞。無論是提升帶寬還是降低延遲都無法解決這一問題,如何繼續提升資料中心的性能成了業界面臨的新挑戰。

資料在哪裡,計算就在那,宋慶春指出。以資料為中心的新架構即可解決網絡傳輸中的丢包問題和其他瓶頸。新架構可以使通訊延時降低10倍以上,因而網絡計算成為現在以資料為中心的架構的關鍵技術之一。

憑借每秒 400Gbps 的高吞吐量,NVIDIA Quantum-2 InfiniBand 将網速提高了一倍,網絡端口數量增加了三倍。它在性能提升 3 倍的同時,還将對資料中心網絡所需的交換機數量減少了 6 倍,于此同時,資料中心的能耗和空間各減少了 7%。

NVIDIA Quantum-2 平台實作了多租戶之間的性能隔離,這使得一個租戶的行為不會幹擾到其它租戶,同時通過利用先進的基于遙測且支援雲原生的擁塞控制機制,確定了可靠的資料吞吐量,并且不受使用者或應用需求高峰的影響。

NVIDIA Quantum-2 SHARPv3 網絡計算技術可為 AI 應用提供超出上一代産品 32 倍的加速引擎數量,借助 NVIDIA UFM Cyber-AI 平台,将為資料中心提供先進的 InfiniBand 網絡管理功能,包括預測性維護等。

NVIDIA Quantum-2 平台中內建了納秒級精度的計時系統可以同步分布式應用,如在資料庫進行中,有助于減少等待及空閑時間。這一新功能,其使得雲資料中心成為電信網絡的一部分,可以托管軟體定義的 5G 無線服務。

對比傳統超算平台,宋慶春介紹道,Quantum-2可以讓網絡直接參與到計算中,在Quantum-2平台中,通過先進的網絡計算技術、動态路由、擁塞控制技術實作了業務的性能隔離,當在運作多個業務時,每個業務都能發揮到最好的性能,把超算上雲時的性能發揮到最優,能夠保持Bare-metal的性能。甚至可以通過Quantum-2 InfiniBand DPU 實作計算和通信的重疊,通過計算和通信的重疊又提供另外一個新的優化思路,就是把計算放在了CPU、GPU上,把通信架構放在DPU上,這時候對某些業務來看甚至可以達到比Bare-metal更好的性能,就像做快速傅立葉變換,3D FFT這樣一個業務來講,它就可以達到比Bare-metal還要更好的性能。是以,如果要是推雲原生的技術平台,Quantum-2是一個最佳的網絡平台去支撐雲原生。

對于雲原生的概念,宋慶春表示,從英偉達的角度來看,雲原生也許未來會改名字,但一定會走到相關技術的方向上去,現在的算力已經成為資源,包括政府号召的節能減排、提升性能、降低功耗,所有這些都希望資料中心能以一個最低的功耗,最少的裝置來提供最大的性能,這樣在雲原生提升性能的這個方向上肯定是毫無疑問,是對的。(校對/Sharon)

繼續閱讀