天天看點

憑借内置HBM2e,Intel Xeon Max在HPC和AI工作負載中展現巨大優勢

作者:芯智訊

據外媒Phoronix報道,其測試了美國超微(Supermicro)公司基于英特爾至強(Xeon) Max 9480/9468處理器的伺服器Hyper SuperServer SYS-221H-TNR,顯示Xeon Max 9480/9468内置的64GB HBM2e高帶寬記憶體顯著提升了整體的高性能計算(HPC)和人工智能(AI)計算的工作負載能力。

憑借内置HBM2e,Intel Xeon Max在HPC和AI工作負載中展現巨大優勢

今年1月,英特爾正式推出了全球首款配備 HBM 記憶體的處理器——Intel Xeon Max 系列處理器,其基于代号Sapphire Rapids-HBM晶片建構。新的Xeon Max系列處理器擁有32至56 個核心(旗艦是Xeon Max 9468),均為 P 核,可提供最高 112 線程,350W TDP。同時所有的Xeon Max都内置了 64 GB 的 HBM2e 高帶寬記憶體,分為 4 個 16 GB 的叢集,總記憶體帶寬為 1 TB / s。

憑借内置HBM2e,Intel Xeon Max在HPC和AI工作負載中展現巨大優勢

英特爾稱,Xeon Max系列CPU配備的高帶寬記憶體足以滿足最常見的HPC工作負載,與舊的英特爾至強 8380 系列處理器或 AMD EPYC 7773X 相比,可在某些工作負載中提供接近 5 倍的性能。同時, Xeon Max 系列CPU中還還包含了最多 20 個加速引擎,主要是用于 AVX-512、AMX、DSA 和英特爾 DL Boost 等AI工作負載。據稱,在 MLPerf DeepCAM 訓練中,Xeon Max 系列CPU的AI性能比 AMD 7763 提升了 3.6 倍,比 NVIDIA 的 A100 提升了 1.2 倍。

憑借内置HBM2e,Intel Xeon Max在HPC和AI工作負載中展現巨大優勢

Phoronix表示,Xeon Max系列處理器所支援的AVX-512、AMX、DDR5、CXL 1.1等功能與其他的第四代至強可擴充處理器系列差不多,其配備的 64 GB 的 HBM2e 高帶寬記憶體才是最為突出的優勢。

據介紹,Xeon Max系列支援三種不同的操作模式:僅HBM模式、HBM平面(1LM)模式和HBM緩存模式。

在僅HBM模式中,是伺服器完全在64GB的HBM2e記憶體(或128GB的雙插槽場景)内運作。僅HBM模式的工作原理是,簡單地不填充伺服器上的任何DDR5記憶體插槽并引導;

HBM緩存模式,是伺服器運作Xeon Max CPU同時安裝DDR5記憶體的預設模式。在這種模式下,HBM2e作為緩存透明地工作,不需要軟體方面的更改。

HBM平面模式,是當DDR5填充Xeon Max伺服器時,可以通過BIOS啟用該模式。在HBM平面模式中,可以建立具有HBM和DRAM的平面存儲器區域,以便比使用HBM2E的軟體具有更大的靈活性。但對于HBM平面模式來說,可能需要進行軟體更改。

從Supermicro最新曝光的基于英特爾Xeon Max 9480/9468處理器的伺服器的測試資料來看,不僅測試了僅HBM模式和HBM緩存模式,此外還測試了HBM平面模式,但沒有為HBM2e記憶體配置設定任何内容,以便在HBM2e記憶體未使用的情況下,僅在DDR5記憶體上有效測試這些處理器,以檢視其非活動/有效未使用的影響。

對于每個插槽容量可以容納64GB高帶寬記憶體的工作負載,僅HBM模式非常有趣。Xeon Max 9480有56個核心,每個核心的記憶體的HBM記憶體略高于1GB,這不适合當今許多高度線程化的工作負載,但仍有相當多的情況下,每個核心1~2GB的記憶體是令人滿意的。最低端Xeon Max 9462,具有32個CPU核心,但每個核心将平均擁有2GB的HBM2e。如果Xeon Max系列能夠在未來幾代中實作約128GB或更多的HBM2e高帶寬記憶體,進而在理想情況下每個核心平均至少擁有2GB的情況下,通過更高的核心數量部件開辟更多的可能性,這将是非常有趣的。

曝光的基準測試着眼于僅HBM和HBM緩存模式,加上HBM未使用/非活動模式之間的各種工作負載,其中軟體可以通過128GB(雙插槽)與512GB DDR5-4800加上128GB HBM2e緩存的緩存模式進行比較。将主要着眼于針對HPC和AI的Xeon Max Linux性能的其他領域,以及與競争對手的比較。

英特爾Xeon Max 9468擁有48個P核,基本頻率為2.1GHz,全核turbo頻率為2.6GHz,最大turbo頻率為3.5GHz,除了64GB HBM2e記憶體之外,還擁有105MB緩存。Xeon Max 9480旗艦處理器有56個P核,基本頻率為1.9GHz,全核turbo頻率為2.6GHz,最大turbo頻率為3.5GHz,除了64GB HBM2e記憶體之外,還擁有112.5MB緩存。Xeon Max 9468和Xeon Max 9480均具有350瓦TDP額定值。

英特爾至強Max 9480的推薦客戶價格為12980美元,遠低于售價17000美元的60核至強Platinum 8490H,也不比11800美元左右的AMD EPYC 9654高太多。此外,如果使用者能夠在僅HBM模式下滿足需求,則可以節省相當多的DDR5記憶體成本。

憑借内置HBM2e,Intel Xeon Max在HPC和AI工作負載中展現巨大優勢

為了測試Intel Xeon Max處理器,Supermicro提供了Hyper SuperServer SYS-221H-TNR審查單元。SYS-221H-TNR是一款不錯的雙插座LGA-4677解決方案,具有Sapphire Rapids所需的所有功能。Supermicro SYS-221H-TNR評論将在未來幾周Phoronix上釋出的其他Xeon Max文章中單獨釋出。

在第一輪測試中,所有Supermicro SYS-221H-TNR+Xeon Max 9468/9480雙套接字測試都是在Ubuntu 23.04上完成的,使用其Linux 6.2核心和GCC 12.2編譯器,同時在Intel CPU Freq性能調控器模式下運作。伺服器在SNC4模式下運作所有基準測試。

憑借内置HBM2e,Intel Xeon Max在HPC和AI工作負載中展現巨大優勢

值得指出的是,所有的處理器測試都是使用SYS-221H-TNR的空氣冷卻。對于要求非常高的Xeon Max 9480部署,英特爾則鼓勵使用液體冷卻。英特爾鼓勵其合作夥伴使用液體冷卻來滿足給定SKU的指定外殼溫度(TCase)。Xeon Max 9480的溫度建議為64°C或Xeon Max 9468的溫度為77°C。

讓我們繼續看一看加入HBM2e高帶寬記憶體的Xeon Max對性能的影響:

憑借OpenFOAM領先的開源計算流體動力學(CFD)軟體,僅使用HBM模式可以節省大量時間,并在性能上實作顯著飛躍。這些結果顯示了啟用Intel HBM2e的伺服器處理器的巨大潛力,這些處理器能夠将資料集/工作負載适應每個插槽64GB的HBM2e。

憑借内置HBM2e,Intel Xeon Max在HPC和AI工作負載中展現巨大優勢

IPMI報告的Super Micro伺服器在運作OpenFOAM CFD時的功耗在測試模式之間相似。

憑借内置HBM2e,Intel Xeon Max在HPC和AI工作負載中展現巨大優勢
憑借内置HBM2e,Intel Xeon Max在HPC和AI工作負載中展現巨大優勢
憑借内置HBM2e,Intel Xeon Max在HPC和AI工作負載中展現巨大優勢

對于這個開源CFD解決方案,Xeon Max帶來的OpenFOAM好處是非常可觀和有趣的。盡管Xeon Max 9480的最高核數僅為56核,但相對于沒有配備HBM2e的更高核數的Sapphire Rapids(非Max)處理器或競争對手提供了多少好處。

憑借内置HBM2e,Intel Xeon Max在HPC和AI工作負載中展現巨大優勢

得益于HBM2e記憶體,Xeon Max處理器的每瓦性能也得到了很好的提升。

憑借内置HBM2e,Intel Xeon Max在HPC和AI工作負載中展現巨大優勢
憑借内置HBM2e,Intel Xeon Max在HPC和AI工作負載中展現巨大優勢

在Phoronix進行基準測試的許多常見HPC工作負載中,Xeon Max處理器在使用HBM2E記憶體時以及在每個核心能夠容納的對應的記憶體容量的工作負載中顯示出顯著優勢。

憑借内置HBM2e,Intel Xeon Max在HPC和AI工作負載中展現巨大優勢

當在僅HBM模式下操作時,由于不必為16個DDR5 DIMM供電,使用IPMI監測整個交流系統功率消耗時可以節省一些功率。

憑借内置HBM2e,Intel Xeon Max在HPC和AI工作負載中展現巨大優勢

但是,當采用僅HBM模式時,許多HPC基準測試的CPU功耗也略高(通過RAPL/PowerCap sysfs接口監控),是以這并不像完全移除16個DDR5 DIMM那樣大。

憑借内置HBM2e,Intel Xeon Max在HPC和AI工作負載中展現巨大優勢
憑借内置HBM2e,Intel Xeon Max在HPC和AI工作負載中展現巨大優勢
憑借内置HBM2e,Intel Xeon Max在HPC和AI工作負載中展現巨大優勢
憑借内置HBM2e,Intel Xeon Max在HPC和AI工作負載中展現巨大優勢

當啟動美國國家航空航天局在HPC空間中常見的NPB平行基準測試時,在單獨使用HBM2e存儲器方面幾乎一緻地取得了相當大的進步。也就是說利用HBM2e記憶體性能得到了非常好的改進。

憑借内置HBM2e,Intel Xeon Max在HPC和AI工作負載中展現巨大優勢

在僅HBM模式下,一些性能改進也是非常令人印象深刻。

所有,我們很容易了解為什麼Aurora超級計算機的設計是基于Xeon Max處理器,而不是标準(非Max)Sapphire Rapids處理器。

憑借内置HBM2e,Intel Xeon Max在HPC和AI工作負載中展現巨大優勢
憑借内置HBM2e,Intel Xeon Max在HPC和AI工作負載中展現巨大優勢

OpenRadioss作為基于Altair Radioss的開源軟體,在Xeon Max HBM模式下也顯示出了一些不錯的時間節約。

憑借内置HBM2e,Intel Xeon Max在HPC和AI工作負載中展現巨大優勢

Quantum Espresso軟體也能夠享受HBM2E帶來的提升。但是在某些工作負載中,Xeon Max 9468領先于Xeon Max 9480,主要是在一些工作負載不能很好地擴充的情況下,當每個核心的HBM2e數量越多時,則對Xeon Max 9468更有利。

憑借内置HBM2e,Intel Xeon Max在HPC和AI工作負載中展現巨大優勢

對于許多HPC工作負載,在僅HBM模式下操作Xeon Max 9468和9480處理器也都有着顯著提升。但是,對于這些最初的Xeon Max處理器,在僅HBM模式下運作時,每個套接字(Socket)隻能有64GB的系統記憶體可尋址。對于需要更多記憶體的工作負載——或者線程工作負載喜歡每個核心超過1GB——這可能意味着資源争用導緻記憶體不足。

憑借内置HBM2e,Intel Xeon Max在HPC和AI工作負載中展現巨大優勢
憑借内置HBM2e,Intel Xeon Max在HPC和AI工作負載中展現巨大優勢
憑借内置HBM2e,Intel Xeon Max在HPC和AI工作負載中展現巨大優勢
憑借内置HBM2e,Intel Xeon Max在HPC和AI工作負載中展現巨大優勢
憑借内置HBM2e,Intel Xeon Max在HPC和AI工作負載中展現巨大優勢
憑借内置HBM2e,Intel Xeon Max在HPC和AI工作負載中展現巨大優勢
憑借内置HBM2e,Intel Xeon Max在HPC和AI工作負載中展現巨大優勢

在廣泛的技術工作負載範圍内,通過在僅HBM模式下運作,可以觀察到許多顯著的性能改進。

憑借内置HBM2e,Intel Xeon Max在HPC和AI工作負載中展現巨大優勢
憑借内置HBM2e,Intel Xeon Max在HPC和AI工作負載中展現巨大優勢
憑借内置HBM2e,Intel Xeon Max在HPC和AI工作負載中展現巨大優勢
憑借内置HBM2e,Intel Xeon Max在HPC和AI工作負載中展現巨大優勢

了解Xeon Max在一系列HPC工作負載中的表現,并量化僅HBM與HBM緩存模式的差異,是非常有趣的。

憑借内置HBM2e,Intel Xeon Max在HPC和AI工作負載中展現巨大優勢
憑借内置HBM2e,Intel Xeon Max在HPC和AI工作負載中展現巨大優勢
憑借内置HBM2e,Intel Xeon Max在HPC和AI工作負載中展現巨大優勢
憑借内置HBM2e,Intel Xeon Max在HPC和AI工作負載中展現巨大優勢
憑借内置HBM2e,Intel Xeon Max在HPC和AI工作負載中展現巨大優勢
憑借内置HBM2e,Intel Xeon Max在HPC和AI工作負載中展現巨大優勢
憑借内置HBM2e,Intel Xeon Max在HPC和AI工作負載中展現巨大優勢
憑借内置HBM2e,Intel Xeon Max在HPC和AI工作負載中展現巨大優勢

英特爾Xeon Max的性能得益于英特爾的開源OpenVINO工具包。由于OpenVINO能夠利用進階矩陣擴充(AMX),并在基準測試中從僅HBM2E的操作中受益匪淺,是以在各種測試模型中都出現了許多顯著的加速。

憑借内置HBM2e,Intel Xeon Max在HPC和AI工作負載中展現巨大優勢
憑借内置HBM2e,Intel Xeon Max在HPC和AI工作負載中展現巨大優勢

使用HBM2E記憶體,PetSC庫的流性能得到了巨大提升。

憑借内置HBM2e,Intel Xeon Max在HPC和AI工作負載中展現巨大優勢

以下是所進行的各種基準測試的CPU功耗。在僅HBM模式下運作時,雙插槽處理器的綜合功耗略高。在使用HBM的情況下,有記錄的峰值CPU功耗,有時功率消耗明顯更高。然而,這部分可能是由于PowerCap/RPL驅動程式錯誤或其他平台異常。因為當檢視下面IPMI報告的AC伺服器功耗數字時,它們與PowerCap提供的結果中的峰值不一緻。

憑借内置HBM2e,Intel Xeon Max在HPC和AI工作負載中展現巨大優勢

通過Super Micro IPMI接口獲得的交流功耗數字顯示,在僅HBM模式下,功耗略低于HBM非活動或HBM緩存模式下的功耗,因為16個DDR5伺服器DIMM未填充。是以,如果能夠針對工作負載在僅HBM模式下運作,則可以節省一些電力。同時也避免了所有DDR5伺服器記憶體的開銷。

憑借内置HBM2e,Intel Xeon Max在HPC和AI工作負載中展現巨大優勢

當對這些能夠利用Xeon Max上的HBM2e的工作負載取幾何平均值時,HBM緩存模式将性能提高了約10%至11%。當使用HBM時,性能僅提高了約8%。或者總的來說,如果将Xeon Max 9468/9480的性能與沒有HBM2e記憶體用于在128GB(雙插槽)的HBM2e上操作所有情況進行比較,那麼從OpenVINO到OpenFOAM以及測試的許多其他HPC/AI基準測試,這種廣泛的工作負載組合的總體性能提高了18~20%。

不過,這在很大程度上取決于與計算目的相關的工作負載。對于OpenFOAM CFD、OpenVINO AI和許多其他工作負載,在僅HBM模式下都有顯著改進。如果能夠使用64GB或128GB的HBM2E和售價約12000美元的旗艦Xeon Max 9480,再加上不必投資DDR5伺服器記憶體的節省,Xeon Max系列對Sapphire Rapids來說是具有很大的優勢,尤其是對于各種HPC和AI工作負載。特别是對于準備使用英特爾進階矩陣擴充的人工智能工作負載,Xeon Max實際上是AMX和HBM2E之間的雙赢。

雖然Xeon Max 9468和Xeon Max 9480的整體表現相當接近,Xeon Max 9468也确實比Xeon Max 9480具有輕微的頻率優勢,但是Xeon Max 9480具有明顯的核心優勢。但對于兩個處理器來說,都隻争奪64GB的HBM2e記憶體或每個核心略多于1GB的記憶體,Xeon Max 9468可以在少八個核心的情況下享受稍微更少的資源争奪。

以上Xeon Max測試也是基于所提供的硬體通過風冷卻進行的。然而,英特爾确實鼓勵其合作夥伴使用液體冷卻,尤其是Xeon Max 9480 SKU。

Xeon Max确實支援AMX和DSA,但不提供任何可與其他Sapphire Rapids處理器一起使用的QAT/DLB/IAA加速器裝置。然而,圍繞新的英特爾加速器的軟體生态系統支援仍然有限,是以除了一些特定的用例外,Xeon Max并沒有太大的缺陷。

不過,主要的限制是每個CPU隻有64GB的HBM2E記憶體,這對于56核的旗艦Xeon Max 9480來說意味着每個核略高于1GB。那些考慮将Xeon Max用于僅HBM路由的使用者需要確定它們不會達到任何記憶體限制/争用,進而對性能産生負面影響。

希望對于未來的Xeon Max處理器,我們将設法看到英特爾在更高核數的CPU中實作至少128GB的HBM2E。另一個障礙是Xeon Max 9480的核心數為56,而非Max Sapphire Rapids處理器的核心數高達60,AMD第四代EPYC Genoa的每個插槽最多可管理96各核心,AMD的Bergamo的每個插槽可管理128個核心。

對于記憶體非常有限的工作負載,配備HBM2E的Xeon Max系列可能是一件令人愉快的事情,但在與競争對手甚至SPR非最大的競争中,肯定有一些工作負載對于具有更高的核心數量更有利。無論如何,這些Xeon Max處理器在HBM緩存和僅HBM操作模式下的表現是非常出色的。

編輯:芯智訊-浪客劍 來源:Phoronix

繼續閱讀