天天看點

拳打Intel、腳踢NV!AMD釋出128核心Zen4c、1530億半導體GPU怪獸

作者:硬體閑聊

2022年11月,AMD正式釋出了代号“Genoa”(熱那亞)的新一代資料中心處理器EPYC 9004系列,不但節奏上搶在了競品之前,規格、性能更是碾壓一般的存在。

5nm制造技術、chiplet小晶片架構、Zen4 CPU架構、最多96核心192線程和384MB三級緩存、12通道6TB DDR5-4800記憶體、160條PCIe 5.0總線通道……

拳打Intel、腳踢NV!AMD釋出128核心Zen4c、1530億半導體GPU怪獸

如此先進的存在,直接讓競品相形見绌,更進一步,Genoa EPYC 9004系列并非全部,隻是AMD新一代資料中心處理器家族中的一員。

AMD官方早就預告了由Genoa衍生出來的另外三個分支,分别面向不同應用領域和工作負載,共同組成一個龐大的陣營。

拳打Intel、腳踢NV!AMD釋出128核心Zen4c、1530億半導體GPU怪獸
拳打Intel、腳踢NV!AMD釋出128核心Zen4c、1530億半導體GPU怪獸

其中,“Genoa-X”(熱那亞-X)加入3D緩存,主打更高性能計算;

“Bergamo”(貝加莫)首次采用精簡架構Zen4c,是AMD首款專門針對雲原生計算設計的産品;

“Siena”(錫耶納)也是Zen4c架構,服務于電信基礎設施、邊緣計算市場。

現在,Bergamo、Genoa-X終于來了,Siena也将在下半年跟上,輪番出擊,勢不可擋。

這裡,我們先來看看EPYC 9704系列,基于特别設計的Zen4c架構。

拳打Intel、腳踢NV!AMD釋出128核心Zen4c、1530億半導體GPU怪獸
拳打Intel、腳踢NV!AMD釋出128核心Zen4c、1530億半導體GPU怪獸

Zen4c架構其實就是Zen4的精簡版,可以說是一個小核、一個大核,一個注重高能效、一個追求極緻性能。

但是不同于Intel混合架構中性能核、能效核在架構、規格上截然不同,AMD讓兩種核心架構保持了高度的一緻性。

它們都基于同樣的ISA指令集和IPC性能,幾乎所有的微架構名額都一模一樣,主要差別就是三級緩存,平均每核心的容量從4MB減半到2MB。

另外,AMD在消費級的銳龍處理器上未來也會引入“大小核”,但也是類似的理念,小核部分精簡的基本隻是緩存。

拳打Intel、腳踢NV!AMD釋出128核心Zen4c、1530億半導體GPU怪獸

内部經過重新設計之後,包含二級緩存在内的單個Zen4c核心面積僅為2.48平方毫米,相比Zen4核心的3.84平方毫米,縮小了多達35.4%,進而可以大大提高核心密度。

其他諸如前端單元、非核心單元、執行單元、FPU浮點單元等子產品也都縮小了40%上下。

拳打Intel、腳踢NV!AMD釋出128核心Zen4c、1530億半導體GPU怪獸

單個CCD内的核心數量從8個翻番到16個,面積依然控制在72.7平方毫米,相比Zen4 CCD的66.3平方毫米隻增加了9.7%。

單顆晶片的CCD總數從12個減少到8個,但是核心數量從最多96個(192線程)增加到最多128個(256線程)。

緩存方面,一級緩存不變還是每核心32KB指令緩存、32KB資料緩存,但因為核心數多了,總量從6MB增加到8MB。

二級緩存每個核心還是獨享1MB,合計增加到最多128MB,相比Zen4 EPYC增加了32MB。

三級緩存還是每個CCD 32MB,不過從8個核心一組CCX共享全部32MB,改成了每8個核心一組CCX共享其中一半16MB,合計總量256MB,相比Zen4 EPYC少了128MB。

事實上,AMD完全可以繼續在單顆晶片内放置12個CCD,那樣将擁有恐怖的192核心384線程、128MB二級緩存、384MB三級緩存……

拳打Intel、腳踢NV!AMD釋出128核心Zen4c、1530億半導體GPU怪獸
拳打Intel、腳踢NV!AMD釋出128核心Zen4c、1530億半導體GPU怪獸

對比Zen4 EPYC 9004、Zen4c EPYC 9704兩大系列的平台特性,可以看到二者的高度一緻性,可以說除了核心數量、緩存容量之外,幾乎一切都是通用的。

同樣的5nm制造技術,同樣的12通道DDR5記憶體、160條PCIe 5.0總線,同樣的安全特性,同樣的SP5封裝接口。

對于客戶來說,可以根據應用負載、場景的需要,在兩大系列産品之間無縫切換或更新。

拳打Intel、腳踢NV!AMD釋出128核心Zen4c、1530億半導體GPU怪獸

Zen4c EPYC 9704系列,目前隻有三款型号:

EPYC 9754:

滿血版本,完整的128核心,頻率2.25-3.1GHz,相比于Zen4 96核心的EPYC 9654分别低了150MHz、600MHz,而熱設計功耗保持不變,預設還是360W,可調範圍320-400W。

EPYC 9754S:

就是在EPYC 9754的基礎上關閉了SMT同步多線程技術,變為128核心128線程,其他完全相同。

EPYC 9734:

精簡到112核心224線程、112MB二級緩存,三級緩存不變還是完整的256MB,核心頻率略微降至2.2-3.0GHz,預設熱設計功耗也降至340W,可調範圍仍是320-400W。

拳打Intel、腳踢NV!AMD釋出128核心Zen4c、1530億半導體GPU怪獸
拳打Intel、腳踢NV!AMD釋出128核心Zen4c、1530億半導體GPU怪獸
拳打Intel、腳踢NV!AMD釋出128核心Zen4c、1530億半導體GPU怪獸
拳打Intel、腳踢NV!AMD釋出128核心Zen4c、1530億半導體GPU怪獸
拳打Intel、腳踢NV!AMD釋出128核心Zen4c、1530億半導體GPU怪獸

Zen4c EPYC 9704系列的真正對手,其實是Ampere、NVIDIA、亞馬遜等廠商的衆多Arm架構資料中心處理器,以及Intel計劃明年推出的Sierra Forest,後者首次采用純能效核設計,但最多隻有144核心144線程,不但數量處于劣勢,架構性能上更是差了N個檔次。

可以說,無論規格參數,還是性能表現,Zen4c都可以輕松碾壓它們,尤其是對比Arm産品更是有着x86成熟生态的天然優勢。

性能方面,AMD使用EPYC 9754,對比了兩個競品,一是Intel最新一代旗艦Sapphire Rapids四代可擴充至強鉑金8490H,後者有60核心120線程、112.5MB三級緩存、1.9-3.5GHz頻率,熱設計功耗350W,二是Ampere AltraMax,128核心(更新的AltraOne最高可以192核心但尚未上市)。

具體資料就不一一列舉了,反正無論是性能還是能效,EPYC都是碾壓一般的存在。

拳打Intel、腳踢NV!AMD釋出128核心Zen4c、1530億半導體GPU怪獸

Zen4c Bergamo EPYC 9704系列處理器現已上市,相關解決方案也正在陸續登場,比如戴爾的PowerEdge伺服器就已支援,針對雲原生負載做了特别優化。

拳打Intel、腳踢NV!AMD釋出128核心Zen4c、1530億半導體GPU怪獸
拳打Intel、腳踢NV!AMD釋出128核心Zen4c、1530億半導體GPU怪獸

現場實拍:

拳打Intel、腳踢NV!AMD釋出128核心Zen4c、1530億半導體GPU怪獸
拳打Intel、腳踢NV!AMD釋出128核心Zen4c、1530億半導體GPU怪獸
拳打Intel、腳踢NV!AMD釋出128核心Zen4c、1530億半導體GPU怪獸

資料中心領域,AMD還有創新。

2022年3月,AMD釋出了代号“Milan-X”(米蘭-X)的EPYC 7003X系列處理器,在原有Milan EPYC 7003系列的基礎上,加入3D V-Cache緩存,成為世界上首款采用3D晶片堆疊額資料中心CPU。

拳打Intel、腳踢NV!AMD釋出128核心Zen4c、1530億半導體GPU怪獸
拳打Intel、腳踢NV!AMD釋出128核心Zen4c、1530億半導體GPU怪獸

EPYC 7003X系列的每個CCD上堆疊了64MB 3D緩存,八個CCD就是512MB,再加上原生的256MB三級緩存,合計就是768MB。

更關鍵的是,3D緩存、三級緩存具備同樣的通路帶寬、延遲,可以視為一個整體,這就等于瞬間将三級緩存擴大了三倍,由此帶來的性能提升堪稱恐怖。

拳打Intel、腳踢NV!AMD釋出128核心Zen4c、1530億半導體GPU怪獸

如今,在新一代Genoa EPYC 9004系列的基礎上,AMD如法炮制,釋出了Genoa-X EPYC 9084X系列,緩存規模更加暴力。

接下來就看看它到底有多麼暴力。

拳打Intel、腳踢NV!AMD釋出128核心Zen4c、1530億半導體GPU怪獸

首先,Genoa-X系列上使用的3D V-Cache技術,從原理到實作方式都和上代Milan-X系列,以及桌面上的銳龍7 5800X3D、銳龍7000X3D如出一轍。

3D緩存部分采用7nm制造技術,因為不需要邏輯電路、控制單元等,隻需單純地堆砌SRAM陣列單元,是以容量可以做得更大,目前是64MB,兩倍于原生三級緩存。

3D緩存部分“面朝下”扣在5nm制造技術的CCD之上,通過混合鍵合的方式組合成一個整體,通過TSV矽穿孔提供信号、電源傳輸通道。

MD也是目前唯一批量出貨混合鍵合封裝産品的企業。

由于3D緩存部分面積較小,是以還設計了結構性的Die,同樣覆寫在CCD、IOD之上,保證整體高度的一緻性,便于封裝、散熱。

拳打Intel、腳踢NV!AMD釋出128核心Zen4c、1530億半導體GPU怪獸
拳打Intel、腳踢NV!AMD釋出128核心Zen4c、1530億半導體GPU怪獸

Genoa-X系列和Genoa系列一樣都是最多96個Zen4核心與384MB原生三級緩存,分為12個CCD,也就是每個CCD上自帶32MB三級緩存。

不同之處在于,Genoa-X在每個CCD上額外堆疊了64MB 3D緩存,12個CCD就是768MB,這樣一來總的三級緩存就達到了驚人的1152MB,也是處理器緩存史上第一次突破1GB。

如果再算上6MB一級緩存(每核心獨享64KB)、96MB二級緩存(每核心獨享1MB),Genoa-X的緩存總量就是1254MB!

拳打Intel、腳踢NV!AMD釋出128核心Zen4c、1530億半導體GPU怪獸

型号一共三款:

EPYC 9684X:

96核心192線程,頻率2.55-3.7GHz,三級緩存1152MB(384MB+768MB),預設TDP 400W,可調範圍320-400W。

EPYC 9384X:

32核心64線程,頻率3.1-3.9GHz,三級緩存768MB,預設TDP 320W,可調範圍320-400W。

EPYC 9184X:

16核心32線程,頻率3.55-4.2GHz,三級緩存768MB,TDP同上。

後兩款型号都開啟了8個CCD,三級緩存部分包括原生的256MB、3D堆疊的512MB。

另外,對比非3D緩存的EPYC 9004系列,緩存大增的同時,頻率不得不有所妥協,但主要隻是降低了基準頻率,最高加速頻率變化并不大。

拳打Intel、腳踢NV!AMD釋出128核心Zen4c、1530億半導體GPU怪獸
拳打Intel、腳踢NV!AMD釋出128核心Zen4c、1530億半導體GPU怪獸
拳打Intel、腳踢NV!AMD釋出128核心Zen4c、1530億半導體GPU怪獸

性能方面,海量緩存帶來的優勢可以說是斷崖式的,不過AMD并未對比原有的Genoa 9004系列,而是把競品拿過來好好欺負了一頓,60核心的旗艦級至強鉑金8490H完全沒法打,各種性能測試都是兩三倍的差異。

拳打Intel、腳踢NV!AMD釋出128核心Zen4c、1530億半導體GPU怪獸

得益于超多核心、超大緩存兩大優勢集于一體,Genoa-X系列實作了超高的計算密度,而且多處理器互連的效率非常高,幾乎可以呈線性提升。

按照官方說法,Genoa-X隻需要8個節點,就可以達成傳統14個節點的性能水準。

拳打Intel、腳踢NV!AMD釋出128核心Zen4c、1530億半導體GPU怪獸

戴爾、慧與(HPE)、聯想、超微等都将推出基于Genoa-X的産品。

拳打Intel、腳踢NV!AMD釋出128核心Zen4c、1530億半導體GPU怪獸
拳打Intel、腳踢NV!AMD釋出128核心Zen4c、1530億半導體GPU怪獸

接着看加速卡。

AI浪潮中,NVIDIA無疑是最大受益者,A100等加速卡供不應求,多年耕耘的成熟生态更是大大降低了開發難度和成本。

當然,Intel、AMD不會讓NVIDIA獨美,都在嘗試各自的方案,設計新的硬體産品。

Intel一方面是傳統的至強x86 CPU處理器,另一方面是基于Xe HPC高性能計算架構的GPU,首款産品Ponte Vecchio已經用于超級計算機,還在嘗試融合CPU+GPU,打造所謂的XPU,隻是首款産品Flacon Shores出師未捷,退回了純GPU方案,未來再沖擊CPU+GPU融合。

拳打Intel、腳踢NV!AMD釋出128核心Zen4c、1530億半導體GPU怪獸

AMD在硬體層面的進展就順利多了,不但有越來越強悍的EPYC CPU處理器,Instinct系列加速卡也是每一代都在飛躍。

早在今年初,AMD就宣布了新一代Instinct MI300,是全球首款同時內建CPU、GPU的資料中心APU。

現在,它的名字變成了Instinct MI300A,同時AMD還首次宣布了全新的純GPU産品——“Instinct MI300X”。

拳打Intel、腳踢NV!AMD釋出128核心Zen4c、1530億半導體GPU怪獸

Instinct MI300A号稱全球首款面向HPC、AI的APU加速器,基于AMD多年的成熟豐富經驗,實作了CPU、GPU的完美合體。

Instinct MI300A一共有多達13顆小晶片,其中計算部分9顆,都是5nm工藝制造。

CPU部分為Zen4架構,三顆CCD晶片,24個核心,GPU為最新的CDNA3架構,六顆XCD晶片,核心單元數量仍未公布,還有128GB容量的HBM3高帶寬記憶體,可以為CPU、GPU所共享。

另外4顆晶片都是6nm工藝制造,是計算部分3D堆疊的基礎,作為有源中介層,可以處理I/O和其他各種功能。

整顆晶片有多達1460億個半導體,超過了Intel 1000億個半導體的Ponte Vecchio,而且後者隻有GPU。

标準的Socket獨立封裝(不是SP5),有了它就不再需要單獨的EPYC處理器,一顆晶片組就能構成一個完整的計算系統。

拳打Intel、腳踢NV!AMD釋出128核心Zen4c、1530億半導體GPU怪獸

Instinct MI300X和前輩一樣是純GPU方案,其實就是把Instinct MI300A裡的那個CPU單元也換成了CDNA3 GPU單元,HBM3高帶寬記憶體也增加到了192GB,相當于NVIDIA H100 80GB的足足2.4倍。

同時,HBM記憶體帶寬高達5.2TB/s,Infinity Fabric總線帶寬也有896GB/s,同樣遠超NVIDIA H100。

半導體數量進一步來到1530億個,跨越了1500億大關,歎為觀止。

拳打Intel、腳踢NV!AMD釋出128核心Zen4c、1530億半導體GPU怪獸
拳打Intel、腳踢NV!AMD釋出128核心Zen4c、1530億半導體GPU怪獸
拳打Intel、腳踢NV!AMD釋出128核心Zen4c、1530億半導體GPU怪獸

釋出會現場,AMD第一次公開展示了Instinct MI300X,實時輸出了一首關于舊金山的詩歌。

它單卡即可輕松運作400億參數的大語言模型,面對不同模型、參數規模所需的GPU數量相比競品更少,自然成本更低。

得益于超大的HBM3記憶體,這個大模型,其實就是完全在HBM3記憶體中運作的,無需使用系統記憶體,自然節省了資料的傳輸與拷貝,進而大大降低延遲、提升性能。

拳打Intel、腳踢NV!AMD釋出128核心Zen4c、1530億半導體GPU怪獸

同時,AMD還宣布了新的Instinct平台,基于業界标準的OCP開放計算标準,八塊Instinct MI300X加速卡并行,可提供總計多達1.5TB HBM3記憶體。

拳打Intel、腳踢NV!AMD釋出128核心Zen4c、1530億半導體GPU怪獸

Instinct MI300A現已出樣,Instinct MI300X将在第三季度出樣,相關産品預計第四季度上市。

拳打Intel、腳踢NV!AMD釋出128核心Zen4c、1530億半導體GPU怪獸

MI300A

拳打Intel、腳踢NV!AMD釋出128核心Zen4c、1530億半導體GPU怪獸

MI300X

拳打Intel、腳踢NV!AMD釋出128核心Zen4c、1530億半導體GPU怪獸

Instinct平台

拳打Intel、腳踢NV!AMD釋出128核心Zen4c、1530億半導體GPU怪獸
拳打Intel、腳踢NV!AMD釋出128核心Zen4c、1530億半導體GPU怪獸

繼續閱讀