天天看點

揭秘Hopper GPU:非拼裝的800mm2龐然大物

在2022年3月NVIDIA GTC大會上,NVIDIA創始人兼CEO黃仁勳介紹基于全新Hopper架構GPU——H100,是英偉達迄今為止,用于加速人工智能(AI)、高性能計算(HPC)和資料分析等任務的最強GPU晶片。這顆晶片以計算科學先驅Grace Hopper的姓氏命名。

黃仁勳表示:“Hopper H100是有史以來最大的代際飛躍。H100具有800億個半導體,在性能上堪稱NVIDIA的“新核彈”。這顆“新核彈”的核心架構是什麼樣的?

揭秘Hopper GPU:非拼裝的800mm2龐然大物

首先是規格方面,NVIDIA Hopper架構的H100晶片采用台積電4nm工藝(N4是台積電N5工藝的優化版),核心面積為814平方毫米,比A100小14平方毫米。雖然核心面積比A100小14平方毫米,但得益于4nm工藝,半導體密度數量從542億提升到800億。

揭秘Hopper GPU:非拼裝的800mm2龐然大物

從核心設計圖來看,NVIDIA Hopper架構與蘋果UltraFusion相似,但它在本質上還是單獨的一顆晶片,而不是蘋果M1 Ultra那種将兩塊晶片橋接起來。頂層拓撲與Ampere架構差别不大,整個Hopper架構GPU由8個圖形處理叢集(Graphics Processing Cluster,GPC)“拼接”組成,但每4個GPC共享25MB得L2緩存。核心兩側則是HBM3顯存,擁有5120 Bit的位寬,最高容量可達80GB。

片上的每個GPC由9個紋理處理叢集(Texture Processor Cluster,TPC)組成,由PCIe5或接口進入的計算任務,通過帶有多執行個體GPU(Multi-Instance GPU,MIG)控制的GigaThread引擎配置設定給各個GPC。GPC通過L2緩存共享中間資料,GPC計算的中間資料通過NVLink與其他GPU互通。每個TPC由2個流式多處理器(Streaming Multiprocessor)組成。

揭秘Hopper GPU:非拼裝的800mm2龐然大物

Hopper架構的性能提升和主要變化展現在新型線程塊叢集技術和新一代的流式多處理器。NVIDIA在Hopper中引入了新的線程塊叢集機制,可實作跨單元進行協同計算。H100中的線程塊叢集可在同一GPC内的大量并發運作,對較大的模型具有更好的加速能力。

揭秘Hopper GPU:非拼裝的800mm2龐然大物

每個包括128個FP32 CUDA核心、4個第4代張量核心(Tensor Core)。每個單元的指令首先存入L1指令緩存(L1 Instruction Cache),再分發到L0指令緩存(L1 Instruction Cache)。與L0緩存配套的線程束排序器(Wrap Scheduler,線程束)和排程單元(Dispatch Unit)為CUDA核心和張量核心配置設定計算任務。通過使用4個特殊函數單元(Special Function Unit,SFU)單元,進行超越函數和插值函數計算。

NVIDIA在Hopper架構中引入新一代流式多處理器的FP8張量核心(Tensor Core),用來加速AI訓練和推理。FP8張量核心支援FP32和FP16累加器以及兩種FP8 輸入類型(E4M3和E5M2)。與FP16或BF16相比,FP8将資料存儲要求減半,吞吐量翻倍。在Transformer引擎的分析中,還會看到使用FP8可自适應地提升Transformer的計算速度。

在GPU中,張量核心AI加速的關鍵子產品,也是Ampere及之後GPU架構與早期GPU的重要差別。張量核心是用于矩陣乘法和矩陣累加 (Matrix Multiply-Accumulate,MMA) 數學運算的專用高性能計算核心,可為AI和HPC應用程式提供突破性的性能加速。

揭秘Hopper GPU:非拼裝的800mm2龐然大物

Hopper的張量核心支援FP8、FP16、BF16、TF32、FP64和INT8 MMA資料類型。這一代張量核心的關鍵點是引入Transformer引擎。Transformer算子是主流的BERT到GPT-3等NLP模型的基礎,越來越多地應用于計算機視覺、蛋白質結構預測等不同領域。

與上一代A100相比,新的Transformer引擎與Hopper FP8張量核心相結合,在大型NLP模型上提供高達9倍的AI訓練速度和30倍的AI推理速度。為了提升Transformer的計算效率,新Transformer引擎使用混合精度,在計算過程中智能地管理計算精度,在Transformer計算的每一層,根據下一層神經網絡層及所需的精度,在FP8和其他浮點格式中進行動态格式轉換,充分運用張量核心的算力。

揭秘Hopper GPU:非拼裝的800mm2龐然大物

Hopper架構中新增加張量存儲加速器 (Tensor Memory Accelerator,TMA) ,以提高張量核心與全局存儲和共享存儲的資料交換效率。新的TMA使用張量次元和塊坐标指定資料傳輸,而不是簡單的按資料位址直接尋址。TMA通過支援不同的張量布局(1D-5D張量)、不同的存儲通路模式、顯著降低尋址開銷并提高了效率。

揭秘Hopper GPU:非拼裝的800mm2龐然大物

TMA操作是異步的,多個線程可以共享資料通道,排序完成資料傳輸。TMA的關鍵優勢是可以在進行資料複制的時候,釋放線程的算力來執行其他工作。例如,在A100由線程本身負責生成所有位址執行所有資料複制操作;但Hopper中得TMA來負責生成位址序列(這個思路類似DMA控制器),接管資料複制任務,讓線程去做其他事。

與Ampere A100線相比,基于Hopper架構的H100計算性能提高大約6倍。性能大幅提升的核心原因是NVIDIA引入FP8張量核心和針對NLP任務的Transformer引擎,加上TMA技術減少單元在資料複制時的無用功。

編輯點評:雖然老黃推出Hopper架構GPU,帶來大約6倍于上代産品的性能提升。而且架構上也大有向Chiplet(芯粒)的方向發展。按照Hopper核心内部設計,NVIDIA可以輕松的帶來更多小晶片産品。在消費其産品上,NVIDIA下代顯示卡可能是Ada Lovelace,架構與Hopper是否同源目前也不得而知,下代GeForce顯示卡最快在第三季度釋出,也就是RTX 40系列,隻是提升會有多少,依然值得關注。

繼續閱讀