天天看點

給英偉達1.6萬億個半導體,它就能承托全球網際網路流量

給英偉達1.6萬億個半導體,它就能承托全球網際網路流量

英偉達(Nvidia)一年一度的GTC大會如期而至,兩年一更新的GPU架構Hopper也正式亮相。

今年,NVIDIA創始人兼CEO黃仁勳在英偉達新總部大樓釋出了一系列新品,從新架構GPU H100,到Grace CPU 超級晶片,再到汽車、邊緣計算的硬體新品,以及全面的軟體更新。

英偉達的全新釋出再次向外界宣告,英偉達不止是一家晶片公司,而是全棧計算公司。他們正在加強其在AI、汽車等領域的上司力,同時也在努力占領下一波AI浪潮以及元宇宙的先機。

當然,作為一家發明GPU的公司,英偉達的全新GPU架構依舊是GTC 2022最值得關注的新品。

給英偉達1.6萬億個半導體,它就能承托全球網際網路流量

Nvidia Hopper新架構以美國計算機領域的先驅科學家 Grace Hopper 的名字命名,将取代兩年前推出的 NVIDIA Ampere 架構。相比上一代産品,基于Hopper架構的H100 GPU實作了數量級的性能飛躍。

黃仁勳表示,20個 H100 GPU 便可承托相當于全球網際網路的流量,使其能夠幫助客戶推出先進的推薦系統以及實時運作資料推理的大型語言模型。

基于H100 GPU建構的各種系統,以及與Grace CPU 超級晶片組合的各種系統,配合英偉達多年建構強大的軟體生态,将成為了英偉達掀起新一代計算浪潮的能量。

H100 GPU将在今年第三季度出貨,明年上半年開始供貨Grace CPU超級晶片。

最新Hopper架構H100 GPU的6大突破

黃仁勳2020年從自家廚房端出的當時全球最大7nm晶片Ampere架構GPU A100,兩年後有了繼任者——Hopper架構H100。英偉達H100 GPU采用專為英偉達加速計算需求設計優化的TSMC 4N 工藝,內建800億個半導體,顯著提升了AI、HPC、顯存帶寬、互連和通信的速度,并能夠實作近 5TB/s 的外部互聯帶寬。

給英偉達1.6萬億個半導體,它就能承托全球網際網路流量

H100同時也集多個首個于一身,包括首款支援 PCIe 5.0 的 GPU,首款采用 HBM3 的 GPU,可實作 3TB/s 的顯存帶寬,全球首款具有機密計算功能的GPU。

H100的第二項突破就是其加速器的 Transformer 引擎能在不影響精度的情況下,将Transformer網絡的速度提升至上一代的六倍。Transformer 讓自監督學習成為可能,如今已成為自然語言處理的标準模型方案,也是深度學習模型領域最重要的模型之一。

H100 将支援聊天機器人使用功能超強大的monolithic Transformer 語言模型 Megatron 530B,吞吐量比上一代産品高出 30 倍,同時滿足實時對話式 AI 所需的次秒級延遲。

H100的第三項突破是進一步更新的第二代多執行個體GPU。上一代産品中,英偉達的多執行個體GPU技術可将每個A100 GPU分割為七個獨立執行個體來執行推理任務。新一代的Hopper H100與上一代産品相比,在雲環境中通過為每個 GPU 執行個體提供安全的多租戶配置,将 MIG 的部分能力擴充了 7 倍。

給英偉達1.6萬億個半導體,它就能承托全球網際網路流量

MIG 技術支援将單個 GPU 分為七個更小且完全獨立的執行個體,以處理不同類型的任務。

H100的第四項突破就是其是全球首款具有機密計算功能的加速器,隐私計算此前隻能在CPU上實作,H100是第一個實作隐私計算的GPU,可保護 AI 模型和正在處理的客戶資料。機密計算的優勢在于其不僅能確定資料的機密性,同時還不影響性能,可以應用于醫療健康和金融服務等隐私敏感型行業的聯邦學習,也可以應用于共享雲基礎設施。

H100的第五項突破是在互聯性能的提升,支援第4代 NVIDIA NVLink。如今的AI模型越來越大,帶寬成為了限制超大規模AI模型疊代的阻礙。英偉達将NVLink 結合全新的外接 NVLink Switch,可将 NVLink 擴充為伺服器間的網際網路絡,最多可以連接配接多達 256 個 H100 GPU,相較于上一代采用 NVIDIA HDR Quantum InfiniBand網絡,帶寬高出9倍。

這項突破可以帶來的直接提升是,利用 H100 GPU,研究人員和開發者能夠訓練龐大的模型,比如包含3950億個參數的混合專家模型,訓練速度加速高達9倍,訓練時間從幾周縮短到幾天。

給英偉達1.6萬億個半導體,它就能承托全球網際網路流量

H100的第六個突破是對新的 DPX 指令可加速動态規劃,适用于包括路徑優化和基因組學在内的一系列算法,英偉達的測試資料顯示,與 CPU 和上一代 GPU 相比,其速度提升分别可達 40 倍和 7 倍。

另外,Floyd-Warshall 算法與 Smith-Waterman 算法也在H100 DPX指令的加速之列,前者可以在動态倉庫環境中為自主機器人車隊尋找最優線路,後者可用于DNA和蛋白質分類與折疊的序列比對。

硬體突破之外,英偉達也釋出了一系列相應的軟體更新,包括用于語音、推薦系統和超大規模推理等工作負載的 NVIDIA AI 軟體套件,還有60多個針對CUDA-X的一系列庫、工具和技術的更新,能夠加速量子計算和 6G 研究、網絡安全、基因組學和藥物研發等領域的研究進展。

顯而易見,H100 GPU的六項突破,帶來的是更高的計算性能,但這些性能的提升和優化,全都指向AI計算,這也是英偉達進一步擴大在AI計算領域上司力的展現。

NVIDIA Eos,比全球最快超級計算機AI性能快4倍

有了性能更新的GPU,英偉達的第四代DGX系統DGX H100也随之亮相,包括DGX POD和DGX SupePOD兩種架構,能夠滿足大型語言模型、推薦系統、醫療健康研究和氣候科學的大規模計算需求。

給英偉達1.6萬億個半導體,它就能承托全球網際網路流量

每個 DGX H100 系統配備八塊 NVIDIA H100 GPU,并由 NVIDIA NVLink連接配接,能夠在新的 FP8 精度下達到 32 Petaflop 的 AI 性能,比上一代系統性能高6倍。每個DGX H100 系統還包含兩個NVIDIA BlueField-3 DPU,用于解除安裝、加速和隔離進階網絡、存儲及安全服務。

新的 DGX SuperPOD 架構采用全新的 NVIDIA NVLink Switch 系統,通過這一系統最多可連接配接32個節點,總計256塊H100 GPU。第四代NVLink與NVSwitch相結合,能夠在每個DGX H100系統中的各個GPU之間實作 900 GB/s 的連接配接速度,是上一代系統的 1.5 倍。

新一代DGX SuperPOD性能同樣顯著提升,能夠提供1 Exaflops的FP8 AI性能,比上一代産品性能高6倍,能夠運作具有數萬億參數的龐大LLM工作負載,有助于推動氣候科學、數字生物學和 AI 未來的發展。

基于DGX H100,英偉達将在今年晚些時候開始運作全球運作速度最快的 AI 超級計算機 —— NVIDIA Eos,“Eos"超級計算機共配備 576 台 DGX H100 系統,共計 4608 塊 DGX H100 GPU,預計将提供 18.4 Exaflops 的 AI 計算性能,比日本的Fugaku(富嶽)超級計算機快 4 倍,後者是目前運作速度最快的系統。

在傳統的科學計算方面,Eos 超級計算機預計将提供 275 Petaflop 的性能。

給英偉達1.6萬億個半導體,它就能承托全球網際網路流量

黃仁勳說:“對于 NVIDIA 及OEM 和雲計算合作夥伴,Eos 将成為先進 AI 基礎設施的藍圖。”

576個DGX H100系統能夠建構一台全球運作速度最快的AI系統,少量的DGX SuperPOD 單元組合,也可以為汽車、醫療健康、制造、通信、零售等行業提供開發大型模型所需的 AI 性能。

黃仁勳提到,為支援正在進行AI開發的DGX客戶,NVIDIA DGX-Ready軟體合作夥伴(包括Domino Data Lab、Run:ai和Weights & Biases等)提供的MLOps解決方案将加入"NVIDIA AI 加速"計劃。

為了簡化AI部署,英偉達還推出了DGX-Ready 托管服務計劃,能夠為希望與服務提供商開展合作來監督其基礎設施的客戶提供支援。通過新的 DGX-Ready 生命周期管理計劃,客戶還可以借助新的 NVIDIA DGX 平台更新其現有 DGX 系統。

Grace CPU 超級晶片,最強大的CPU

去年的GTC 21,英偉達首款資料中心CPU Grace亮相,英偉達的晶片路線也更新為GPU+DPU+CPU。

今年的GTC 22,英偉達由推出了首款面向 AI 基礎設施和高性能計算的基于Arm Neoverse的資料中心專屬CPU Grace CPU 超級晶片。

給英偉達1.6萬億個半導體,它就能承托全球網際網路流量

Grace CPU 超級晶片是專為AI、HPC、雲計算和超大規模應用而設計,能夠在單個插座(socket)中容納 144 個 Arm 核心,在 SPECrate 2017_int_base 基準測試中的模拟性能達到業界領先的 740 分。根據 NVIDIA 實驗室使用同類編譯器估算,這一結果較目前DGX A100搭載的雙CPU(AMD EPYC 7742)相比高 1.5 倍以上。

黃仁勳稱贊:“Garce的一切都令人驚歎,我們預計Grace超級晶片屆時将是最強大的CPU,是尚未釋出的第5代頂級CPU的2到3倍。”

據介紹,依托帶有糾錯碼的LPDDR5x 記憶體組成的創新的記憶體子系統,Grace CPU 超級晶片可實作速度和功耗的最佳平衡。LPDDR5x 記憶體子系統提供兩倍于傳統DDR5設計的帶寬,可達到1 TB/s ,同時功耗也大幅降低 ,CPU加記憶體整體功耗僅500瓦。

值得注意的是,Grace CPU超級晶片由兩個CPU晶片組成,通過NVLink-C2C互連在一起。NVLink-C2C 是一種新型的高速、低延遲、晶片到晶片的互連技術,将支援定制裸片與NVIDIA GPU、CPU、DPU、NIC 和 SOC 之間實作一緻的互連。

借助先進的封裝技術,NVIDIA NVLink-C2C 互連鍊路的能效最多可比NVIDIA晶片上的PCIe Gen 5高出25倍,面積效率高出90倍,可實作每秒900GB乃至更高的一緻互聯帶寬。

得益于Grace CPU 超級晶片可以運作所有的英偉達計算軟體棧,包括NVIDIA RTX、NVIDIA HPC、NVIDIA AI 和 Omniverse。Grace CPU超級晶片結合NVIDIA ConnectX-7 網卡,能夠靈活地配置到伺服器中,可以作為獨立的純CPU系統,或作為GPU加速伺服器,搭載一塊、兩塊、四塊或八塊基于Hopper的GPU,客戶通過維護一套軟體棧就能針對自身特定的工作負載做好性能優化。

給英偉達1.6萬億個半導體,它就能承托全球網際網路流量

今日釋出的NVIDIA Grace超級晶片系列以及去年釋出的Grace Hopper超級晶片均采用了NVIDIA NVLink-C2C 技術來連接配接處理器晶片。

英偉達表示,除NVLink-C2C外,NVIDIA還将支援本月早些時候釋出的 UCIe(Universal Chiplet Interconnect Express,通用小晶片互連傳輸通道)标準。與NVIDIA晶片的定制晶片內建既可以使用 UCIe 标準,也可以使用 NVLink-C2C。

版權申明:凡本公衆号内容注明【原創】的,内容版權歸本作者所有,未标注【原創】的圖檔與文字内容均轉載自網絡,版權歸原創者所有,圖檔和文字如有侵權煩請告知我們,我們會立即删除。謝謝!

繼續閱讀