英偉達釋出ChatGPT專用GPU，推理速度提升了10倍

機器之心報道

編輯：澤南、蛋醬

AI 的 iPhone 時刻，要有一塊好的晶片。

曾何幾時，人工智能因為算力不足進入了長達數十年的瓶頸，GPU 點燃了深度學習。在 ChatGPT 時代，AI 因為大模型再次面臨算力不足的問題，這一次英偉達還有辦法嗎？

3 月 22 日，GTC 大會正式召開，在剛剛進行的 Keynote 上，英偉達 CEO 黃仁勳搬出了為 ChatGPT 準備的晶片。

「加速計算并非易事，2012 年，計算機視覺模型 AlexNet 動用了 GeForce GTX 580，每秒可處理 262 PetaFLOPS。該模型引發了 AI 技術的爆炸，」黃仁勳說道。「十年之後，Transformer 出現了，GPT-3 動用了 323 ZettaFLOPS 的算力，是 AlexNet 的 100 萬倍，創造了 ChatGPT 這個震驚全世界的 AI。嶄新的計算平台出現了，AI 的 iPhone 時代已經來臨。」

AI 的繁榮推動英偉達股價在今年上漲了 77%，目前，英偉達的市值為 6400 億美元，已是英特爾的近五倍。不過今天的釋出告訴我們，英偉達的腳步還沒有停。

為 AIGC 設計專用算力

生成式 AI（AIGC ）的發展正在改變科技公司對于算力的需求，英偉達一次展示了四種針對 AI 任務的推理平台，它們都使用了統一的架構。

其中，NVIDIA L4 提供「比 CPU 高 120 倍的 AI 驅動視訊性能，以及 99% 的能源效率」，可以用于視訊流、編碼和解碼以及生成 AI 視訊等工作；算力更強的 NVIDIA L40 則專門用于 2D/3D 圖像生成。

針對算力需求巨大的 ChatGPT，英偉達釋出了 NVIDIA H100 NVL，這是一種具有 94GB 記憶體和加速 Transformer Engine 的大語言模型（LLM）專用解決方案，配備了雙 GPU NVLINK 的 PCIE H100 GPU。

「目前唯一可以實際處理 ChatGPT 的 GPU 是英偉達 HGX A100。與前者相比，現在一台搭載四對 H100 和雙 NVLINK 的标準伺服器速度能快 10 倍，可以将大語言模型的處理成本降低一個數量級，」黃仁勳說道。

最後還有 NVIDIA Grace Hopper for Recommendation Models，除了為推薦任務優化之外，它還可以為圖形神經網絡和矢量資料庫提供動力。

讓晶片突破實體極限

目前，半導體的生産工藝已經逼近實體學所能達到的極限。2nm 制程之後，突破點又是什麼？英偉達決定從晶片制造的最原始階段 —— 光刻入手。

從根本上說，這是一個實體極限下的成像問題。在先進制程下，晶片上的許多特征會小于列印過程中使用的光的波長，掩模的設計必須不斷進行修改，這一步驟稱為光學鄰近校正。計算光刻模拟了光通過原件與光刻膠互相作用時的行為，這些行為是根據麥克斯韋方程描述的，這是晶片設計制造領域中需要算力最多的任務。

黃仁勳在 GTC 上宣布了一項名為 CuLitho 的新技術，用以加快半導體的設計和制造。該軟體使用英偉達晶片來加速基于軟體的晶片設計，并加速用于在晶片上列印該設計的光刻掩模的實體制造之間的步驟。

CuLitho 在 GPU 上運作，其性能比目前的光刻技術提高了 40 倍，可以加速目前每年消耗數百億個 CPU 小時的大規模計算工作負載。「造 H100 需要 89 塊掩膜版，在 CPU 上運算時一塊就得算兩個星期，但如果用 H100 在 CuLitho 上運作就隻需要 8 個小時，」黃仁勳說道。

這意味着 500 個英偉達 DGX H100 系統就能夠替代 4 萬個 CPU 系統的工作，并運作計算光刻工藝的所有部分，幫助減少電力需求和對環境的潛在影響。

這一進展将使晶片的半導體和電路比現在尺寸更小，同時加快了晶片的上市時間，并提高為推動制造過程而全天候運作的大規模資料中心的能源效率。

英偉達表示，它正在與 ASML、Synopsys 和台積電合作，将該技術推向市場。據介紹，台積電将在 6 月開始準備該技術的試産。

「晶片行業是世界上幾乎所有其他行業的基礎，」黃仁勳表示。「由于光刻技術已處于實體學的極限，通過 CuLitho 以及與我們的合作夥伴台積電、ASML 和 Synopsys 的合作，晶圓廠能夠提高産量，減少碳足迹，并為 2nm 及以後的發展奠定基礎。」

首個 GPU 加速的量子計算系統

在今天的活動中，英偉達還宣布了一個使用 Quantum Machines 建構的新系統，該系統為從事高性能和低延遲量子經典計算的研究人員提供了一種革命性的新架構。

作為全球首個 GPU 加速的量子計算系統，NVIDIA DGX Quantum 将全球最強大的加速計算平台（由 NVIDIA Grace Hopper 超級晶片和 CUDA Quantum 開源程式設計模型實作）與全球最先進的量子控制平台 OPX（由 Quantum Machines 提供）相結合。這種組合使研究人員能夠建立空前強大的應用，将量子計算與最先進的經典計算相結合，實作校準、控制、量子糾錯和混合算法。

DGX Quantum 的核心是一個由 PCIe 連接配接到 Quantum Machines OPX + 的 NVIDIA Grace Hopper 系統，實作了 GPU 和量子處理單元（QPU）之間的亞微秒級延遲。

英偉達公司 HPC 和量子主管 Tim Costa 表示：「量子加速的超級計算有可能重塑科學和工業，英偉達 DGX Quantum 将使研究人員能夠突破量子 - 經典計算的界限。」

對此，英偉達将高性能的 Hopper 架構 GPU 與該公司的新 Grace CPU 整合為「Grace Hopper」，為巨型 AI 和 HPC 應用提供了超強的動力。它為運作 TB 級資料的應用提供了高達 10 倍的性能，為量子 - 經典研究人員解決世界上最複雜的問題提供了更多動力。

DGX Quantum 還為開發者配備了英偉達 CUDA Quantum，這是一個強大的統一軟體棧，現在已經開放了源代碼了。CUDA Quantum 是一個混合型量子 - 經典計算平台，能夠在一個系統中整合和程式設計 QPU、GPU 和 CPU。

每月 3.7 萬美元，網頁上訓練自己的 ChatGPT

微軟斥資數億美元購買了數萬塊 A100 建構了 GPT 專用超算，你現在可能會想要租用 OpenAI 和微軟訓練 ChatGPT 和必應搜尋相同的 GPU 來訓練自己的大模型。

英偉達提出的 DGX Cloud 提供了專用的 NVIDIA DGX AI 超級計算叢集，搭配 NVIDIA AI 軟體，該服務使每個企業都可以使用簡單的網絡浏覽器通路 AI 超算，消除了擷取、部署和管理本地基礎設施的複雜性。

據介紹，每個 DGX Cloud 執行個體都具有八個 H100 或 A100 80GB Tensor Core GPU，每個節點共有 640GB GPU 記憶體。使用 NVIDIA Networking 建構的高性能、低延遲結構確定工作負載可以跨互連系統叢集擴充，允許多個執行個體充當一個巨大的 GPU，以滿足進階 AI 訓練的性能要求。

現在，企業可以按月租用 DGX Cloud 叢集，快速輕松地擴充大型多節點訓練工作負載的開發，而無需等待通常需求量很大的加速計算資源。

而月租的價格，據黃仁勳介紹，每個執行個體每月 36999 美元起。

「我們正處于人工智能的 iPhone 時刻，」黃仁勳表示：「初創公司競相打造出了颠覆性産品和商業模式，而現有企業也在尋求回應。DGX Cloud 讓客戶能夠即時通路全球規模的雲中的 NVIDIA AI 超級計算。」

為了幫助企業迎接生成式 AI 的浪潮，英偉達同時宣布了一系列雲服務，讓企業能夠建構、改進定制的大型語言模型和生成式 AI 模型。

現在，人們可以使用 NVIDIA NeMo 語言服務和 NVIDIA Picasso 圖像、視訊和 3D 服務來建構專有的、特定領域的生成式 AI 應用程式，用于智能對話和客戶支援、專業内容建立、數字模拟等。另外，英偉達還宣布了 NVIDIA BioNeMo 生物學雲服務的新模型。

「生成式 AI 是一種新型計算機，可以用人類的自然語言進行程式設計。這種能力影響深遠 —— 每個人都可以指令計算機來解決問題，而此前不久，這還是程式員們的專利，」黃仁勳說道。

從今天的釋出内容看來，英偉達不僅正在針對科技公司的 AI 負載不斷改進硬體設計，也在提出新的商業模式。在一些人看來，英偉達是想做「AI 領域的台積電」：像晶圓廠一樣提供先進生産力代工服務，幫助其他公司在其之上訓練各自特定場景的 AI 算法。

用英偉達的超算訓練，直接省去中間商賺差價，會是未來 AI 發展的方向嗎？