天天看點

黃仁勳向台積電放核彈!幹掉40000台CPU伺服器,計算光刻提速40倍

作者:芯東西
黃仁勳向台積電放核彈!幹掉40000台CPU伺服器,計算光刻提速40倍

作者 | ZeR0 程茜

編輯 | 漠影

芯東西3月22日報道,全球AI計算技術盛會、一年一度的英偉達GTC大會如期而至!

英偉達CEO黃仁勳(昵稱“老黃”)一如既往穿着标志性的皮衣進行了78分鐘演講,滿面笑容地分享英偉達又悶聲幹了哪些大事。

黃仁勳向台積電放核彈!幹掉40000台CPU伺服器,計算光刻提速40倍

總體來看,此次演講可總結成一大「亮點」和一大「重點」。

「亮點」是英偉達秘密研發四年,向晶片制造業甩出一枚技術“核彈”——通過突破性的光刻計算庫cuLitho,将計算光刻加速40倍以上,使得2nm及更先進晶片的生産成為可能。全球最大晶圓廠台積電、全球光刻機霸主阿斯麥、全球最大EDA巨頭新思科技均參與合作并引入這項技術。

老黃還直接上了一堂光刻機小課堂,配合動畫講解晶片制造的最關鍵裝置光刻機是如何運作的。

黃仁勳向台積電放核彈!幹掉40000台CPU伺服器,計算光刻提速40倍

「重點」毫無疑問是生成式AI。

老黃對OpenAI的ChatGPT贊不絕口,誇它“震驚世界”,代表着“嶄新的計算平台已經誕生,AI的「iPhone時刻」已經到來”。

據英偉達透露,OpenAI将在微軟Azure超級計算機上使用英偉達H100 GPU,AI文生圖明星創企Stability.ai是H100 GPU的早期通路客戶。

為了加速生成式AI開發及部署,老黃宣布推出3款全新推理GPU,分别擅長AI視訊、圖像生成、ChatGPT等大型語言模型的推理加速。

此外,英偉達還釋出了AI超級計算服務DGX Cloud、加速企業建立大模型和生成式AI的雲服務NVIDIA AI Foundations等,并宣布與日本三菱聯合打造了日本第一台用于加速藥研的生成式AI超級計算機。

黃仁勳向台積電放核彈!幹掉40000台CPU伺服器,計算光刻提速40倍

英偉達也釋出了一系列面向元宇宙、汽車、量子計算領域的新進展,包括PaaS服務NVIDIA Omniverse Cloud現已向特定企業開放、與寶馬集團擴大合作建設虛拟工廠、比亞迪更多車型将采用NVIDIA DRIVE Orin平台,以及與Quantum Machines合作推出了全球首個GPU加速量子計算系統。

老黃宣布,英偉達已經更新了100個加速庫,目前英偉達全球生态系統已覆寫400萬開發人員、4萬家公司和1.4萬家初創公司。

一、晶片制造炸場!将計算光刻提速40倍,三大半導體巨頭站台

我們先來看看今天的“驚喜彈”:英偉達釋出了一個造福先進晶片制造的突破性技術——NVIDIA cuLitho計算光刻庫。

光刻是晶片制造過程中最複雜、最昂貴、最關鍵的環節,其成本約占整個矽片加工成本的1/3甚至更多。計算光刻模拟了光通過光學元件并與光刻膠互相作用時的行為,應用逆實體算法來預測掩膜闆上的圖案,以便在晶圓上生成最終圖案。

黃仁勳向台積電放核彈!幹掉40000台CPU伺服器,計算光刻提速40倍

簡而言之,計算光刻是提高光刻分辨率、推動晶片制造達到2nm及更先進節點的關鍵手段。

“計算光刻是晶片設計和制造領域中最大的計算工作負載,每年消耗數百億CPU小時。”黃仁勳講解道,“大型資料中心24×7全天候運作,以便建立用于光刻系統的掩膜闆。這些資料中心是晶片制造商每年投資近2000億美元的資本支出的一部分。”

而cuLitho能夠将計算光刻的速度提高到原來的40倍。老黃說,英偉達H100 GPU需要89塊掩膜闆,在CPU上運作時,處理單個掩膜闆需要兩周時間,而在GPU上運作cuLitho隻需8小時。

此外,台積電可通過在500個DGX H100系統上使用cuLitho加速,将功率從35MW降至5MW,替代此前用于計算光刻的40000台CPU伺服器。 使用cuLitho的晶圓廠,每天可以生産3-5倍多的光掩膜,僅使用目前配置電力的1/9。

全球最大晶圓廠台積電、全球最大光刻機制造商阿斯麥(ASML)、全球最大EDA公司新思科技(Synopsys)都為這項新技術站台。老黃透露道,cuLitho曆時四年研發,與這三家晶片大廠進行了密切合作。台積電将于6月開始對cuLitho進行生産資格認證。

黃仁勳向台積電放核彈!幹掉40000台CPU伺服器,計算光刻提速40倍

台積電CEO魏哲家誇贊它為台積電在晶片制造中廣泛地部署光刻解決方案開辟了新的可能性,為半導體規模化做出重要貢獻。阿斯麥CEO Peter Wennink說阿斯麥計劃将對GPU的支援內建到其所有的計算光刻軟體産品中。

新思科技董事長兼CEO Aart de Geus稱,在英偉達的cuLitho平台上運作新思科技的光學鄰近校正(OPC)軟體,将性能從幾周加速到幾天。

cuLitho将有助于晶圓廠縮短原型周期時間、提高産量、減少碳排放,為2nm及更先進的工藝奠定基礎,并使得曲線掩模、high NA EUV、亞原子級光刻膠模型等新技術節點所需的新型解決方案和創新技術成為可能。

二、釋出ChatGPT專用推理GPU,登浏覽器即可通路AI超級計算機

圍繞生成式AI,英偉達釋出了一系列加速模型訓練和推理的軟硬體新品及服務。

老黃首先講述了英偉達在生成式AI革命之初是如何進入AI領域的。

“英偉達加速計算始于DGX(AI超級計算機),這是大型語言模型實作突破背後的引擎。”他談道,“(2016年)我親手将全球首款DGX交給了OpenAI,自此以後,《财富》100強企業中有一半安裝了DGX AI超級計算機。DGX已成為AI領域的必備工具。”

黃仁勳向台積電放核彈!幹掉40000台CPU伺服器,計算光刻提速40倍

“生成式AI将重塑幾乎所有行業。”老黃說,ChatGPT、Stable Diffusion、DALL-E和Midjourney喚醒了世界對生成式AI的認知。

在他看來,生成式AI是一種新型計算機、一種可以用人類語言進行程式設計的計算機,與個人電腦(PC)、網際網路、移動裝置和雲類似,這種能力影響深遠,每個人都可以指令計算機來解決問題,現在每個人都可以是程式員。

1、訓練:生成式AI明星企業都在用,AI超級計算機已全面投産

訓練方面,英偉達H100 GPU基于Hopper架構及其内置Transformer Engine,針對生成式AI、大型語言模型和推薦系統的開發、訓練和部署進行了優化,利用FP8精度在大型語言模型上比上一代A100提供了快9倍的AI訓練和快30倍的AI推理。

DGX H100擁有8個H100 GPU模組,在FP8精度下可提供32PetaFLOPS的算力,并提供完整的英偉達AI軟體堆棧,助力簡化AI開發。黃仁勳宣布,NVIDIA DGX H100 AI超級計算機已全面投入生産,很快将面向全球企業。微軟宣布Azure将向其H100 AI超級計算機開放私人預覽版。

黃仁勳向台積電放核彈!幹掉40000台CPU伺服器,計算光刻提速40倍

黃仁勳說,雲計算巨頭現在正在提供英偉達H100 GPU,生成式AI領域的多家明星企業都在用H100加速工作。

比如,OpenAI用H100的上一代A100訓練和運作AI聊天機器人ChatGPT,并将在微軟Azure超級計算機上使用H100;AI文生圖明星創企Stability.ai是AWS上的H100早期通路客戶。

最近剛推出開源大模型的社交軟體巨頭Meta開發了基于Hopper架構的AI超級計算機Grand Teton系統。相比其前代Zion,該系統的算力大幅提升,可同時支援推薦模型和内容了解的訓練和推理。

英偉達與其主要合作夥伴宣布推出強大的GPU NVIDIA H100 Tensor Core GPU新産品和服務,以滿足生成式AI訓練和推理需求。

AWS宣布即将推出的EC2超級叢集(EC2 P5執行個體)可擴充至20000個互連的H100。Oracle Cloud Infrastructure(OCI)宣布限量推出采用H100的全新OCI Compute裸金屬GPU執行個體。

為企業和開發者提供多模态視訊了解的平台Twelve Labs計劃在OCI Supercluster上使用H100執行個體來即時、智能和容易搜尋視訊。

2、推理:釋出3款GPU、3類雲服務

推理方面,英偉達推出全新GPU推理平台:4種配置(L4 Tensor Core GPU、L40 GPU、H100 NVL GPU、Grace Hopper超級晶片)、一個體系架構、一個軟體棧,分别用于加速AI視訊、圖像生成、大型語言模型部署和推薦系統。

黃仁勳向台積電放核彈!幹掉40000台CPU伺服器,計算光刻提速40倍

(1)L4:針對AI視訊設計的通用GPU,可提供比CPU高120倍的AI視訊性能,能效提高99%;優化了視訊解碼與轉碼、視訊内容稽核、視訊通話等功能,如背景替換、重新打光、眼神交流、轉錄和實時翻譯等。一台8-GPU L4伺服器将取代100多台用于處理AI視訊的雙插槽CPU伺服器。

(2)L40:用于圖像生成,針對圖形和AI支援的2D、視訊和3D圖像生成進行了優化,推理性能是英偉達最受歡迎的雲推理GPU T4的10倍。

黃仁勳向台積電放核彈!幹掉40000台CPU伺服器,計算光刻提速40倍

(3)H100 NVL:針對ChatGPT等大型語言模型的大規模部署,配備雙GPU NVLink,将兩張擁有94GB HBM3顯存的PCIe H100 GPU拼接在一起,可處理擁有1750億參數的GPT-3大模型,同時支援商用PCIe伺服器輕松擴充。

老黃說,目前在雲上唯一可以實際處理ChatGPT的GPU是HGX A100。與适用于GPT-3處理的HGX A100相比,一台搭載4對H100及雙GPU NVLink的标準伺服器的速度要快10倍,H100可将大型語言模型的處理成本降低一個數量級。

黃仁勳向台積電放核彈!幹掉40000台CPU伺服器,計算光刻提速40倍

(4)Grace Hopper超級晶片:适用于推薦系統和大型語言模型的AI資料庫,圖推薦模型、向量資料庫和圖神經網絡的理想選擇,通過900GB/s的高速一緻性晶片到晶片接口連接配接英偉達Grace CPU和Hopper GPU。

黃仁勳向台積電放核彈!幹掉40000台CPU伺服器,計算光刻提速40倍

谷歌雲是第一個向客戶提供英偉達L4推理GPU的雲服務提供商。谷歌還将L4內建到其Vertex AI模型商店中。

3、雲服務:登浏覽器即可通路AI超級計算機

英偉達推出了一項名為DGX Cloud的AI超級計算服務,與微軟Azure、谷歌OCP、Oracle OCI合作,通過一個Web浏覽器就能通路,以便企業為生成式AI和其他開創性應用訓練先進的模型。

DGX Cloud執行個體的起價為每個執行個體每月36999美元。其每個執行個體都具有8個NVIDIA H100或A100 80GB Tensor Core GPU,每個節點共有640GB的GPU記憶體。DGX Cloud提供了專用的NVIDIA DGX AI超級計算叢集,并配備了NVIDIA AI軟體。

英偉達還推出了全新雲服務及代工廠NVIDIA AI Foundations,使企業能夠建構、改進、營運使用其專有資料訓練的、用于特定領域任務的定制大模型和生成式AI模型:

黃仁勳向台積電放核彈!幹掉40000台CPU伺服器,計算光刻提速40倍

(1)NeMo:文本生成模型建構服務,提供從80億到5300億個參數的模型,會定期更新額外的訓練資料,幫助企業為客服、企業搜尋、聊天機器人、市場情報等生成式AI應用進行模型定制。

(2)Picasso:視覺語言模型建構服務,具有先進的文生圖、文本轉視訊、文本轉3D功能,可為産品設計、數字孿生、角色建立等使用自然文本提示的應用快速建立和定制視覺内容。

(3)BioNeMo:生命科學服務,提供AI模型訓練和推理,加速藥物研發中最耗時和成本最高的階段,可加速新蛋白質和治療方法的建立以及基因組學、化學、生物學和分子動力學研究。

直接在浏覽器上或通過API,均可通路這些運作在NVIDIA DGX Cloud上的雲服務。NeMo、BioNeMo雲服務已開放早期通路,Picasso雲服務正在私人預覽中。

英偉達也宣布了一系列跟生成式AI相關的合作進展,包括與Adobe合作開發新一代先進的生成式AI模型;與Getty Images合作訓練負責任的文生圖、文本轉視訊基礎模型;與Shutterstock合作,訓練從簡單文本提示中建立生成式3D模型,将創作時間從幾小時減少到幾分鐘。

此外,英偉達與三菱聯合釋出了将用于加速藥物研發的日本第一台生成式AI超級計算機Tokyo-1。通過在Tokyo-1上使用NVIDIA BioNeMo軟體,研究人員能運作高達數十億參數的先進AI模型,包括蛋白質結構預測、小分子生成、姿态估計等。

黃仁勳向台積電放核彈!幹掉40000台CPU伺服器,計算光刻提速40倍

三、BlueField-3 DPU已投産,打造全球首個GPU加速量子計算系統

資料處理單元(DPU)方面,黃仁勳宣布英偉達BlueField-3 DPU已投入生産,并被百度、CoreWeave、京東、微軟Azure、Oracle OCI、騰訊遊戲等領先的雲服務提供商所采用,以加速其雲計算平台。

面向量子計算,要從量子噪聲和退相幹中恢複資料,需要對大量量子比特進行糾錯。對此,英偉達與Quantum Machines合作推出了一個量子控制鍊路,它可将英偉達GPU連接配接到量子計算機,以極快的速度進行糾錯。

雙方合作研發的全球首個GPU加速量子計算系統NVIDIA DGX Quantum,将強大的加速計算平台(由NVIDIA Grace Hopper超級晶片和CUDA量子開源程式設計模型支援)與全球最先進的量子控制平台OPX結合在一起,使研究人員能夠建構強大的應用,将量子計算與最先進的經典計算結合起來,實作校準、控制、量子糾錯和混合算法。

NVIDIA DGX Quantum的核心是NVIDIA Grace Hopper系統,通過PCIe連接配接到通用量子控制系統Quantum Machines OPX+,實作QPU和量子之間的亞微秒延遲處理單元(QPU)。

DGX Quantum還為開發人員配備了一款強大的混合GPU-Quantum程式設計模型NVIDIA CUDA Quantum,可以在一個系統中內建QPU、GPU、CPU并進行程式設計。多家量子硬體公司将CUDA Quantum內建到他們的平台中。

美國通信巨頭AT&T宣布與英偉達合作,使用英偉達全套AI平台改進營運并提高可持續性。AT&T将使用英偉達AI平台進行資料處理、優化服務排隊、建立員工支援和教育訓練的對話式AI數字化形象。

四、推出新一代元宇宙伺服器,引入生成式AI和模拟仿真更新

面向元宇宙領域,英偉達推出了第三代OVX計算系統和新一代工作站,為基于NVIDIA Omniverse Enterprise的大規模數字孿生提供動力。

黃仁勳向台積電放核彈!幹掉40000台CPU伺服器,計算光刻提速40倍

第三代OVX伺服器通過組合雙CPU平台、BlueField-3 DPU、L40 GPU、兩個ConnectX-7 SmartNIC和NVIDIA Spectrum以太網平台,提供了突破性的圖形和AI性能,可加速大規模數字孿生模拟等應用,進而提高營運效率和預測性規劃功能。

企業可以利用OVX性能在可視化、虛拟工作站和資料中心處理工作流程等方面進行協作。

此外,新一代NVIDIA RTX工作站RTX 4000 SFF Ada Generation采用英偉達Ada Lovelace GPU、ConnectX-6 Dx SmartNIC和英特爾至強處理器。最新釋出的RTX 5000 Ada一代筆記本電腦GPU使專業人士能随時随地通路Omniverse和工業元宇宙工作負載。

黃仁勳向台積電放核彈!幹掉40000台CPU伺服器,計算光刻提速40倍

黃仁勳還宣布了英偉達用于建構和操作元宇宙應用的平台NVIDIA Omniverse的相關更新,增加了一系列生成式AI、模拟仿真相關功能,讓開發者能夠更輕松地部署工業元宇宙應用。

平台即服務(PaaS)NVIDIA Omniverse Cloud現已面向特定企業開放,使企業能夠在其核心産品和業務流程中統一數字化。

“從大型實體設施到手持消費品,每一個人造物體都有一天會擁有一個數字孿生,用來建造、操作和優化物體。”黃仁勳說,“Omniverse Cloud是用于工業數字化的從數字到實體的作業系統,它的出現正好趕上了正在建設的價值數萬億美元的新電動汽車、電池和晶片工廠。”

英偉達選擇微軟Azure作為Omniverse Cloud的首個雲服務提供商。由NVIDIA OVX計算系統提供支援的Omniverse Cloud将于今年下半年與微軟Azure一起推出。企業可通路Omniverse軟體應用程式的全堆棧套件和NVIDIA OVX基礎設施,并享有Azure雲服務的規模和安全性。

Azure上Omniverse Cloud的新訂閱服務使汽車團隊可輕松實作工作流程的數字化,無論是連接配接3D設計工具以加速汽車開發,還是建構汽車的數字孿生工廠或運作閉環模拟來測試車輛性能。

老黃在演講期間分享了一個視訊,展示亞馬遜如何用英偉達Omniverse平台建構完全逼真的數字孿生機器人倉庫,以節省時間和金錢。

黃仁勳向台積電放核彈!幹掉40000台CPU伺服器,計算光刻提速40倍

英偉達與寶馬集團宣布擴大合作,為汽車制造商開設了第一個完全虛拟工廠。寶馬集團将英偉達Omniverse平台用在其全球生産網絡中建構和運作工業元宇宙應用。

此外,英偉達與其合作夥伴釋出了全新的Omniverse Connections,通過通用場景描述(USD)架構連接配接更多世界更多先進應用。

結語:生成式AI引發了全球企業緊迫感

“生成式AI正在推動AI的快速應用,并重塑無數行業。”老黃說,“我們正處于AI的「iPhone時刻」,初創公司競相建構具有颠覆性的産品和商業模式,老牌公司則在尋求應對之策,生成式AI引發了全球企業制定AI戰略的緊迫感。”

從今日英偉達的一系列軟硬體釋出,可以看到英偉達對先進AI計算的支撐已經覆寫到從GPU、DPU等硬體到幫助企業加速建構定制生成式AI模型的雲服務,進而推動釋放人類的創造力。

這已經不是老黃第一次“跳預言家”了。英偉達的加速計算産品可以說是與AI産業的發展共生共榮。英偉達不斷為更大規模的AI模型訓練提供更強大的算力基座,對AI訓練和推理的前沿發展起到了重要推動力,蓬勃而生的AI熱潮又為英偉達帶來了更廣闊的市場和機遇。

如今,生成式AI所展現出的商用前景幾乎激勵着每個行業重新設想其商業戰略和實作這些戰略所需的技術。英偉達正與其合作夥伴迅速行動,為AI應用提供更強大的計算平台,讓更多人從生成式AI等前沿應用的變革性力量中受益。