ISC24 | NVIDIA Blackwell 平台推动科学计算突破发展

最新加速器和网络平台提升高级模拟、AI、量子计算、数据分析等方面的性能。

从量子计算到新药研发和聚变能源领域，随着加速计算和 AI 的进步，全球涌现了一项又一项重大突破，基于物理模拟的科学计算有望推进造福人类的各个领域大幅进步。

NVIDIA 在今年 3 月的 GTC 上发布了 NVIDIA Blackwell 平台，该平台可在万亿参数级大语言模型（LLM）上实现生成式 AI，而且其成本和能耗相较于 NVIDIA Hopper 架构最低可降至 1/25。

Blackwell 对 AI 工作负载具有重大的意义，其技术能力还将有助于推进包括传统的数值模拟在内的各类科学计算应用的探索工作。

加速计算和 AI 通过降低能源成本推动可持续计算。许多科学计算应用已从中受益。相较于基于传统 CPU 的系统和其他系统，天气模拟的成本和能耗分别降至其 1/200 和 1/300，数字孪生模拟的成本和能耗则分别降至其 1/65 和 1/58。

利用 Blackwell 实现

科学计算模拟性能倍增

科学计算和基于物理的模拟通常依赖于所谓的双精度格式或 FP64（浮点）来解决问题。Blackwell GPU 的 FP64 和 FP32 FMA（融合乘加）性能比 Hopper 高出 30% 。

基于物理的模拟对产品设计和开发至关重要。无论是飞机、火车，还是桥梁、半导体芯片和药品，在模拟中对产品进行测试和改进能够为研究人员和开发人员节省数十亿美元。

现今的专用集成电路（ASIC）几乎完全是在 CPU 上设计的，整个流程漫长且复杂，包括进行模拟分析以确定电压和电流。

但这种情况正在发生改变。比如，Cadence SpectreX 模拟器就是一个典型的模拟电路设计求解器。SpectreX 电路模拟在 Grace Blackwell 超级芯片（由 Blackwell GPU 和 Grace CPU 连接而成）上的运行速度预计可达到传统 CPU 的 13 倍。

此外，GPU 加速的计算流体动力学（CFD）已成为一种重要工具。工程师和设备设计师用它来预测各种设计的行为。Cadence Fidelity 在 NVIDIA 的 Grace Blackwell 系统上运行 CFD 模拟的速度预计比传统基于 CPU 系统快 22 倍，前所未有的流动细节都可被捕捉到。

在另一项应用中，Cadence Reality 的数字孪生软件被用于创建物理数据中心的虚拟复制品，包括其服务器、冷却系统、电源在内的所有组件。这种虚拟模型可以让工程师在现实世界中进行应用之前，就能够提前对各种配置和方案进行测试，从而节省时间和成本。

Cadence Reality 的优异之处在于其基于物理的算法可以模拟热量、气流和用电量对数据中心的影响。这有助于工程师和数据中心运营人员更有效地管理容量，预测潜在的运行问题，并做出明智的决策，通过优化数据中心的布局和运行，从而提高效率和容量利用率。借助 Blackwell GPU，这些模拟的运行速度预计比 CPU 快高达 30 倍，从而加快了完成时间并提高了能效。

AI 在科学计算中的应用

全新 Blackwell 加速器和网络平台将大幅提升模拟性能。

NVIDIA Grace Blackwell 开启了高性能计算（HPC）的新时代。其架构采用第二代 Transformer 引擎，经过优化，可加速 LLM 推理工作负载。

与上一代 Hopper 架构 GPU 相比，Blackwell 架构使资源密集型应用如 1.8 万亿参数的 GPT-MoE（生成式预训练转换器-专家混合）模型实现了 30 倍的提速，为 HPC 开辟了新的可能性。通过让 LLM 处理和解读海量科学数据，高性能计算应用可以更快获得有价值洞察，从而加速科学探索。

桑迪亚国家实验室正在构建一个适用于并行编程的 LLM 智能助手。传统的 AI 可以高效生成基本的串行计算代码，但当涉及到 HPC 应用的并行计算代码时，LLM 就会显得力不从心。桑迪亚的研究人员正在通过一个雄心勃勃的项目解决这个问题，他们准备用 Kokkos 自动生成并行代码。Kokkos 是一种由多国实验室设计的编程语言，专门用于在全球最强大超级计算机的数万个处理器上运行任务。

桑迪亚国家实验室正在使用一种被称为检索增强生成（RAG）的 AI 技术将信息检索能力与语言生成模型相结合。该项目团队正在创建一个 Kokkos 数据库，并利用 RAG 将其与 AI 模型集成。

初步结果十分喜人。桑迪亚国家实验室采用的不同 RAG 方法已经自主生成了用于并行计算应用的 Kokkos 代码。他们希望通过克服 AI 并行代码生成中的障碍，为全球领先的超级计算设施提供新的 HPC 可能性。

其他示例包括可再生能源研究、气候科学和新药研发。

推动量子计算的进步

量子计算为聚变能、气候研究、新药研发等领域带来了大幅加速。因此，研究人员正努力在基于 NVIDIA GPU 的系统和软件上模拟未来的量子计算机，以前所未有的速度开发和测试量子算法。

NVIDIA CUDA-Q 平台通过一个实现 CPU、GPU 和 QPU（量子处理器）协同工作的统一编程模型，实现量子计算机模拟和混合应用开发。

CUDA-Q 正在加快巴斯夫化学工作流、石溪大学高能和核物理学研究以及 NERSC 量子化学的模拟速度。

NVIDIA Blackwell 架构将助推量子模拟达到新高度。通过最新的 NVIDIA NVLink 多节点互连技术，可以更快地打通数据以提高量子模拟速度。

加快数据分析以推动科学突破

使用 RAPIDS 处理数据的方式在科学计算领域非常常见。Blackwell 加入了一个硬件解压缩引擎，能够对压缩数据进行解压缩，并加快在 RAPIDS 中的分析速度。

该解压缩引擎可将性能提升至 800GB/s，使 NVIDIA Grace Blackwell 在查询基准测试中的性能较 CPU（在 Sapphire Rapids 上）快 18 倍，较 NVIDIA Hopper Tensor Core GPU 快 6 倍。

凭借 8TB/s 的高内存带宽和 Grace CPU 高速 NVLink 片间（C2C）互连技术，该引擎可大幅提高数据传输速度，进而加快整个数据库查询过程。Blackwell 能够在数据分析和数据科学用例中发挥出卓越性能，从而加快数据洞察速度并降低成本。

NVIDIA 网络平台

为科学计算提供极致性能

NVIDIA Quantum-X800 InfiniBand 网络平台可为科学计算基础设施提供最高吞吐量。

该平台包含 NVIDIA Quantum Q3400 和 Q3200 交换机, 以及 NVIDIA ConnectX-8 SuperNIC，二者组合在带宽上可达上一代产品的两倍。Q3400 平台的带宽容量提高了 5 倍，并且借助 NVIDIA 的 SHARPv4（可扩展分层聚合和归约协议）技术实现了 14.4 Tflops 的网络计算能力，较上一代产品提高了 9 倍。

性能的飞跃和能效的提高，使科学计算的工作负载完成时间与能耗显著减少。

了解更多关于 NVIDIA Blackwell 的信息，请点击：