天天看点

ISC24 | 数据中心需要新的能效指标

作者:NVIDIA英伟达中国

超级计算机和数据中心的运营人员因缺乏测量每单位能源所做有用功的标准,无法衡量其在实现可持续计算方面的进展。

ISC24 | 数据中心需要新的能效指标

数据中心需要更加先进的、能够显示实际应用运行进度的仪表盘来指导他们提高能效。

计算能效的公式很简单——将所做的功除以所用的能源。但要将其应用于数据中心,则需要考虑一些细节问题。

如今使用最广泛的衡量标准——能源使用效率(PUE)就是将设施消耗的总能源与其计算基础设施使用的能源进行比较。在过去的 17 年中,PUE 帮助最高效的运营者不断接近理想状态,即在电能转换和冷却等过程中几乎不浪费任何能源。

寻找下一个指标

PUE 在云计算兴起的时候给数据中心带来了很大的帮助,并将继续发挥作用。但在如今的生成式 AI 时代,工作负载和运行这些负载的系统都发生了巨大变化,因此仅使用 PUE 是不够的。

这是因为 PUE 只能衡量数据中心消耗的能源,却无法衡量数据中心的有用输出。这就好比只衡量发动机的耗油量,却不知道汽车行驶了多远。

数据中心效率有许多衡量标准。2017 年的一篇文章列出了近三十多项标准,其中有几项侧重于冷却、用水量、安全、成本等具体目标。

了解什么是“瓦特”

计算机行业长期以来一直以功率(通常以“瓦特”为单位)来描述系统及其处理器的能效,这多少有些令人遗憾。因为尽管这个指标很重要,但很多人没有意识到“瓦特”只能衡量某一时间点的输入功率,而无法衡量计算机实际使用的能源或使用能源的效率。

因此,当以“瓦特”来衡量现代系统和处理器的输入功率时,即便数值上升也不意味着其能效下降。实际上,这些系统和处理器所做的功与能耗的比值一般会高出许多。

现代数据中心的衡量标准应侧重于能源,即工程界所称的千瓦时或焦耳。关键之处在于它们利用这些能源做了多少有用功。

重新定义我们所说的功

在这一点上,业界还是习惯于使用抽象的术语进行衡量,比如处理器指令或数学计算。因此,MIPS(每秒百万条指令)和 FLOPS(每秒浮点运算)这两项指标被广泛使用。

只有计算机科学家才关心他们的系统能处理多少这样的初级工作。用户更希望知道他们的系统能完成多少实际工作,然而有用功的定义多少带些主观色彩。

侧重于 AI 的数据中心主要参考 MLPerf 基准测试。从事科学研究的超级计算中心通常会使用额外的功衡量标准。专注流媒体的商业数据中心可能还需要用到其他标准。

由此产生的应用套件必须能够随着时间的推移而不断发展,这样才能反映最新技术水平和关联度最高的用例。例如上一轮 MLPerf 增加了使用两种生成式 AI 模型的测试,而这两种模型在五年前甚至还不存在。

加速计算的标准

理想情况下,任何新的基准测试都应该能够衡量加速计算的进步。许多现代工作负载通过将具有并行处理能力的硬件、软件与方法相结合,实现了比 CPU 更快、更高效的应用运行速度。

例如,在科学应用方面,美国国家能源研究科学计算中心的 Perlmutter 超级计算机利用加速计算将能效平均提高了 5 倍。这就是为什么在 Green500 榜单上排名前 50 的超级计算机中有 39 台(包括排名第一的系统)都使用了 NVIDIA GPU。

ISC24 | 数据中心需要新的能效指标

由于 GPU 可以并行执行大量任务,因此与 CPU 相比,GPU 可以在更短的时间内完成更多的工作并以此实现节能

许多行业的企业都取得了类似的成果。例如 PayPal 通过加速计算将实时欺诈检测率提高了 10%,并将服务器能耗降至近八分之一。

随着每一代 GPU 软硬件的推出,性能提升幅度也在不断增长。

斯坦福大学以人为本 AI 研究团队在最近的一份报告中预估,自 2003 年以来,GPU 的性能“大约提高了 7000 倍”,单位性能的能效比则 “提高了 5600 倍”。

ISC24 | 数据中心需要新的能效指标

数据中心需要一套基准追踪其主要工作负载的能效

两位专家的见解

专家们也认为有必要制定新的能效指标。

最初提出 PUE 概念的数据中心工程师 Christian Belady 认为,如今数据中心的 PUE 已达到 1.2 左右,这一指标“已经过时”。他表示:“该指标在一切尚未完善的时候提高了数据中心的效率。但二十年后的今天,各方面都已经较为完善,因此我们需要关注与当今问题关系更加密切相关的其他指标。”

展望未来,Belady 表示:“性能指标才是关键所在。虽然无法直接比较不同的工作负载,但我认为如果按照工作负载进行细分,那么成功的可能性会更大。”

Jonathan Koomey 是一名研究计算机效率和可持续性的学者兼作家,对此也表示赞同。

Koomey 表示:“为了在效率方面做出正确决策,数据中心运营需要一套基准来衡量当今使用最广泛的 AI 工作负载对能耗的影响。”

“每焦耳 token 就是一个类似基准的组成项的很好的例子。企业需要参加公开讨论,提供有关其工作负载和实验的细节信息,并同意采取实事求是的测试程序,以此确保这些指标能够准确描述硬件在实际运行应用时的能耗情况。”

“最后,我们需要一场公开的论坛来开展这项重要的工作(制定新的能效指标)。”

群策群力

得益于 PUE 等指标和 Green500 等榜单,数据中心和超级计算中心在能效方面取得了巨大进步。

在生成式 AI 时代,我们可以而且必须付出更大的努力来进一步提高能效。如果能够衡量目前最先进的应用所做有用功所消耗的能源,就可以将超级计算和数据中心的能效提升到一个新的水平。