天天看點

ISC24 | 資料中心需要新的能效名額

作者:NVIDIA英偉達中國

超級計算機和資料中心的營運人員因缺乏測量每機關能源所做有用功的标準,無法衡量其在實作可持續計算方面的進展。

ISC24 | 資料中心需要新的能效名額

資料中心需要更加先進的、能夠顯示實際應用運作進度的儀表盤來指導他們提高能效。

計算能效的公式很簡單——将所做的功除以所用的能源。但要将其應用于資料中心,則需要考慮一些細節問題。

如今使用最廣泛的衡量标準——能源使用效率(PUE)就是将設施消耗的總能源與其計算基礎設施使用的能源進行比較。在過去的 17 年中,PUE 幫助最高效的營運者不斷接近理想狀态,即在電能轉換和冷卻等過程中幾乎不浪費任何能源。

尋找下一個名額

PUE 在雲計算興起的時候給資料中心帶來了很大的幫助,并将繼續發揮作用。但在如今的生成式 AI 時代,工作負載和運作這些負載的系統都發生了巨大變化,是以僅使用 PUE 是不夠的。

這是因為 PUE 隻能衡量資料中心消耗的能源,卻無法衡量資料中心的有用輸出。這就好比隻衡量發動機的耗油量,卻不知道汽車行駛了多遠。

資料中心效率有許多衡量标準。2017 年的一篇文章列出了近三十多項标準,其中有幾項側重于冷卻、用水量、安全、成本等具體目标。

了解什麼是“瓦特”

計算機行業長期以來一直以功率(通常以“瓦特”為機關)來描述系統及其處理器的能效,這多少有些令人遺憾。因為盡管這個名額很重要,但很多人沒有意識到“瓦特”隻能衡量某一時間點的輸入功率,而無法衡量計算機實際使用的能源或使用能源的效率。

是以,當以“瓦特”來衡量現代系統和處理器的輸入功率時,即便數值上升也不意味着其能效下降。實際上,這些系統和處理器所做的功與能耗的比值一般會高出許多。

現代資料中心的衡量标準應側重于能源,即工程界所稱的千瓦時或焦耳。關鍵之處在于它們利用這些能源做了多少有用功。

重新定義我們所說的功

在這一點上,業界還是習慣于使用抽象的術語進行衡量,比如處理器指令或數學計算。是以,MIPS(每秒百萬條指令)和 FLOPS(每秒浮點運算)這兩項名額被廣泛使用。

隻有計算機科學家才關心他們的系統能處理多少這樣的初級工作。使用者更希望知道他們的系統能完成多少實際工作,然而有用功的定義多少帶些主觀色彩。

側重于 AI 的資料中心主要參考 MLPerf 基準測試。從事科學研究的超級計算中心通常會使用額外的功衡量标準。專注流媒體的商業資料中心可能還需要用到其他标準。

由此産生的應用套件必須能夠随着時間的推移而不斷發展,這樣才能反映最新技術水準和關聯度最高的用例。例如上一輪 MLPerf 增加了使用兩種生成式 AI 模型的測試,而這兩種模型在五年前甚至還不存在。

加速計算的标準

理想情況下,任何新的基準測試都應該能夠衡量加速計算的進步。許多現代工作負載通過将具有并行處理能力的硬體、軟體與方法相結合,實作了比 CPU 更快、更高效的應用運作速度。

例如,在科學應用方面,美國國家能源研究科學計算中心的 Perlmutter 超級計算機利用加速計算将能效平均提高了 5 倍。這就是為什麼在 Green500 榜單上排名前 50 的超級計算機中有 39 台(包括排名第一的系統)都使用了 NVIDIA GPU。

ISC24 | 資料中心需要新的能效名額

由于 GPU 可以并行執行大量任務,是以與 CPU 相比,GPU 可以在更短的時間内完成更多的工作并以此實作節能

許多行業的企業都取得了類似的成果。例如 PayPal 通過加速計算将實時欺詐檢測率提高了 10%,并将伺服器能耗降至近八分之一。

随着每一代 GPU 軟硬體的推出,性能提升幅度也在不斷增長。

斯坦福大學以人為本 AI 研究團隊在最近的一份報告中預估,自 2003 年以來,GPU 的性能“大約提高了 7000 倍”,機關性能的能效比則 “提高了 5600 倍”。

ISC24 | 資料中心需要新的能效名額

資料中心需要一套基準追蹤其主要工作負載的能效

兩位專家的見解

專家們也認為有必要制定新的能效名額。

最初提出 PUE 概念的資料中心工程師 Christian Belady 認為,如今資料中心的 PUE 已達到 1.2 左右,這一名額“已經過時”。他表示:“該名額在一切尚未完善的時候提高了資料中心的效率。但二十年後的今天,各方面都已經較為完善,是以我們需要關注與當今問題關系更加密切相關的其他名額。”

展望未來,Belady 表示:“性能名額才是關鍵所在。雖然無法直接比較不同的工作負載,但我認為如果按照工作負載進行細分,那麼成功的可能性會更大。”

Jonathan Koomey 是一名研究計算機效率和可持續性的學者兼作家,對此也表示贊同。

Koomey 表示:“為了在效率方面做出正确決策,資料中心營運需要一套基準來衡量當今使用最廣泛的 AI 工作負載對能耗的影響。”

“每焦耳 token 就是一個類似基準的組成項的很好的例子。企業需要參加公開讨論,提供有關其工作負載和實驗的細節資訊,并同意采取實事求是的測試程式,以此確定這些名額能夠準确描述硬體在實際運作應用時的能耗情況。”

“最後,我們需要一場公開的論壇來開展這項重要的工作(制定新的能效名額)。”

群策群力

得益于 PUE 等名額和 Green500 等榜單,資料中心和超級計算中心在能效方面取得了巨大進步。

在生成式 AI 時代,我們可以而且必須付出更大的努力來進一步提高能效。如果能夠衡量目前最先進的應用所做有用功所消耗的能源,就可以将超級計算和資料中心的能效提升到一個新的水準。