天天看點

全球首台百億億級超算用AMD的GPU:性能增7倍,能效提升3倍

機器之心報道

編輯:澤南、蛋醬

E 級超算,每秒鐘百億億次運算,1 後面跟 18 個零。

全球首台百億億級超算用AMD的GPU:性能增7倍,能效提升3倍

2018 年 6 月,美國能源部橡樹嶺國家實驗室的工程師們釋出了「Summit」超級計算機,超越神威 · 太湖之光成為了世界第一,它的理論峰值容量接近 200 petaflops——即每秒 20 萬萬億次浮點運算,使用 IBM Power9 處理器和英偉達 Tesla V100 加速卡。

不過兩年後,Summit 就被使用 Arm 架構的日本「富嶽」超過,目前排名第二。

全球首台百億億級超算用AMD的GPU:性能增7倍,能效提升3倍

今年 11 月最新版的超算 Top 500 榜單。

頂級超算疊代的速度如此之快,但仍然無法比拟人們的需求。在服役短短的四年時間内,橡樹嶺實驗室對超算服務的需求就已經超過了這台巨大機器的容量。

「Summit 算力會被超額認購四到五倍,」負責 ORNL 領先計算設施的 Justin Whitt, 說道。「這限制了使用它的進行研究項目的數量。」

現在,是時候讨論更快的超級計算機了。橡樹嶺國家實驗室的下一個計劃名叫 Frontier,完成後它将具有超過 1.5 exaflops 的峰值理論容量。

Frontier 的非凡之處并不在于它要比 Summit 強七倍以上——這個數字顯然是令人驚歎的。更值得注意的是,它做到這一點隻用了兩倍的功率。這仍然是一個很大的功率——Frontier 預計将消耗 29 兆瓦,足以為加利福尼亞州庫比蒂諾(蘋果公司所在地)大小的城鎮供電。但這是一個可控的數量。

「我們現在可以在很小的空間内塞進更多的計算機硬體,」Whitt 表示。「這些計算機機櫃每個都與全尺寸皮卡一樣重。」裡面裝滿了 ORNL 的規格表所描述的「由高性能計算和 AI 優化的 AMD EPYC 處理器與 Radeon Instinct GPU 加速器驅動的高密度計算闆卡,它們專為滿足百億億次計算的需求而建構。」

全球首台百億億級超算用AMD的GPU:性能增7倍,能效提升3倍

建造一台具有這種能力的超級計算機已經夠難了,新冠疫情也讓事情更加具有挑戰性。「供應鍊的問題其實很廣泛,」Whitt 表示,許多對建構高性能超級計算機來說并不特殊的東西存在短缺。「它可能隻是金屬闆或螺絲。」

供應鍊問題确實是 Frontier 将于 2022 年在另一台計劃中的超級計算機 Aurora 之前投入運作的原因,後者将安裝在伊利諾伊州的美國能源部阿貢國家實驗室(Argonne National Laboratory, ANL)。Aurora 是在 2018 年先上馬的,但它的建設被推遲了,因為英特爾很難提供這台機器所需的處理器和 GPU。

在團隊最初的規劃中,Frontier 這台巨型機器将在 2021 年底之前傳遞,并在 2022 年全面投入使用。是以,它可以被稱為世界上第一台百億億級超級計算機嗎?

那要看每個人的定義了:「(日本的富嶽超級計算機)實際上是在不同的基準實作了 2 exaflop 的混合精度計算,」田納西大學的 Jack Dongarra 說,他是 Top500 名單背後的專家成員之一。他解釋說,這些排名是基于涉及 64 位浮點計算的基準,此類計算多用于解決許多實體模拟所需的三維偏微分方程。「這是應用超級計算機的底線,」Dongarra 說。但他也指出,超級計算機越來越多地用于訓練深度神經網絡,在這方面 16 位精度就足夠了。

還有一個特殊的例子「Folding@Home」,這是一個旨在模拟蛋白質折疊的分布式計算項目。幾十萬名玩家捐出了自己的 GPU,通過衆源的方式,Folding@Home 超級計算機實作了超過 1 exaflop(每秒 1 百億億次浮點計算)的處理能力。

「我會稱它為專用計算機,」Dongarra 說,每個人都可以參與完成這項工作,因為涉及到大量并行的計算。也就是說,每一台計算機可以獨立執行所需的計算,它們之間幾乎不需要進行網絡通信。2020 年 3 月,Folding@Home 項目宣布:「我們已經跨越了 exaflop 的障礙!」

但如果堅持使用一般基準的話,也就是用于 Top500 排名的基準,世界上任何一台超級計算機都還沒有資格成為百億億級計算機。Frontier 可能是第一台,或者說,它有望成為第一台已知的百億億級超級計算機。Dongarra 解釋說,在 2021 年 6 月的 Top500 排名出爐之前,有傳言說中國至少有一台或兩台已經在百億億級運作的超級計算機。

Top 500 超算榜單半年更新一次,直到 11 月的榜單出爐,前幾名沒有新超算揭幕。Frontier 會不會被中國的超算截胡呢?

2020 年 1 月 2 日,《科學》雜志刊文展望了 2020 年可能成為頭條的十大科學新聞,其中包括中國或建造全球首台 E 級超算。據公開報道,「天河 3 号」E 級超算驗證機進展順利。

全球首台百億億級超算用AMD的GPU:性能增7倍,能效提升3倍

今年 7 月,由國防科技大學研制,部署在國家超級計算天津中心的「天河」E 級計算機關鍵技術驗證系統在國際 Graph500 排名中,獲得 SSSP Graph500(單源最短路徑)榜單世界第一和 BIG Data Green Graph500(大資料圖計算能效)榜單世界第一的成績。圖計算在大資料和人工智能領域應用廣泛,相比于 Top 500,Graph500 榜單更偏向與應用。

今年 12 月 12 日,天津中心和國防科技大學,聯合數十家合作團隊共同釋出了「面向新一代國産 E 級超級計算系統的十大應用挑戰」。

據介紹,新一代百億億次(E 級)高性能計算機的研發,是國家在新一代資訊技術領域的重要部署,其自主化程度遠高于其他超算平台,同時規模與性能也會大幅提升。

或許在明年,懸念就将揭曉。

參考内容:

https://spectrum.ieee.org/exascale-supercomputing

https://www.top500.org/lists/top500/2021/11/

https://www.thepaper.cn/newsDetail_forward_13434752

轉載請聯系本公衆号獲得授權

投稿或尋求報道:[email protected]

繼續閱讀