天天看點

超算簡史與下一代超級計算機

本文作者阿裡雲技術專家蜚廉,最初創作于2018年4月2日

什麼是超級計算機

超算簡史與下一代超級計算機

上圖為超算界2012年世界冠軍“泰坦”(Titan),它有一萬多個兄弟,每個兄弟都是當時最強的CPU,再配上GPU、高速網絡等高精尖武器,運算速度達到20+ PFLOPS。“泰坦”占地面積與标準籃球場相當,消耗的電力足以供應一個小型城鎮;普通電腦放在背包裡帶走,超級計算機要專門建一棟樓來放置。

“超級計算(Supercomputing)”這一名詞在1929年《紐約世界報》關于“IBM為哥倫比亞大學建造大型報表機(tabulator)的報道”中首次出現。超級計算機是一種由數百、數千甚至更多的處理器(機)組成的,能計算普通PC機和伺服器不能完成的大型、複雜課題的計算機。

超級計算機是計算機中功能最強、運算速度最快、存儲容量最大的一類計算機;多用于國家高科技領域和尖端技術研究,對國家安全,經濟和社會發展具有舉足輕重的意義;也是國家科技發展水準和綜合國力的重要标志。

超算簡史

1960年代前

60年代及之前,可以看成是超級計算機的蠻荒時代,有IBM、DEC、GE等衆多玩家。

其中IBM的各種牛,各種首創,不一一細表。我認為對廣大程式員影響最大的還是FORTRAN的發明,它是影響了計算機曆史,影響了程式設計語言的發展,并且如今仍在科學計算領域仍然被廣泛使用。剛畢業時,我還在物探局編寫、優化了大量FORTRAN子產品。

超算簡史與下一代超級計算機

還有一個不得不提的是CDC (Control Data Corporation)公司,它不僅有非常産品優秀(如上圖的CDC 6600);而且其擁友一位傑出工程師Seymour Cray。Seymour Cray在CDC工作多年并設計了一系列當時最快的計算機,直到他離開後創立了自己的公司,開創了超級計算機的一代枭雄──Cray。

1970 - 1980年代

Seymour Cray創立自己的公司──Cray Research。憑着他的新設計,Cray Research一度主導了當時的整個超級計算機市場。

超算簡史與下一代超級計算機

上圖為Seymour Cray和他的Cray-1,Cray-1成功使用向量處理器(vector processor),性能是同期其它産品的幾倍。

超算簡史與下一代超級計算機

Cray-2首台4路向量處理器,成為當時峰值最高的超級計算機。

巅峰之後,其後Cray公司急速下滑;經曆了破産、被收購等一系列變故,命運多舛、但仍然頑強的堅持着;直至今日,Cray依然是超級計算機領域的巨頭之一。

向量處理器(vector processor),是一種實作了直接操作一維數組(向量)指令集的中央處理器(CPU)。向量處理器可以在特定工作環境中極大地提升性能,尤其是在數值模拟或者相似領域。向量處理器最早出現于20世紀70年代早期,并在70年代到90年代期間成為超級計算機設計的主導方向,尤其是在多個Cray平台。現在,絕大多數商業化的CPU實作都能夠提供某種形式的向量處理的指令,用來處理多個(向量化的)資料集,也就是所謂的SIMD(單一指令、多重資料);如常見的 SSE, MMX和 AVX等。

1990年代

90年代,是MPP(Massive Parallel Processing)大爆發的時代,處理器個數由原來的個位數爆炸增長到幾千個。

MPP屬于IT巨頭的定制機,每個節點使用定制CPU,運作OS微核心,使用單獨開發的專有網絡連接配接。具有代表性産品有:Intel ASCI Red,IBM SP2,Cray/SGI Origin 2000。

MPP架構與現在的叢集(Cluster)已經非常相似了,最大的差異點是其元件大多是單獨定制開發。MPP架構主導超算領域,同時催生了另外一項沿用至今的技術 -- 消息傳遞接口(Message Passing Interface,縮寫MPI)。MPI是一個并行計算的應用程式接口(API),常用于MPP、叢集系統等分布式記憶體環境程式設計。MPI的特點是高性能,大規模性和可移植性;直至今天仍為高性能計算的最主要模型。之前,本人圍繞這個計算機領域的90後,前後工作了N年。

走進新世紀

進入新世紀後,叢集(Cluster)得到蓬勃的發展。叢集的節點是一台完整的商業伺服器,運作通用作業系統(感謝Linux,感謝GNU!),互連網絡使用商業标準的IB和以太網裝置連接配接,存儲為SAN、NAS和并行檔案系統。

原有的MPP超級計算機的單獨定制門檻被打破,“堆機器”成了新玩法。國内廠家在這一時期開始嶄露頭角,如聯想的深騰系統、曙光公司的曙光5000A等等。

之後,國防科技大學異軍突起;其設計的“天河一号”是我國首台千萬億次超級計算機。

超算簡史與下一代超級計算機

“天河一号”從2008年開始研制,按兩期工程實施:

一期系統(TH-1):于2009年9月研制成功;裝有3072顆Intel的Xeon E5540 2.53GHz四核處理器和3072顆Xeon E5450 3.0GHz四核處理器,共有24,576個處理器核心。天河一号還裝備2560塊AMD的Radeon HD 4870 X2顯示卡,共有5,120個圖形處理器用于圖形處理器通用程式設計。該超級計算機系統部署于,設立在天津濱海新區的國家超級計算天津中心作為業務主機。

二期系統(TH-1A):于2010年8月在國家超級計算天津中心更新完成;配備了14,336顆Xeon X5670處理器、7,168塊基于NVIDIA的Tesla M2050計算卡、2,048顆國防科技大學研制的飛騰處理器以及5PB儲存設備。更新後的TH-1A比TH-1理論峰值性能提高了3.89倍,實測性能提高了4.45倍。2010年11月14日,國際TOP500組織在網站上公布了最新全球超級計算機前500強排行榜,我國首台千萬億次超級計算機系統“天河一号”(TH-1A)排名全球第一。

“天河一号”是我國首台采用異構加速卡架構設計的超級計算機,其中第一期系統(TH-1)使用了Intel CPU + AMD GPU卡,第二期系統(TH-1A),GPU卡改為生态更成熟NVIDIA Tesla M2050。本人參與并見證了,東方物探石油勘探地震資料處理應用在天河-1A上運作,是當時最早期的、可支援NVIDIA GPU的超大規模并行應用。鑒于其巨大意義,當時有一篇著名的文章

《超級計算機天河一号應用水準進入世界先進行列》

繼“天河一号”後,由國防科學技術大學研制的超級計算機系統“天河二号”,于2013年6月起至2016年6月之前(六連冠),再次成為世界上最快的超級計算機。

超算簡史與下一代超級計算機

2016年6月20日,由國家并行計算機工程技術研究中心研制、安裝在國家超級計算無錫中心的超級計算機“神威·太湖之光”超級計算機,超越同為中國建造的“天河二号”,成為世界上最快的超級計算機。至此以來,中國長期(2013年6月至今)占領TOP500首位,成為了超算領域的迅速崛起的一顆耀眼新星。

超算的武功排行榜

TOP500項目

是針對全球已知最強大的電腦系統做出排名與詳細介紹。此項目始于1993年,每年出版兩次最新的超級計算機排名清單。每年的第一次排名公布總是在六月份的國際超級計算機會議(ISC)上,而第二次排名公布則是在十一月份的超級計算會議(SC)上。

最近一期(2017年11月)TOP500前十名排名:

超算簡史與下一代超級計算機

其中中國2台(前兩名),日本3台,美國4台,歐洲1台。從榜單可以反映出兩個特點:1、中國獨占榜單頭兩位;2、美國第一次丢失了前四位;大名鼎鼎的Titan先後被瑞士的Piz Daint和日本的Gyoukou超越,落到第五的位置。

美國在高性能計算領域具有傳統優勢,是決不會讓這種情況繼續(IBM、Intel、Cray也不會,都是拿大單的機會啊)。為應對日益激烈的競争壓力,在學術大咖、商界領袖的共同遊說下,美國能源部首先站裡出來;在 2014 年啟動的超算計劃 CORAL,投入5.25億美元,要幫助美國在超算領域奪回領頭羊地位。

大洋彼岸的應對

CORAL是個什麼項目呢?我們看看它的全稱就明白了,這是個大塊頭。

CORAL = Collaboration of Oak Ridge, Argonne, and Lawrence Livermore

Oak Ridge,Argonne 和 Lawrence Livermore,他們代表美國能源部下屬的三個國家實驗室:橡樹嶺國家實驗室(Oak Ridge National Laboratory,縮寫為ORNL),阿貢國家實驗室(Argonne National Laboratory,縮寫為 ANL)和勞倫斯利佛摩國家實驗室(Lawrence Livermore National Laboratory,縮寫為 LLNL)。

這三個,應該是大家最熟悉的美國國家實驗室了。橡樹嶺國家實驗室和阿貢國家實驗室都是源于大名鼎鼎的曼哈頓計劃的一部分,之後分離出來成立的最早的大型美國國家實驗室。勞倫斯利佛摩國家實驗室(LLNL)名氣稍差一點,但提到它的大表哥洛斯阿拉莫斯國家實驗室,同為曼哈頓計劃的一部分,知名度絕對高。這哥倆同為美國能源部所屬,是美國兩個為了X武設計而建立的部門。江湖傳聞LLNL是為了制衡洛斯阿拉莫斯國家實驗室一家獨大而專門建立。

Collaboration

解釋完後面三個單詞“Oak Ridge, Argonne, and Lawrence Livermore”,我們再解釋一下“Collaboration”代表着什麼。

Collaboration的具體内容是三個國家實驗室共同招标建造四台超級計算機,供各自科研使用。不差錢的标書發出來後,廠家紛紛響應。但建超算是技術活,不是誰都幹得了的,結果不出意外;計算機巨頭組團拿下了訂單。

朋友圈一:IBM + NVIDIA + Mellanox,負責建造兩台,合同金額 3.25億美元。

朋友圈二:Intel + Cray,負責建造另外兩台,合同金額2億美元。

第一台:Summit

放置在橡樹嶺國家實驗室,替代上文提到、現TOP500排名第五位的Titan超級計算機(Cray造,AMD Opteron + NVIDIA Tesla K20X);朋友圈一合作,采用:IBM Power9 + NVIDIA GPU + Mellanox IB方案,由IBM建造,計劃2018年底傳遞。

Summit理論峰值150-300 PFLOPS,高于現在第一名的“神威·太湖之光”的125PFLOPS,預計會在18年底重新奪回TOP500第一名的寶座;不過還需要一個前提,“At that point, absent another surprise from China”。

第二台:Sierra

超算簡史與下一代超級計算機

放置在勞倫斯利佛摩國家實驗室(LLNL),替代原有的Sequoia超級計算機(IBM Blue Gene Q);Sierra就是縮小版的Summit,架構、技術完全一緻,規模、配置部分縮水,同由IBM建造,計劃2018年傳遞。

第三台與第四台:Theta & Aurora

這兩台都放置在阿貢國家實驗室,朋友圈二拿下。Intel為主承包商,Cray負責內建和建造; Theta采用Intel Xeon Phi KNL + Aries Interconnect,在2016年底已傳遞,理論峰值9.6 PFLOPS(實測5.88 PFLOPS),最新一期TOP500排名18;Aurora為大号的Theta,同樣采用Intel Xeon Phi技術,設計峰值180 PFLOPS;由于Intel取消最近一代Xeon Phi産品,機器無法傳遞;該項目改為2021年,搭建美國首台E FLOPS(1000 PFLOPS)超級計算機。由于Intel Xeon Phi在傳遞上的風險,同時建兩台超級計算機的好事,最終沒有落到Argonne的身上。

下表為CORAL項目實際建造的3台超級計算機的硬體參數:

超算簡史與下一代超級計算機

朋友圈一:IBM + NVIDIA + Mellanox

Summit & Sierra的體系結構可以看到:CPU + GPU的異構架構已經完全被超算領域認可。

RDMA(Remote Direct Memory Access)以其Zero-copy,bypass-kernel,Network Offload的特性,是超級計算機高速網絡的最佳選擇之一。其中最常見的實作有三種:RDMA over Converged Ethernet (RoCE), InfiniBand和 iWARP。其中InfiniBand在帶寬、時延方面高于其他兩種方式,在使用者定制超算領域占有率最高。RoCE是建構在以太網(UPD協定)之上的RDMA實作,擁有更廣泛的軟硬體基礎和成本優勢,在資料中心及雲上具有廣泛的應用場景。帶寬上,100Gb已經成為行業主流,超算已經向更高速度沖擊。小号的Sierra雖然采用EDR(100 Gb)技術,但使用雙網卡技術将最大帶寬提升到200 Gb;Summit還沒有傳遞,個人猜測直接采用200Gb HDR的可能性更高。

在處理器領域,IBM在與Intel的競争中落了下風,但其以開放的态度,主動示好業内各領域領先企業,希望在超算、AI領域奪回10-20%的市場佔有率。如為了支援NVIDIA GPU,及更好的開源軟體生态,Power9成為第一代原生支援小端的IBM處理器。同時,Power9 伺服器中首先應用OpenCAPI,不但支援連接配接NVIDIA GPU (NVLink),也支援Google ASIC、Xilinx FPGA。

CAPI(Coherent Accelerator Processor Interface,統一加速器處理器接口)及其演進版本OpenCAPI(開放式高性能總線标準)集齊計算機領域多家巨頭:IBM、Google、AMD、NVIDIA、Micron、Mellanox等,以開放的姿态得到了業内廣泛的支援。OpenCAPI 标準總線最大的特點就是性能強勁,每個通道的資料都可達25Gbps,遠遠超過PCIe 3.0 的8Gbps,而且也支援多通道綁定。

朋友圈二:Intel + Cray

Intel在伺服器CPU領域,處于完全上司地位,無論在性能、生态各方面遠超對手;但超算領域加速卡方面,面對NVIDIA GPU的強勢,Intel推出了Xeon Phi産品,想憑借支援原生x86架構,借力生态優勢,再下一城。最近一期(2017年11月)TOP500排行榜中,采用Intel Xeon Phi的超算總共有29台,戰績中規中矩。同期NVIDIA GPU為87台;其餘300多台為純CPU無加速卡,還有極個别采用自研加速卡,如“神威·太湖之光”。

随着AI的崛起,GPU加速卡技術得到更快速的發展,Intel雖說取得了一些成績,但勢頭上仍被NVIDIA壓制,調整取消了最近一代Xeon Phi産品,聚集力量研制新産品,希望在AI方面取得新的突破。

在高速網絡方面,Intel也是握有多張好牌;Intel在以太網領域積累深厚,有著名的82599網卡,同時也是RDMA over TCP (iWARP)技術主要推動者;2012年,Intel收購QLogic InfiniBand業務,基于這一技術又推出了Omni-Path Architecture(OPA),繼續對Mellanox發起挑戰,并已斬獲了部分超算客戶。同年,Intel還收購Cray旗下超級計算機互聯技術團隊,這個團隊創造了兩項互聯技術,分别為Aries和Gemini。

在這個Intel主導的朋友圈裡,憑借其超強硬體技術及廣泛的業務線,在CPU、加速卡及高速網絡全面PK三大計算巨頭,實力令人仰慕。

我的思考

我國雖然多次占據了TOP500的頭兩位,但不能簡單認為超算建設水準已領先其他國家,特别是美國。造成這種局面的一個主要原因是兩國在建設超級計算機思路的不同:

美國是根據計算需求設計系統,需要多少計算能力就把超級計算機計算能力設計成多少;如上文提到的CORAL項目,由三大國家實驗室主導建設,超算放置地和最終的使用者都是各自國家實驗室。

中國是通過立項建設,證明我們有能力、有财力建設世界第一的超級計算機也成為了項目的一大目标。建成後,建設方主要負責超算系統的運維,計算資源部分用以支撐國家重大項目,同時也向社會租售計算資源。

在超算建設方面,中國從技術實力上跟歐洲、日本都在一個水準線上,不超前,也不落後。美國還是一騎絕塵,特别在各個關鍵部件方面、大規模并行應用軟體方面。

在并行軟體方面,我們的差距遠比硬體大,無論是科研領域,還是工業領域。軟體水準的制約,各大超算中心大多存在單個并行作業規模較小,硬體資源閑置率較高。并且,各個中心均隸屬于大學、研究院,市場競争意識淡漠,服務意識不強。這種現狀,也給了重視客戶體驗、服務品質高的雲平台們在超算領域的更多機會。

CPU + GPU + RDMA的架構,在系統效率、可擴充性上展現出較大優勢;并伴随着GPU生态完善、AI崛起等有利條件的推動,正在成為企事業機關自建超算平台的主要選擇之一。雲上超算平台緊跟趨勢,借助阿裡雲彈性裸金屬伺服器(神龍)CPU/GPU + RoCE(RDMA over Converged Ethernet)的技術優勢,迅速推出超級計算叢集(Super Computing Cluster,縮寫為SCC)産品(

https://www.aliyun.com/product/scc

)、開拓傳統超算客戶上雲業務。

後記

本文介紹了超算硬體的簡史及新一代的趨勢,在軟體方面Linux基金開源的超算項目 – OpenHPC位于行業主導地位。OpenHPC緻力于為高性能計算建構一個開源架構,适應現在工業和學術研究的需求,建立一個穩定的 HPC 測試環境,為 HPC 環境建立一個開源架構,降低成本,開發一個全能的HPC軟體棧适應各種應用,建構一個配置架構,開發者和使用者可以靈活的選擇 HPC 中他們需要的部分。

對應,我們推出了彈性高性能計算(E-HPC,

https://www.aliyun.com/product/ehpc

)産品,為客戶以快捷的方式在阿裡雲上搭建超算平台,并完全相容OpenHPC軟體棧;同時,我們還可以為客戶提供應用特征分析工具,提供針對特定應用的雲上執行個體選型推薦、性能優化服務。

如對阿裡雲超算平台感興趣,歡迎閱讀:

阿裡雲超算揭秘:虛拟機的心髒,實體機的肌肉 黑科技揭秘:如何通過阿裡雲超算,使得汽車仿真效率提升25% 異構計算與高性能計算,是打開未來的兩把鑰匙

本文參考連結

https://en.wikipedia.org/wiki/Supercomputer https://en.wikipedia.org/wiki/Seymour_Cray http://www.nscc-tj.gov.cn/claculation.php http://www.nscc-gz.cn/ https://computation.llnl.gov/partnerships/commencing-work-coral https://www.top500.org/news/ornl-begins-construction-of-summit-supercomputer/ https://www.olcf.ornl.gov/olcf-resources/compute-systems/summit/ https://hpc.llnl.gov/hardware/platforms/sierra https://www.alcf.anl.gov/theta https://www.top500.org/news/retooled-aurora-supercomputer-will-be-americas-first-exascale-system/ http://www.datacenterdynamics.com/content-tracks/servers-storage/aurora-to-become-americas-first-exascale-hpc-system-coming-2021/99035.fullarticle http://openhpc.community/

繼續閱讀