天天看點

異構計算與高性能計算,是打開未來的兩把鑰匙

來自IT圈兒裡人的精彩分享。

最初見到“超算平民化”的概念是在2009年《紐約時報》網絡版刊登的一篇文章:

“雲計算的快速發展不僅對行業趨勢産生了影響,甚至有望改變科研院所的研究方式。目前有多家科研機構都在嘗試通過雲計算來提供大量科研資料和超級計算機的運算能力,以便推動科研平民化的程序。”

當時,雲計算剛剛興起,超級計算機開始大量采用标準化硬體架構,這兩個趨勢讓HPC通過雲服務的形式來提供計算力的新模式成為可能。在當時看來,“雲上超算”并不遙遠,其所帶來的“超算平民化”亦将帶來超算發展的一場新的變革。

在後續的這些年中,“超算平民化”的程序一直在持續,尤其随着網際網路時代的來襲,超級計算機已經逐漸走出實驗室,進入企業應用之中。在近年的中國TOP100榜單中,有超過半數的超算所從事的都是網際網路應用——網際網路服務、大資料應用、雲計算、電子商務、視訊服務等等。相比過去,超算這個主要用于科研機構的系統已經在“平民化”上邁進了一大步。

然而,“雲上超算”的願景一直未實作,更未曾進入規模商用。其中一個主要原因在于,雲是一個虛拟化環境,很多對計算力、I/O有着苛刻要求的HPC使用者對此嗤之以鼻。另一個問題是,到底是應該将HPC雲化,還是應當做雲化的HPC?亦或者說,“雲上超算”這個目标,是該由雲計算廠商來實作,還是應該由超算廠商來實作?

還好,現在已經有了答案。

為何是阿裡雲?

9月12日,阿裡雲釋出了彈性高性能計算平台E-HPC,這是中國首個公共雲上的“HPC as a Service”産品。阿裡雲首先将HPC放到了雲上,邁出了“雲上超算”規模化商用的第一步。

那麼,對于“雲上超算”這件讨論了很多年的事情,為何是阿裡雲邁開了第一步?

原因有三,其一是需求驅動,其二是本錢足夠,其三是基因傳承。

先看需求。

在過去,高性能計算使用者為了獲得HPC叢集計算能力,需要花費大量人力物力财力在伺服器購買、運維、軟體開發和軟體許可上。這是一個龐大的系統工程,昂貴且周期漫長。

當然,不是所有HPC使用者都有自建HPC叢集的實力,過去大多數情況是使用者租用超算中心的計算資源,但中國對外開放的超算中心着實不多,其中有些已經投入使用多年,計算力不足,任務作業經常需要排隊,HPC使用者無法獲得理想的計算效率和靈活性。

是以,若能以雲服務的模式來提供HPC的計算力,無疑能帶給更多使用者應用HPC的機會,大大拓寬HPC的應用範圍,進一步推進HPC的平民化程序。

再看本錢。

在E-HPC釋出當天,阿裡雲還釋出了新的異構計算執行個體家族,涵蓋GPU、FPGA在内等6款異構執行個體,這為“雲上超算”的建構打下了雄厚的異構計算基礎。此外,阿裡雲還具備豐富的彈性計算ECS資源、虛拟專用網VPC、高性能高可靠和橫向擴充的NAS資源、HPC軟體棧等資源。綜合來看,對于建構“雲上超算”,阿裡雲已經有了足夠的技術和産品資本。

還有基因。

阿裡雲曾經在多個場合、不止一次的強調“使能”這個詞。就如阿裡雲近年來不斷更新ECS家族,其目标是為了“使能”更多的企業客戶,讓客戶和阿裡雲ECS一同成長壯大。而阿裡雲推出彈性高性能計算平台E-HPC,其目的是降低HPC應用門檻,讓更多的使用者能夠應用HPC,和阿裡雲的“使能”基因一脈相承。

對于E-HPC,阿裡雲資深專家何萬青博士做了一個形象的比喻:如果把傳統超算中心比作“珠穆朗瑪峰”,那麼阿裡雲的E-HPC則是将高性能計算做更普惠的覆寫,是高性能計算的“青藏高原”。“我們既需要‘珠穆朗瑪峰’,也要讓更多的人在‘青藏高原’上做創新。”

是以,阿裡雲在首先推出“雲上超算”這件事兒上,可謂萬事俱備,東風亦至。

輕輕一點,生成“雲上超算”

來看看阿裡雲E-HPC的一些具體情況。

據何萬青博士介紹,E-HPC基于阿裡雲異構計算平台在高性能虛拟化、并行計算、低延遲網絡和HPC軟體棧等方面的特性,幫助生命科學,氣象預報,石油勘探,工業設計和航空航天等領域的客戶,快速獲得高性能計算叢集計算能力、排程能力和軟體能力,按需組建自己的“雲上超算中心”,并可實作一鍵部署和彈性伸縮。

異構計算與高性能計算,是打開未來的兩把鑰匙

E-HPC有着四大特點:便捷、互通、彈性、安全。

在釋出會現場,何萬青博士現場示範了“雲上超算”的搭建過程——隻需三步:硬體配置、軟體配置、基礎配置,即可生成一套使用者專屬的HPC叢集,時間不過幾分鐘。“你不用了解超級計算機是怎麼設計的,隻要點幾下滑鼠,然後得到的就是超級計算機。”

使用者從E-HPC不僅能夠獲得并行計算能力,還能獲得常用的開發工具、性能庫和常用的HPC應用。如gcc、g++、gfortran等基礎軟體,NetCDF、MPICH、OopenMPI、OpenBLAS等高性能運作時庫,以及計算化學、氣候氣象、生命科學、材料力學、分子動力學等領域行業軟體,使用者登入E-HPC直接可用。

異構計算與高性能計算,是打開未來的兩把鑰匙

何萬青博士強調,E-HPC本身作為一個PaaS平台,所有的資源随着阿裡雲的産品豐富是不斷的往上疊代的,E-HPC會随着産品的不斷豐富而進化。未來阿裡雲會聯合行業合作夥伴打造行業解決方案傳遞給使用者,讓E-HPC實作平台化,不斷擴大“雲上超算”的應用生态。

在彈性方面,E-HPC使用者不僅可以根據需求自動增減節點,還能将本地HPC叢集通過虛拟區域網路專線接入E-HPC,通過一種混合雲的方式來擴充計算能力,這種靈活性是傳統HPC叢集無法實作的。

由此可見,通過阿裡雲提供的“雲上超算”,企業就能快速獲得高性能計算叢集能力、高性能計算排程能力和軟體能力,按需組建自己的“雲上超算中心”,再也不用一次性巨額資金投入,進而大幅降低計算成本,同時獲得雲服務的彈性和靈活度,“魚”和“熊掌”可兼得。

而在安全方面,E-HPC采用了多項安全設計來保證安全通路和資料可靠性。例如,E-HPC采用了安全組通路控制,并提供了VPC專有網絡,通過管控空間和使用者空間分離,保證多租戶間資料安全隔離;同時E-HPC的NAS平台提供了10個9的資料可靠性。

回到最初的話題,降低超算應用門檻、實作“超算平民化”是整個HPC産業的共同願景,雲計算技術的進步讓這個願景有了成為現實的可能;而阿裡雲首先推出“雲上超算”E-HPC,又将超算平民化的願景拉近了一大步。

10月12日,E-HPC将在全球同步上線,未來整個HPC産業是否會出現新的變局?非常值得期待。

異構計算能力再更新

阿裡雲新推出E-HPC、建構“雲上超算”,實際上是阿裡雲異構計算在HPC領域的一次全新實踐。9月12日,除了釋出E-HPC,阿裡雲還釋出了新一代GPU執行個體GN5i和新一代FPGA計算執行個體F2。

至此,阿裡雲異構計算家族已經包括GPU、FPGA在内的6款異構執行個體,已經能夠滿足圖形渲染、人工智能和高性能計算等領域的複雜計算需求,阿裡雲異構計算能力再度更新。

異構計算與高性能計算,是打開未來的兩把鑰匙

如圖所示,如今阿裡雲異構計算家族已經全面覆寫GPU和FPGA執行個體。GPU方面包括AMD和NVIDIA執行個體,FPGA方面包含Intel和賽靈思執行個體,6款異構計算執行個體能夠全面覆寫圖形圖像、機器學習、科學計算等異構計算應用場景。

GA1:今年1月推出,專為圖形渲染計算而設計的執行個體,提供最高4顆AMD S7150 GPU的配置,最高達到15TFLOPS浮點計算能力,其亮點在于相容OpenGL DirectX等主流圖形渲染API,同時支援GPU分片虛拟化,進而達到成本和計算力的平衡。在大部分視覺渲染計算中,GA1能夠将成本降低 50%。

GN4:也是在今年1月推出的GPU異構計算執行個體。單執行個體最大提供了2顆 NVIDIA M40 GPU,達到14 TFLOPS 單精度浮點運算處理能力。适用于機器學習、流體力學計算、基因組學、地震分析、分子模組化、金融計算以及其他需要強大并行浮點計算能力的伺服器端業務場景。

GN5:今年6月推出,面向深度學習和高性能計算的執行個體,具有強大計算力。最高支援8顆NVIDIA P100 GPU,浮點運算最高75TFLOPS。相比上一代的異構執行個體GN4,GN5的雙精度浮點性能提升了94倍(适用于科學計算),單精度浮點性能提升5.4倍(适用于深度學習),相容TensorFlow、Caffe等主流深度學習架構。

GN5i:阿裡雲新釋出的異構執行個體,主要适用于深度學習的線上推理(Inference)階段。配置NVIDIA P4 GPU,INT8 整型計算能⼒達45TFLOPS,可一鍵部署TensorFlow等主流深度學習架構,提供智能排程、自動運維、實時擴容等服務。人工智能産業使用者可通過GN5i搭建微秒級響應的AI服務,線上服務成本減少50%以上。

除了GPU執行個體,阿裡雲也将目光投向了不斷升溫的FPGA。阿裡雲進階技術專家龍欣表示,GPU本身的資料位寬是固定的,相比GPU,FPGA更适合非标資料位寬的深度學習、金融分析、基因比對、物聯網資料庫等領域。FPGA就像專用計算中的多面手,堪稱搭建任意數字器件的“雲上積木”。

F1:是今年1月阿裡雲推出的首款FPGA異構計算執行個體,現已全面更新。采用Intel A10晶片,單塊FPGA配有16GB DDR4記憶體,專用 PCI-Express x8 接口,具有近1518個DSP引擎,近115萬個邏輯元素,單精度浮點計算最1.5TFLOPS、INT8整數運算最高4.8TOPS。更新後的F1執行個體提供了開發元件的全面支援,增強了安全保護機制,并從原來的隻能支援RTL的開發更新為支援RLT和openCL的開發。

F2:新釋出的FPGA異構計算執行個體,基于Xilinx(賽靈思)硬體可程式設計晶片打造,具有145萬個邏輯單元,5520個DSP引擎,16GB 4通道記憶體,單精度浮點計算最高1.5TFLOPS,INT8整數運算最高5.25TOPS。F2執行個體可在雲上實作FPGA加速業務的快速研發、安全分發、一鍵部署和彈性伸縮,為人工智能産業提供加速服務,在特定場景下的處理效率比CPU高30倍。

相對GPU,FPGA開發有着更高的門檻。為簡化使用者使用FPGA、分發FPGA、部署FPGA、運維FPGA的業務流程,阿裡雲還推出了FPGA鏡像市場,在雲上提供了線上的開發模拟調試的環境,廠商和使用者可以在市場上分發、部署定制化加速算法,阿裡雲的安全能力為鏡像保駕護航。目前,已有數十家廠商正在進駐。“這是阿裡雲建構FPGA生态的重要一環”,龍欣表示。

憑借這六款異構計算執行個體,阿裡雲已經能夠覆寫大部分的異構計算場景,但對于雲上的異構計算服務來說,僅有豐富的執行個體還不夠。阿裡雲異構計算負責人張獻濤表示,要在雲上提供異構計算服務,除了異構計算執行個體外,業務永續、高性能、成本效益、彈性,缺一不可。

從去年開始,阿裡雲整個基礎設施層面全面更新,IDC可以達到5個9的可用性,讓客戶業務永續;為支援客戶業務的全球化的部署,阿裡雲在全球部署了一張高可用的骨幹網,通過多線的BGB接入保障網絡不中斷,同時讓客戶的業務全球互聯互通。在軟體服務層,阿裡雲網絡虛拟化也已經更新到第二代,适應了25Gb網絡,能夠支撐阿裡雲業務在網絡方面獲得極高的PPS和帶寬。

張獻濤表示,阿裡雲在海外已經部署了多個資料中心,美國、澳洲、德國、新加坡,異構計算服務也随着IDC的全球化部署覆寫到全球;在國内,華為、華南、華東、香港資料中心也做了異構計算服務的部署,阿裡雲希望從計算服務、引擎、平台、服務、場景解決方案、生态等方面,全方位“使能”使用者。

打開未來的大門

異構計算與高性能計算,是打開未來的兩把鑰匙。

第四次工業革命正在到來,這次革命将以大資料為核心,以人工智能為代表;而在即将到來的智能社會,高性能計算與人類生活的關系也将更加密切,從天氣氣象、生物制藥、基因工程、航空航天等科研領域到新興的深度學習和人工智能,高性能計算都将扮演關鍵角色。

不管是人工智能,還是高性能計算,都需要強大的計算力作為支撐,而異構計算則是提升計算力最為可行的途徑。不難預見,未來異構計算将覆寫更多的應用和更多的行業,也将有越來越多的使用者需要異構計算——這勢必将掀起一輪異構計算平民化的新浪潮,而雲計算則是成就這次變革的基石。

打造全面的雲上異構計算服務、首推“雲上超算”E-HPC,阿裡雲可謂是已經找到了這兩把通往未來的鑰匙。

繼續閱讀