天天看點

帶你讀《彈性計算—無處不在的算力》第三章:計算産品和技術3.5雲上高性能計算(二)

3.5.2 适用場景

自E-HPC 産品和超級計算叢集SCC 提供公共雲服務以來,将雲原生的彈性、靈活性、安全性和神龍裸金屬具備的強大計算能力相結合,為科研和工業使用者提供了将雲計算和高性能計算相結合的工業級雲超算解決方案,在教育科研、制造業仿真、天體實體、新藥研制、影視渲染、材料工程、基因工程、氣候氣象、石油勘探等行業都有典型應用和廣泛應用潛力。同時,對于暫時沒有條件将HPC 應用和服務遷移到阿裡雲公共雲的科研和工程客戶,阿裡雲還提供了基于飛天專有雲架構的SCC 專有雲産品,幫助客戶實作線上線下混合雲的融合HPC。

計算資源存儲資源ECS OSS NAS/CPFS 網絡安全VPC 雲盾 SCC+IB GPU 資料庫、大資料、負載均衡… 飛天雲作業系統第三方IaaS管理平台虛拟機VM 裸金屬伺服器IB網絡VxLAN 網絡快照鏡像資料卷

帶你讀《彈性計算—無處不在的算力》第三章:計算産品和技術3.5雲上高性能計算(二)

圖3-50  SCC 專有雲方案

1. 教育科研通用HPC 應用

對于教育科研通用HPC 應用,阿裡雲通過E-HPC 平台提供了“雲上超算中心” 的功能,使用者隻需一個賬号,就可以體驗無須排隊的快速建立、自動縮擴容和彈性排程的HPC 服務。教育科研通用HPC 應用通常是開源,或者使用者自己研發的并行軟體, 通過将資料和應用從線下用戶端或資料中心上傳到雲端E-HPC 環境,就可以開展全流程的計算與可視化,這樣的通用HPC 計算是通過圖3-51 所示的控制流與資料流來實作的,這也是HPC-as-a-Service 的形象寫照。

教育科研通用HPC 相對簡單,通常由自上而下的應用軟體、運作時庫、開發環境、中間件和底層作業系統構成。一般工業和其他行業應用環境是一個更為複雜的軟體系統,通常由第三方軟體服務內建商或者使用者開發的業務軟體、商用ISV 軟體和HPC 平台系統構成。在這種情況下,阿裡雲會與行業客戶一起制訂出有針對性的解決方案,阿裡雲超算提供的Open API 會和第三方軟體、軟體內建商對接,保證可以将行業業務環境的系統無縫遷移到阿裡雲超算。

2. 制造業仿真——汽車仿真應用

車企通常會自建或租用超算叢集來作為汽車結構、流體和碰撞等仿真的計算資源,随着市場競争和新車型上市壓力的加劇,快速獲得規模可變、支援大批量并發

作業的計算叢集,成為推動車企使用阿裡雲超級計算叢集SCC 建構公共雲仿真平台的最重要原因,而阿裡雲平台具備的快速擴容能力,長期穩定的主動運維,和車企長時間無故障運作的要求相契合,并顯著降低制造業仿真的CAPEX 和OPEX。上海汽車、吉利集團、東風日産等車企均建構了在阿裡雲上的SCC 仿真雲,基本架構如圖3-52 所示。

帶你讀《彈性計算—無處不在的算力》第三章:計算産品和技術3.5雲上高性能計算(二)

圖3-51  教育科研通用HPC 

1.車客戶企業網絡混合雲獨立子網資料上傳伺服器DDC伺服器本地圖形伺服器叢集圖形伺服器叢集本地計算叢集本地存儲伺服器阿裡雲EGS執行個體HPC叢集阿裡雲SCC執行個體阿裡雲SCC執行個體阿裡雲SCC執行個體阿裡雲NAS檔案存儲阿裡雲EGS執行個體客戶終端Web Portal License伺服器 AD域伺服器 HPC 管高 速 通 道阿裡雲VP

帶你讀《彈性計算—無處不在的算力》第三章:計算産品和技術3.5雲上高性能計算(二)

C 3.作業可直接送出到阿裡雲HPC叢集4.每日處理數百個碰撞分析、流體分析作業

圖 3-52  汽車仿真雲架構

汽車和制造業仿真客戶隻需在本地叢集和阿裡雲公共雲SCC 叢集之間部署專線, 就可将仿真任務和資料通過專線傳輸到阿裡雲SCC 叢集的共享NAS、CPFS 檔案系統,通過HPC 叢集上的自動縮擴容實作對所有作業的無阻滞調動,運作結果可以通過雲圖站、雲桌面進行可視化分析,并通過混合雲彈性伸縮和作業排程器實作對混合組網狀态下的計算和資料排程。

某大型車企的仿真平台使用SCC 叢集,碰撞單核計算能力提升了30%,流體單核能力提升了15%,17000 核的計算能力帶來了22000 核的計算能力。更為重要的是,阿裡雲背景的主動運維和彈性裸金屬的伸縮能力,保證了整個叢集以90% 以上的CPU 使用率全速運作。

3. 影視渲染後期全流程

影視渲染屬于高性能計算中“Embarrassing Parallel”,即“完美并行”計算類型, 和節點間大量資料通信的MPI 模式不同,它對計算叢集的網絡延遲要求不高,計算任務是高并發的批量處理,是以各種彈性計算資源均可用于渲染。對影視制作公司而言,後期特效計算量極大,對于計算力的彈性要求很高,本地渲染農場數百台多核伺服器在高峰期任務排隊嚴重、低谷期使用率又不高,高峰期必須借助外部渲染農場伺服器才能完成渲染任務。而農場伺服器性能不高、硬碟寄送方式導緻的資産安全性差、技術能力弱、缺乏彈性伸縮等問題讓客戶非常頭痛。

渲染上雲超算能夠解決客戶痛點,采用E-HPC 實作基于deadline 排程引擎和專門為渲染場景設計的混合雲NAS 異步檔案緩存,實作大批量渲染資料的高效拉取, 并以雲圖站、雲桌面可視化叢集和渲染叢集打通的雲端審片,在某大型影視渲染公司的基于E-HPC 的影視後期制作渲染審片全流程如圖3-53 所示,其中關鍵是要實作圖3-54 所示的E-HPC 混合雲NAS 異步緩存。

E-HPC 為大并發、多檔案、多備援讀取的渲染開發的輕量級異步緩存,不引入額外時間開銷,和渲染計算異步進行,線下素材隻被拉取一次,有效降低了專線壓力,并能夠自動感覺/ 校驗線下素材改動,無須手動同步,客戶可直接通路緩存資料,實作透明資料遷移和備份,渲染結果是以可以在雲上/ 線下由客戶靈活控制。

帶你讀《彈性計算—無處不在的算力》第三章:計算産品和技術3.5雲上高性能計算(二)

圖 3-54  E-HPC 混合雲異步緩存128 

4. 生命科學藥物研發

雲上高性能計算為藥物研發提供HPC+AI 計算平台,實作雲上計算藥物研發(CDDD, Computational- Driven-Drug-Design )和人工智能藥物研發平台(AIDDD, AI-driven-Drug-Design), 支撐傳統高性能計算軟體, 如Dock6、AutoDock Vina、Gromacs、NAMD 等,以及AI 方案所需的計算需求。在藥物篩選階段,需要在海量的分子庫中,篩選有效的先導化合物進行優化和制藥,雲上高性能計算提供了高通量虛拟篩選計算産品,實作分子篩選任務,在節點間、節點内高并發執行,加速藥物研發程序。

此外,雲上高性能計算發揮雲的優勢,第三方藥物研究機構可以将自己的研究方案與雲超算內建,然後對外直接提供計算服務。例如,在針對COVID-19 的藥物研發期間,全球健康藥物研發中心(Global Health Drug Discovery Institute, GHDDI)将自己的HPC+AI 解決方案部署到雲上超算,對合作夥伴開放,能夠讓其他研發人員加速藥物研發工作。通過全球加速方案,将海外的生物資料直接下載下傳到超算共享目錄,讓合作夥伴共享使用。同時,GHDDI 将自己的研發結果直接放到對象存儲産品OSS 上, 并使用ECS 計算伺服器搭建Web 伺服器,将OSS 通路連結放在Web 伺服器上,供全球科研人員進行浏覽、下載下傳。GHDDI 藥物研發解決方案如圖3-55 所示。

帶你讀《彈性計算—無處不在的算力》第三章:計算産品和技術3.5雲上高性能計算(二)

圖3-55  GHDDI 藥物研發解決方案第3 章 計算産品和技術129 

限于篇幅,以上隻給出幾類典型算例:一類是需要低延遲、高帶寬的RoCE 網絡的緊耦合通信的工程仿真,使用SCC 叢集;一類是松耦合、高并發的批量處理,使用E-HPC 排程ECS 伺服器;一類是高并發藥物篩選,使用SCC GPU 叢集計算與對象存儲OSS 提供網頁服務。基于高性能計算我們還實施了EDA 半導體仿真、氣候模拟、石油勘探、生物制藥、基因計算等全流程解決方案。