天天看點

中國高校“卷”高性能計算平台,卷什麼?

作者:财經雜志
高性能計算已經成為衡量一所學校科研實力的最重要名額,高校其他各學科對高性能計算資源的依賴越來越強,需求遞增攀升
中國高校“卷”高性能計算平台,卷什麼?

圖:《财經》記者走訪南京大學高性能計算中心

文 | 《财經》記者 顧翎羽

編輯 | 謝麗容

無論在國内還是全球,加強基礎科研工作,都是高校的機遇、責任和使命。高性能計算已成為繼理論和實驗之後科學研究的第三大支柱,各學科對高性能計算資源的需求不斷攀升。

高性能計算(High performance computing, 縮寫HPC),指利用超級計算機實作并行計算,以處理标準工作站無法完成的資料密集型計算任務,常見的應用領域有仿真模拟、機器學習和深度學習等。

簡單了解,高性能計算可以通過分布式計算實作單台計算機無法達到的運算速度,高性能計算系統的運作速度比商用桌上型電腦或伺服器系統快一百萬倍以上。原因在于高性能計算能夠讓整個計算機叢集為同一個任務工作,以更快的速度來解決一個複雜問題。也正是因為此,在存儲和處理海量資料,資料挖掘、圖像處理和基因測序等場景裡,如果想要獲得突破性結果,高性能計算有時是唯一解法。

舉例來說,人類首次嘗試基因組測序耗時達13年,而如今,高性能計算隻需要不到一天的時間内便可完成這項任務。

從算力的目标和分類來看,高性能計算設計目标是提供完備、複雜的計算能力,範疇廣闊,包含了超算,也包含了強調AI的智能計算。

在國内,由于成本高昂和應用領域有限,高性能計算目前主要應用于高校、科研機構以及大型制造業企業的研發側。南京大學,北京大學、上海交通大學、南方科技大學等數十所高校均擁有自己的高性能計算平台,作為高校科研創新的底座。

這個隻在科學研究領域發揮獨特作用的計算平台,究竟是何樣貌?它最新的發展趨勢是什麼?5月30日,《财經》來到南京大學高性能計算中心,這所曆史可以追溯到2000年的計算中心是國内最早的高校高性能計算中心之一,它的發展和變遷是國内高性能計算中心發展的縮影。

中國高校“卷”高性能計算平台,卷什麼?

圖:南京大學2015年決定投入5000萬元更新高性能計算平台。建立平台主要采用聯想Flex X240M5刀片伺服器,理論CPU計算峰值870萬億次/秒,Linpack實測值79.62%,在2017年6月釋出的全球超級計算機Top500排行榜中列第284位。來源:南京大學高性能計算中心官方網站

南京大學的科研利器

從外表上看,這是幾間普普通通的機房:數十個機櫃緊密排列,幾十台空調制冷發出的巨大的轟鳴聲顯示出機器的繁忙,也透露出年代感。

南京大學從事高性能計算方面的建設始于1980年天文系的應用需求。随着科學技術以及教育需求的提升,各個院系也相繼開始購買伺服器解決自己的計算需求。但是各個院系由于成本、人力等原因自己建設科研教學用高性能計算節點過于浪費。是以,在985工程二期的項目中,南京大學撥出了專門款項購置和更新全校所需的共享大型計算裝置,力求為全校理科院系提供更強大的計算能力。

南京大學高性能計算中心也是以孕育而生。

南京大學高性能計算中心進階工程師盛樂标博士介紹,南京大學高性能計算中心全系統共有33280個CPU核,理論浮點運算峰值1500萬億次/秒,為南京大學流體力學模拟、系統仿真、中大尺度氣象模式模拟等多個領域提供科研所需的算力支撐。

南京大學在2000年配置第一台高性能計算機,随後又進行了多次增建,但擴建速度始終難以跟上科研需求的發展。随着學校師生對高性能計算的需求日益增長,全校的計算資源缺口不斷拉大。

目前我們能看到的機房,是2015年南京大學和聯想打造的二期計算平台擴建而來。該平台在2017年6月釋出的環球超級計算TOP500排行榜中名列第284位。六年來系統運作穩定,故障率小于1%,近三年的CPU使用率大于93%。

盛樂标告訴《财經》,建超算平台或者高性能計算平台,效率和穩定性是最關鍵的因素——科研計算任務有時需要曆經數月甚至數年,是以,計算平台除了追求計算效率,還要盡可能降低計算過程發生故障的可能性。

另一個重要需求是節能。

這一需求可以通過兩種可行的路徑來滿足:首先是使用軟體。包括伺服器内置的節能的軟體和開源的第三方軟體去對整個系統來進行節能。舉例來說,高性能計算平台CPU的占用通常長期維持在一個較高的水準,軟體則可以在CPU占用相對比較低的時候自動判斷,讓機器關機;其次是通過器件,即可以采用更高轉換效率的電源和低損耗的材料來建構整個高性能計算的系統。

高性能計算中心對南京大學在基礎科研方面的幫助很大。以高性能計算典型應用場景——行星實體環境模拟為例,受限于客觀條件,對行星内部環境和物質的實驗觀測、研究挑戰巨大,有必要采用理論模拟計算。依托南京大學高性能計算中心的高性能算力,實體學院師生研究了行星内部高壓下的新材料,且大幅提高了研究效率,目前相關成果已在Nature、Physics、PRX、NSR等國際一流學術刊物發表。

地質探測也是高性能計算的典型應用場景,中國石油集團東方地球實體公司資料中心原總工程師賴能和表示,高性能計算與AI技術結合大幅提升了油氣勘探效率,同時企業與高校的合作,進一步促進了産學研用融合發展。

上述案例之外,南大高性能計算中心已經助力産出一批傑出科研成果,覆寫流體力學模拟、系統仿真、中大尺度氣象模式模拟等多個領域。僅2019至2021三年,高性能計算中心超算平台就支援了超百篇卓越學科論文的發表,并支撐學校教師承擔三十多項國家重大科研項目,在學校學科發展中,發揮了不可替代的重要作用。

高性能計算在科研領域至關重要

在科學研究領域,AI for Science是近年來的新的研究風潮。傳統科學計算不能滿足Ai for science的需求,高性能計算可以,AI for science的興起會提高對高性能計算的需求。

所謂AI for Science,即在科學計算中引入AI的方法,來進行科學研究——今天的通用人工智能,通過大資料、大算力和強算法,學會了沒有教過它的技能,但這些技能仍是人類已掌握的。而未來,通用人工智能則是把人類的知識壓縮給到計算機,通過新的技術和模型,繼續訓練人工智能,進而發現過去人類未知的領域。

AI for Science不僅可以幫助科學家解決已有的問題,也可以幫助科學家發現新的問題和方向。AI可以通過生成新的假設、設計新的實驗、提出新的問題等方式,激發科學家的創造力和好奇心。例如,在醫藥領域,微軟研究院科學智能中心(AI4Science)利用深度學習對藥物分子進行生成和優化,進而加速藥物開發和創新。在地球科學領域,美國國家氣象局利用AI對氣象資料進行預測和分析,進而提高災害預警報和應對。

目前,全球各國大學目前都在高性能計算領域進行深度攻關,高性能計算(HPC)、理論、實驗成為當今高校開展科學研究的三大支柱,尤其是高性能計算,已經成為衡量一所學校科研實力的最重要名額,高校其它各學科對高性能計算資源的依賴越來越強,需求遞增攀升。

上海交通大學有“思源一号”綠色水冷高性能計算機群,總計算力為6000萬億次/秒,可實作42%的節能減排。類似的還有北京大學‘未名一号’,這是國内首個大型溫水水冷高性能計算叢集,理論計算峰值高達411萬億次/秒。該平台可以為數學、力學、實體學、化學、生物學、地球科學、計算機科學等學科提供了高性能計算環境。

中國高校“卷”高性能計算平台,卷什麼?

北京大學未名一号計算中心。圖源:企業提供。

高校建高性能計算中心,是由高校進行科研創新、培養科研人才的切實需求決定的。中國石油集團東方地球實體公司資料中心原總工程師賴能和告訴《财經》,高性能計算有助于推動科技創新能力的跨越式發展,要跨越式發展就一定要使用高性能計算進行突破。

他表示,中國高性能計算已經進入全球第一梯隊,TOP100高性能計算機平均能力比全球TOP500平均能力高出30%。其中自主研發的叢集占95%。

不過,中國高性能計算整體實力仍有待提高。根據國防科技大學的統計資料,在全球高性能計算機性能TOP50機器制造台數上,中國雖然近年來一直保持數量穩步增長,但距離美國仍有較大差距。特别是2015年起,美國将多所中國高性能計算相關機構或企業,包括國防科大、無錫江南計算技術研究所、曙光等列入實體清單。

中國高校“卷”高性能計算平台,卷什麼?

全球高性能計算機性能TOP50機器制造台數。資料:《國防科技大學學報》 東吳證券研究所。圖:東吳證券研報。

也就是說,高性能計算正在成為大國之間科技競争的前沿。發展自主可控的高性能計算至關重要。

高校之外,高性能計算商用前景拓寬?

根據國防科技大學統計,國内高性能計算市場格局穩定,聯想、曙光和浪潮分别占據市場佔有率前三,但是隻有曙光一家擁有從硬體到軟體系統的國産自主知識産權。

賴能和認為,國産GPU要獲得大規模應用,需要實作與國際主流生态的相容,并要解決自身生态建設問題。雖然目前我們還有差距,但可以一步一個腳印地來。

盛樂标則認為,ChatGPT帶動了AI大模型熱度居高不下,但它的熱度總有一天會降下去。新的GPT模型對硬體資源需求非常大,并且開始閉源,預示着很多應用要建立自己的軟體生态并要持續優化算法。通過計算方法的革新和軟體算法的優化,以降低AI對硬體大規模數量的依賴,或許是國内科研領域實作彎道超車更經濟的方法。

根據東吳證券的研究,目前,大陸高性能計算中心建設主要通過部省(市)合作協定确立高性能計算中心的建設計劃,國家科技部代表國家科技戰略對主機性能設定目标。地方政府希望高性能計算中心能成為區域科技發展的功能載體,為其聚集人才、創新科技并推動經濟發展。東吳證券2021年預計,大型高性能計算中心單個投入在 20 億元以上,按平均每年建立5個高性能計算中心來計算,政府規劃的高性能計算中心市場規模每年将達到 100 億元。

除了高校和科研機構,更廣闊的使用前景理應是在産業。根據第三方機構觀研天下資料,2022年中國整體高性能計算市場規模或超 400 億元。除政府規劃外,網際網路巨頭、營運商和硬體制造廠商均在均積極布局高性能計算建設。

随着高性能計算的發展,尤其是使用成本的不斷下降,其應用領域也從過去傳統的核武器研制、石油勘探、國防安全等專業領域向更廣泛的制藥、基因工程、動漫渲染、網際網路等更“平民”經濟領域延伸。利用高性能算力+專業數字研發平台+AI已經成為了新的趨勢。吉利汽車就打造了自家的高性能計算中心,用于新車研發中碰撞試驗。

不過,并不是所有企業都如此财大氣粗。在高性能計算商用前景中,成本是第一道大考。計算中心的建設成本高昂,除了後續電費運維支出,南京大學高性能計算中心2015年二期一次性建設費用為5000萬,這一價格為高校采購價格,遠低于企業自建高性能計算中心所需費用。

盛樂标告訴《财經》,如果企業自建高性能計算中心,明面上的成本是購買伺服器這些硬體基礎設施和後續每年的電費、維護費,這些投入已經不菲;而超算建好以後,隐性的成本是軟體和人。企業使用的商用軟體非常貴,特别是一些工業軟體仍舊存在卡脖子問題,對于特殊行業,甚至難以買到國外的軟體。

人才也分兩種:一類是會管理的人、一類是會應用的人。超算管理相關的人才在國内是短缺的;至于應用的人才,跟企業的業務密切相關,也跟企業在研發上的投入力度有關。

“到底企業能有多少相關的研發投入?企業能支援引進或招聘多少大規模應用超算平台人才?沒有足夠的人才的投入,即使自建了超算,也發揮不出超算的價值。國内自建超算的制造業企業,一般都是需要超算幫助其産品更新的大型制造企業,但是對于更多的企業,不一定能舍得投入這麼多經費和人力來進行研發。”盛樂标說。

而如果企業選擇到外面的超算/智算中心租用資源,雖然每次使用成本會高些,但是一次性的投入就少了。不過即使是外面租用,也得是認真做深入研發的企業才會投入。也就是說,隻有極少數的企業,才能有需求、有資源且有人才來采用高性能計算。

是以,在未來,AI for Science将會給高性能計算帶來新的機遇和挑戰。巨頭企業現在投入高性能計算中心,更有可能獲得技術上的領先和突破。但是,高性能計算發展前景,尤其是商用前景仍舊需要生态圈裡的各個角色的共同努力。

繼續閱讀