天天看點

尋找新冠緻重症因素,如何通過雲計算将分析時間縮短80%以上?中大醫學院嘗試尋找緻重症的因素阿裡雲 EHPC,讓資料分析性能提升 25%

國内疫情稍有緩和,但公共科研機構與病毒間的戰争從未停止。科研人員與醫療工作者們依然在日以繼夜地研究着這名“對手”,追溯它從何而來、如何“作惡”,我們又能如何消滅它。科技早已作為科研人員的後盾,他們背後有無數的計算力在為分析病毒而跳動着。

在這些與病毒持續搏鬥的科研機構中,就有中山大學醫學院,這也是疫情期間阿裡雲提供免費算力支援的機構之一。

中大醫學院嘗試尋找緻重症的因素

在國内疫情肆虐之際,中山大學醫學院通過與多家醫院、疾控中心等合作,計劃擷取超過千名武漢市新冠患者的核酸樣本,以及部分病人的全病程資料,希望通過基因組測序及測序資料分析,闡述冠狀病毒的起源、進化和緻重症機制。

尋找新冠緻重症因素,如何通過雲計算将分析時間縮短80%以上?中大醫學院嘗試尋找緻重症的因素阿裡雲 EHPC,讓資料分析性能提升 25%

中山大學醫學院施莽老師解釋,研究人員主要是從病原體本身、微環境(與病原體共感染的細菌 / 微生物),及宿主即人類的免疫系統三個方面的角度去尋找引發重症的因素。

中山大學醫學院使用宏轉錄組的方法,期望從中原始樣本中挖掘得到所有關鍵的遺傳資訊。科學家們通過分析這些遺傳資訊重制病原體感染、宿主免疫和機體内環境互相作用的動态過程,尋找導緻機體重症的關鍵因素。

隻有全面了解了重症因素,才可以在臨床上進行重症預警,醫生可以及早幹預,對症下藥;并指導緩解和預防重症的藥物研發。

此外,科學家會将分析後的臨床資訊、病毒資訊、基因組資訊和實驗結果資料彙總,建構新冠感染相關大資料,幫助研究病毒起源,也友善後續研究。

阿裡雲 EHPC,讓資料分析性能提升 25%

在研究過程中,科學家首先需要通過高通量基因測序平台,對原始樣本進行測序,獲得樣本中包括病毒、細菌和宿主的完整遺傳資訊。但這些資訊僅是片段化的資訊,需要進一步的生物資訊學分析(包括序列的拼接和注釋)才能解讀采樣的時間點病人體内正在發生的重要生命過程。

尋找新冠緻重症因素,如何通過雲計算将分析時間縮短80%以上?中大醫學院嘗試尋找緻重症的因素阿裡雲 EHPC,讓資料分析性能提升 25%

從基因測序到獲得全基因組資訊的過程

遺傳資訊的拼裝和比對需要高性能計算進行處理,海量的資料更是需要大規模算力。

本次實驗處理的病例超過 1000 人,一般病例至少采集兩份資料,單份資料就有 2-3G,部分病例為了采集全病程資料還采樣數十次,還要再加上對照組資訊。同時,中山大學的科學家還需要下載下傳美國國家生物資訊中心 NCBI(National Center for Biotechnology Information)中的約 8000 個樣品進行比對,其産生的資料之海量可想而知。

在分秒必争的疫情背景下,雲上高性能計算的優勢凸顯,可加快研究程序。

阿裡雲幫助中山大學整合了從原始資料到獲得最後分析結果的完整計算流程,雲服務的彈性能夠在短時間内快速傳遞豐富的算力資源, 通過阿裡雲高性能計算(EHPC)一鍵部署超算叢集環境,根據需求動态增減叢集節點,免去了研究人員們針對伺服器的管理和維護,不需要在運維上耗費過多精力,隻需專注在研究上。

同時,阿裡雲高性能計算(EHPC)團隊協助中山大學使用阿裡雲計算服務進行生信科學計算,提供 104 核處理器,相比線下伺服器,資料組裝、比對性能提升 25% 以上。

在性能與資源的雙重支援下,原本每個病例的測序結果需要 12 個小時左右的分析時間,在阿裡雲上縮減到了 2 個小時。原本需要 1 年的運算量縮減到了約 2 個月時間,大大提高了工作效率,加快了研究程序,也為抗疫赢得了時間。