天天看點

當藥物研發遇上阿裡雲超算,GHDDI如何實作高通量分子篩選?高通量:快速鎖定新冠病毒潛在靶點雲超算的藥物研發場景驗證

2020年6月1日淩晨,武漢市衛健委釋出通告稱,5月31日,武漢市對6萬餘人進行了核酸檢測,未發現無症狀感染者。這是武漢市公布無症狀感染者人數以來,首次無症狀感染者當日新增為零,國内抗疫取得又一關鍵的階段性成果。

然而,全球範圍内的新冠疫情對社會經濟活動帶來的影響還在持續,尋找行之有效的治療方案仍是全球科學家當下重要的任務。4月中旬接受央視記者白岩松采訪時,比爾·蓋茨曾特别提及:“GHDDI的研發團隊将幫助世界更好地了解并對抗疫情。”這家創立于2016年的獨立營運、非營利性質新藥研發機構,再次以如此高調的方式進入公衆視野。

GHDDI,全稱全球健康藥物研發中心(Global Health Drug Discovery Institute),由比爾及梅琳達·蓋茨基金會、清華大學和北京市政府聯合發起成立于中國北京。清華大學藥學院院長、拜耳特聘教授丁勝教授擔任中心主任。通過彙聚全球頂尖資源、發揮中國特色優勢,GHDDI緻力于建設引領性的生物醫藥研發能力和創新藥物轉化平台,攻克人類面臨的重大疾病挑戰,改善全球健康。

與GHDDI一同抗疫的,還有阿裡雲。1月29日,阿裡雲宣布對全球公共科研機構免費開放一切AI算力,以支援抗疫。在此之前,阿裡雲高性能計算平台就開始免費支援GHDDI研究新冠病毒。

早在新冠肺炎疫情爆發之初的2020年1月,GHDDI即宣布會同清華大學藥學院向全球科研人員免費開放了包括高通量藥物篩選平台和多個化合物庫在内的内部研發平台和藥研資源。随後,數以百計的海内外科研機構和研究團隊基于GHDDI的開放資源進行針對新冠肺炎病毒的藥物、疫苗開發。

藥物篩選平台和内部藥研資源開放的兩天後,GHDDI人工智能研發團隊就上線了針對新冠病毒研究的一站式科研資料與資訊共享平台 “Targeting COVID-19”。據了解,“Targeting COVID-19”平台從設計到搭建完成,耗時僅4天。此外,GHDDI聯合阿裡雲共同搭建新冠病毒人工智能全球共享雲計算系統,用頂尖的資料庫和高性能的超算資源助力全球抗疫的創新探索。

高通量:快速鎖定新冠病毒潛在靶點

1月21日,全國已有13個省市相繼出現新冠肺炎确診病例,疫情加劇。同時,新冠病毒基因組序列公開釋出。

在阿裡雲高性能計算負責人何萬青的詢問下,GHDDI人工智能部門負責人潘麓蓉博士比對了新冠病毒和SARS病毒的相似度。意識到這種病毒的潛在威脅,GHDDI決心投入資源幫助對抗新冠病毒。

當藥物研發遇上阿裡雲超算,GHDDI如何實作高通量分子篩選?高通量:快速鎖定新冠病毒潛在靶點雲超算的藥物研發場景驗證

實際上,GHDDI在1月即模拟了幾乎全部新冠病毒相關靶點的三維結構,并完成全面的同源性、傳染性相關分析,快速鎖定在後續藥物開發、抗體設計中發揮關鍵作用的抗原靶點。确定關鍵靶點後,GHDDI公布前期研究資料供外部團隊進行藥物開發的同時,也開展了基于計算模型的虛拟藥物分子篩選。

動脈網從GHDDI相關負責人處了解到,GHDDI藥研團隊聚焦“老藥新用”思路,對現有超過9000種抗病毒活性小分子和内部ReFRAME化合物庫(内含12000多種臨床安全的化合物)進行構效關系和曆史資料分析,篩選出幾百個高機率具有抗擊新冠病毒活性的小分子。至此,GHDDI始終秉持開源的态度,将科研資料和基于此間資料建構的各級抗原靶點表型分析模型對外釋出,供全球科研群體開展後續的成藥性相關研究。

新冠病毒疫情的背景下,資源和研究成果共享無疑能極大的加速研究者的進展,避免重複工作。

我們知道,藥物研發是一個非常複雜和耗時的過程。在化合物發現階段,傳統方法是通過大量實驗完成篩選,發現可能适合的化合物。以确定與蛋白病毒酶結合的小分子為例,由于存在數量巨大的不同商業化合物庫,且每個庫的化合物數以百萬計,合計上億,完全依靠實驗方式一一測試幾乎不可能實作。

當藥物研發遇上阿裡雲超算,GHDDI如何實作高通量分子篩選?高通量:快速鎖定新冠病毒潛在靶點雲超算的藥物研發場景驗證

于是,科學家嘗試通過機器模拟分子化合物與靶點的互相作用等計算方式篩選出可能有效的化合物做小通量實驗。其中一種傳統虛拟篩選方式是通過小分子和靶點對接,對不同配體的結合效果打分或者通過分子動力學進一步計算,篩選出得分高且結合模式合理的配體作為候選藥物進行實驗驗證,加速藥物研究程序。

由于分子庫巨大,哪怕用計算機實作虛拟篩選,需要在有限時間完成,也極大挑戰了計算機性能。假設某化合物庫有10,000個候選配體,以每個化合物在單核CPU平均處理時間1.5個小時計算,總共需要15,000 個小時(625天)才能完成此化合物庫的分子篩選。而高性能計算叢集的應用,為現代藥物研發提供了必不可少的支撐。如果在高性能叢集上,用625個CPU并行計算,一天則可完成上述任務。如果用高性能GPU訓練好的人工智能模型進行預測篩選,在單個GPU上四分鐘則可以完成上述任務。

雲超算的藥物研發場景驗證

高性能計算又稱超算,是一種用超級計算機或大規模的計算叢集來解決需要大量計算能力(如并行計算、AI模型運算)需求的方法,在石油勘探、氣象預報、藥物研發中廣泛應用。一般而言,為在規定時間内完成藥物研發的分子篩選,研究者需要擁有強大計算能力的計算平台、大容量存儲和大量配套的高性能應用軟體,如Amber, NAMD等。

在高性能計算出現後的許多年中,由于虛拟化造成的性能損耗,雲計算并不被從事高性能計算開發的專家看好。在單個節點實驗中,實體機性能一定比虛拟機高,使用配置最好最快的實體機器幾乎成為高性能計算領域的“潛規則“。

2017年,阿裡雲在雲栖大會上釋出神龍伺服器。這款由阿裡雲自主開發的雲伺服器,主要通過自研晶片和MOC卡來實作虛拟化功能,并将存儲網絡的管控放上來,使得CPU本身不再浪費,100%地為計算者提供服務。

盡管理論上還是會耗掉資源,但神龍伺服器的優勢顯而易見。容器在神龍伺服器上運作的性能,比傳統實體機上高20-30%。因為在傳統實體機上高密度部署容器時,由于存儲網絡虛拟化的資源核心和業務所占的CPU的資源,之間會互相争搶,随着整體負載率提升,它的業務的延時會迅速惡化,最後導緻業務不可用。而在神龍上面,因為‍每一個容器之間的資料鍊路都是用晶片的硬體隊列進行隔離的,不會互相影響,即便負載接近90%,延時的變化依然不大。

消除了虛拟化損耗的神龍讓雲超算得以實作,阿裡雲超級算計叢集以神龍伺服器作為算力底座,通過RoCE高速網絡連接配接,加上并行存儲檔案系統CPFS,對外提供了完整高性能計算所需要的硬體基礎設施。軟體排程層面則提供了E-HPC(Elastic High Performance Computing)能夠讓使用者自助在雲上搭建自己的高性能叢集系統,配置高性能伺服器和大容量存儲,提供軟體多節點運作和高通量任務處了解決方案,直接滿足藥物研發人員對計算平台的需求。

新冠疫情期間,GHDDI在阿裡雲之上搭建了開放共享平台,使用E-HPC搭建高性能計算叢集,用于藥物研發的分子對接、分子動力學模拟、深度學習模型訓練,同時為合作夥伴建立不同的雲超算子賬戶,實作計算資源共享和資料共享。

阿裡雲資深專家何萬青博士告訴動脈網,GHDDI的共享平台幫助科學家更便捷地将即時的想法轉化為具有指導意義的創新探索,極大地提高了新冠肺炎相關藥物、疫苗的開發效率。未來,阿裡雲超算将基于彈性的高性能計算能力,為更多的藥物研發工作提供必要的算力支撐。

繼續閱讀