新智元報道
編輯:時光
【新智元導讀】
1月26日,《自然》發文《新危險?計算機在原有基因資料中發現10萬個新病毒》,文章指出,關于未來疫情的線索可能隐藏在現有基因資料中。
僅僅一種新冠病毒,就使世界經濟癱瘓,導緻數百萬人死亡。
然而,病毒學家估計,目前仍有數萬億種未知病毒存在。
其中,許多可能是緻命的,或有可能引發下一次大疫情。
2022年1月27日全球疫情資料
「這是一項令人印象深刻的工程壯舉」
1月26日,科學家在Science上發文,題為《新危險?計算機在原有基因資料中發現10萬個新病毒》,指出關于未來疫情的線索可能隐藏在現有基因資料中。
因為病毒數增加了一個量級,研究将使用RNA,而不是DNA。
「這是一項基礎性工作。」美國國家醫學圖書館J. Rodney Brister說。
研究還将啟動所謂的拍位元組(Petabytes)基因組學,1PB=1024TB,将對RNA和DNA進行資料分析。
「這也表明我們對病毒的認識嚴重缺乏。」疾病生态學家Peter Daszak說。
Peter Daszak是紐約市生态健康聯盟的主席,這是一個非營利性研究組織,該組織正在籌集資金開展一項全球病毒調查。
通過篩選空前規模的現有基因組資料,科學家們發現了近13.2萬個RNA病毒基因組。
「這是一項令人印象深刻的工程壯舉!」生物資訊學家C. Titus Brown說。
美國國家醫學圖書館
「比任何人想象得都要快」
時間回到2020年初,劍橋大學計算生物學家Artem Babaian開始這項工作。
Babaian很好奇,他想,除了這次暴發的新冠病毒COVID-19以外,還有多少冠狀病毒序列?
帶着這個疑問,Babaian找到了Jeff Taylor,Taylor是一名超級計算專家,他們聯合檢索了基因組資料。
這些資料已經存儲在一個全球序列資料庫中,并由美國國家衛生機構負責。到目前為止,這個資料庫包含了16拍位元組的存檔序列,這些序列來自從河豚到土壤再到人類的各種基因資料。在這些樣本中,感染不同生物體的病毒基因組都可以通過測序得到,而它們通常無法被檢測出來。
Babaian和Taylor設計了一套專門用于搜尋雲資料的計算工具,在其它幾位生物資訊學專家的幫助下優化了軟體。他們的分析「比任何人想象得都要快」,每天可以處理100萬組資料,每組資料的計算成本不到1美分。
他們很快将病毒搜尋範圍擴大到冠狀病毒之外,并檢視了雲中的所有資料,這類病毒還包括那些導緻流感、脊髓灰質炎、麻疹和肝炎的病毒。
其實,新資料庫并沒有每個新病毒的完整序列,隻有RNA聚合酶(RNA polymerase)的基因。
RNA聚合酶
「變成一個巨大的病毒監控網絡」
研究人員通過尋找RNA聚合酶來進行研究,RNA聚合酶是所有RNA病毒複制的關鍵。
為此,研究人員利用部分序列來建構家譜,揭示不同病毒之間的關系,以及它們的進化規律,還可以找出特定病毒的發現地點和宿主。
「我們已經把資料庫變成一個巨大的病毒監控網絡。」Babaian說。
生物資訊學家C. Titus Brown表示,這可以幫助研究人員更好地了解人類病原體是如何産生的,并改進病毒感染的診斷測試,
「當一種新的病毒從病人身上分離出來時,研究人員可以更容易地判斷它,是否已經在其他地方被發現。」Brown說。
病毒公共資料庫:https://www.serratus.io/
出乎意料的其它發現
在一些水生動物中,比如,河豚,蝾螈,研究發現了未知的冠狀病毒,并可據此拼湊出整個病毒基因組。序清單明,「新型冠狀病毒基因組有兩個獨立的環,而不是通常的單個RNA鍊。Babaian的報告如此陳述。
在噬菌體的研究中,人、貓、狗都發現了巨型噬菌體,噬菌體是侵襲細菌的病毒,也是賦予宿主菌生物學性狀的遺傳物質,研究找到了超過250種噬菌體,這些病毒與藻類病毒相似。
為此,Babaian團隊建立了一個公共資源庫,在這個公共資源庫中,其他人可以利用這項研究的工具與成果。
一項基于雲計算的分析,發現了9種新型冠狀病毒
參考資料:
https://www.science.org/content/article/new-dangers-computers-uncover-100-000-novel-viruses-old-genetic-data
https://www.serratus.io/