天天看點

科學家使用Summit超級計算機和深度學習來預測基因組規模的蛋白質功能

編輯 | 蘿蔔皮

随着高性能計算 (HPC) 的出現,促使計算生物學成為不斷創新和加速成熟的科學學科。近年來,機器學習領域也從 HPC 的實踐應用中受益匪淺。

研究人員使用 ORNL 的 Summit 超級計算機以及 Google 的 DeepMind 和喬治亞理工學院開發的工具,以加快準确識别生物體整個基因組中蛋白質結構和功能的速度。該團隊最近釋出了高性能計算工具包及其在 Summit 上的部署的詳細資訊。

他們提出了一種新的 HPC 方案,它結合了各種機器學習方法,用于在全基因組規模上,基于結構對蛋白質進行功能注釋。

該方案廣泛使用深度學習,并為針對蛋白質組學資料等高通量資料訓練進階深度學習模型的最佳實踐提供計算見解。研究人員展示了該方案目前支援的方法,并詳細介紹了該方案的未來任務,包括使用 SAdLSA 進行大規模序列比較和使用 AlphaFold2 預測蛋白質三級結構。

該研究以「High-Performance Deep Learning Toolbox for Genome-Scale Prediction of Protein Structure and Function」為題,于 2021 年 11 月 15 日在《2021 IEEE/ACM 高性能計算環境中的機器學習研讨會 (MLHPC)》上釋出,于 2021 年 12 月 27 日添加在《IEEE Xplore》。

這些強大的計算工具是解決生物學重大挑戰的重大飛躍

将遺傳密碼轉化為有意義的功能,蛋白質是解決這一挑戰的關鍵組成部分。它們也是解決有關人類、生态系統和地球健康的許多科學問題的核心。作為細胞的主要構成,蛋白質幾乎驅動着生命所必需的每一個過程——從新陳代謝到免疫防禦再到細胞之間的交流。

「結構決定功能」是蛋白質研究領域的格言;複雜的 3D 形狀指導着它們如何與其他蛋白質互相作用以完成細胞的工作。

基于組成DNA的字母A、C、T和G的長串核苷酸來了解蛋白質的結構和功能,長期以來一直是生命科學的一個瓶頸,因為研究人員需要依靠有根據的猜測和艱苦的實驗來驗證結構。

「我們現在正在處理天體實體學家處理的大量資料,這一切都是因為基因組測序革命。」ORNL 研究員 Ada Sedova 說, 「我們希望能夠使用高性能計算來擷取測序資料并提出有用的推論來縮小實驗範圍。我們想快速回答諸如『這種蛋白質有什麼作用,它如何影響細胞?』之類的問題。我們如何利用蛋白質來實作目标,例如制造所需的化學品、藥物和可持續燃料,或者設計有助于減輕氣候變化影響的生物體?」

科學家使用Summit超級計算機和深度學習來預測基因組規模的蛋白質功能

圖示:SAdLSA 概述,一種用于蛋白質序列比對的深度學習算法。(來源:論文)

該研究小組專注于對 DOE 任務至關重要的生物。他們對四種微生物的完整蛋白質組(生物體基因組中編碼的所有蛋白質)進行了模組化,每種微生物大約有 5,000 種蛋白質。已發現其中兩種微生物可産生制造塑膠的重要材料。另外兩種已知會分解和轉化金屬。結構資料可以為合成生物學的新進展和減少汞等污染物在環境中傳播的政策提供資訊。

該團隊還生成了在泥炭藓中起作用的 24,000 種蛋白質的模型。泥炭藓在泥炭沼澤中儲存大量碳方面發揮着關鍵作用,泥炭沼澤的碳含量比世界上所有森林都多。這些資料可以幫助科學家确定哪些基因在增強泥炭藓吸收碳和抵禦氣候變化的能力方面最重要。

加速科學發現

為了尋找使泥炭藓能夠耐受升高的溫度的基因,ORNL 科學家首先将其 DNA 序列與模式生物拟南芥進行比較,拟南芥是一種經過徹底研究的芥菜科植物物種。

「泥炭藓與該模型相差約 5.15 億年。」ORNL Liane B. Russell 研究員 Bryan Piatkowski 說,「即使對于與拟南芥關系更密切的植物,我們也沒有很多關于這些蛋白質如何表現的經驗證據。通過将核苷酸序列與模型進行比較,我們隻能推斷出這麼多的功能。」

能夠看到蛋白質的結構增加了另一層,可以幫助科學家找到最有希望的基因候選進行實驗。

例如,Piatkowski 一直在研究從緬因州到佛羅裡達州的苔藓種群,目的是确定它們基因中可能适應氣候的差異。它有一長串可能調節耐熱性的基因。一些基因序列隻有一個核苷酸不同,或者在遺傳密碼的語言中,隻有一個字母不同。

「這些蛋白質結構将幫助我們尋找這些核苷酸變化是否會導緻蛋白質功能發生變化,如果是,如何改變?這些蛋白質變化最終會幫助植物在極端溫度下生存嗎?」Piatkowski 說。

尋找序列中的相似性以确定功能隻是挑戰的一部分。DNA序列被翻譯成構成蛋白質的氨基酸。通過進化,一些序列會随着時間的推移而發生突變,将一種氨基酸替換為具有相似特性的另一種氨基酸。這些變化并不總是導緻功能上的差異。

直到最近,科學家們還沒有能夠根據基因序列可靠地預測蛋白質結構的工具。應用這些新的深度學習工具會改變遊戲規則。

盡管蛋白質的結構和功能仍需要通過實體實驗和 X 射線晶體學等方法來确認,但深度學習正在改變範式,将候選基因的廣闊領域迅速縮小到最有趣的少數基因以供進一步研究。

革命性工具

深度學習方案中的一種工具稱為結構對齊深度學習中的序列對齊,或 SAdLSA;其訓練方式與其他預測蛋白質結構的深度學習模型類似。SAdLSA 能夠通過隐含地了解蛋白質結構來比較序列,即使序列隻有 10% 的相似性。

「SAdLSA 可以檢測可能具有或不具有相同功能的遠緣相關蛋白質。」ORNL 計算化學家和小組組長 Jerry Parks 說, 「将其與提供蛋白質 3D 結構模型的 AlphaFold 相結合,您可以分析活性位點以确定哪些氨基酸正在發揮化學作用以及它們如何促成該功能。」

科學家使用Summit超級計算機和深度學習來預測基因組規模的蛋白質功能

圖示:在大規模部署 SAdLSA 的計劃。(來源:論文)

研究人員展示了使用基于結構的深度學習方法進行蛋白質功能注釋的新 HPC 工具箱。同時,展示了使用基于 SAdLSA DL 的對齊方法大規模部署推理,以及開發利用多個 GPU 的分布式訓練方 和Summit 節點,接下來将進一步擴大規模以适應更大的訓練資料集。

研究人員還報告了在 Summit 上使用 Singularity 容器和在 PACE 資源上使用原型小型基因組規模測試用例對 AlphaFold 結構預測程式的重組和部署。

科學家使用Summit超級計算機和深度學習來預測基因組規模的蛋白質功能

圖示:SAdLSA 在 Summit 上的 PDB70 資料庫上的性能。(來源:論文)

工具箱包含多種用于基于結構的功能注釋的方法,将被用于方案中,為功能未知或低置信度注釋的大型蛋白質組生成此類注釋,甚至幫助驗證已知功能的蛋白質,預測其結構特性,以提供有關這些蛋白質可能參與的催化機制和代謝途徑的更詳細資訊。

在未來的工作中,研究人員希望在工具箱的基礎上,支援生物資訊學中新出現的任務,包括蛋白質三級和四級結構的大規模預測,以及使用各種工具開發新的方案,以提供高置信度假設,為台架實驗提供資訊和指導。

論文連結:https://ieeexplore.ieee.org/document/9652872/authors

相關報道:https://phys.org/news/2022-01-scientists-summit-supercomputer-deep-protein.html

人工智能×[ 生物 神經科學 數學 實體 材料 ]

「ScienceAI」關注人工智能與其他前沿技術及基礎科學的交叉研究與融合發展。

歡迎關注标星,并點選右下角點贊和在看。

繼續閱讀