天天看點

深度學習預測蛋白質-蛋白質互相作用

編輯 | 蘿蔔皮

塔夫茨大學的 Lenore Cowen 教授和麻省理工學院的研究人員合作設計了一種基于神經語言模組化的最新進展的結構驅動的深度學習方法。該團隊的深度學習模型稱為 D-SCRIPT,能夠從初級氨基酸序列預測蛋白質 - 蛋白質互相作用 (PPI)。

研究人員結合神經語言模組化和結構驅動設計的進步來開發 D-SCRIPT,這是一種可解釋且可推廣的深度學習模型,它僅使用其序列來預測兩種蛋白質之間的互相作用,并在有限的訓練資料和跨物種的情況下保持高精度。

測試結果表明,與最先進的方法相比,在 38,345 個人類 PPI 上訓練的 D-SCRIPT 模型能夠顯着改善果蠅蛋白質的功能表征。在具有已知 3D 結構的蛋白質複合物上評估相同的 D-SCRIPT 模型,研究人員發現 D-SCRIPT 輸出的蛋白質間接觸圖與基本事實有顯着重疊。

該團隊應用 D-SCRIPT 在全基因組範圍内篩選奶牛(Bos taurus)的 PPI,并專注于瘤胃生理學,識别與代謝和免疫反應相關的功能基因子產品。然後可以利用預測的互相作用進行大規模的功能預測,解決基因組到現象組的挑戰,特别是在資料很少的物種中。

該研究以「D-SCRIPT translates genome to phenome with sequence-based, structure-aware, genome-scale predictions of protein-protein interactions」為題,于 2021 年 9 月 17 日刊載在《Cell Systems》。

深度學習預測蛋白質-蛋白質互相作用

D-SCRIPT 是一種從序列預測 PPI 的可解釋方法。D-SCRIPT 追求基于結構的方法,将蛋白質對的預測分數計算為它們各自結構的結合相容性。由于結構在進化過程中比序列更保守,是以這種互相作用的實體模型可以很好地推廣到整個物種。

深度學習預測蛋白質-蛋白質互相作用

圖示:D-SCRIPT 動機和工作流程。(來源:論文)

模型中的中間接觸圖表示是可直接解釋的,可用于驗證預測或研究殘基尺度上的蛋白質結合區域。是以,D-SCRIPT 加入了計算生物學中可解釋的深度學習方法中規模雖小但不斷增長的一系列進展。該團隊的子產品化設計還支援在不同階段研究模型輸出,并且研究人員證明每一層都捕獲增量結構資訊。

基于序列的方法(如 D-SCRIPT)的優勢在于,由于低成本基因組測序的巨大進步,輸入序列資料幾乎總是可用的。與同樣采用序列作為輸入的最先進的深度學習方法 PIPR 相比,D-SCRIPT 在物種間的通用性更好;是以,對于非模式生物或蒼蠅等生物中研究較少的蛋白質的精确從頭 PPI 預測更為有效。

深度學習預測蛋白質-蛋白質互相作用

圖示:D-SCRIPT 架構。(來源:論文)

研究人員懷疑 D-SCRIPT 在物種間的相對成功,但在物種内評估中表現不佳是由于模型的簡單性和正則化的程度。這些設計選擇增強了 D-SCRIPT 的普遍性,引導它學習互相作用的一般結構方面,而不是使用網絡結構或任何單個蛋白質的頻率作為互相作用夥伴。然而,對于某些任務,可能需要在 D-SCRIPT 的跨物種泛化性和其他最先進方法的物種内特異性之間取得平衡。未來的研究方向可能是遷移學習,将預訓練的 D-SCRIPT 模型調整到目标物種,而另一種方法可能是将其與關聯圖論 PPI 預測相結合。

深度學習預測蛋白質-蛋白質互相作用

圖示:牛瘤胃中的蛋白質互相作用網絡。(來源:論文)

值得注意的是,D-SCRIPT 不需要多序列比對 (MSA)。然而,在 D-SCRIPT 中使用的預訓練語言模型是在整個蛋白質語料庫的 MSA 上共同訓練的,允許其輸入特征化隐含地捕獲進化保守的某些方面。以前,明确使用 MSA 的基于協同進化的方法已被證明在重建單蛋白質接觸圖和 3D 結構方面非常有效。将它們擴充到 PPI 預測時,另一個挑戰是确定兩個 MSA 行之間的正确對應順序。

在同線性保守可以提供大量資訊的原核基因組中,ComplexContact、EV Complex 和 Gremlin 等方法已被證明表現良好,并提供殘基級互相作用的細節。然而,将這些方法擴充到更複雜的真核基因組方面的成功率較低。

深度學習預測蛋白質-蛋白質互相作用

圖示:D-SCRIPT 嵌入表示結構和互動。(來源:論文)

研究人員發現需要計算 MSA 是一個性能瓶頸,使得用它們進行真核基因組規模預測變得不可行,是以,限制了類似 EV 複合物的方法在該設定中的适用性。盡管如此,明确結合共同進化的見解可以提高 D-SCRIPT 的準确性,未來的工作可能會探索在不犧牲速度的情況下這樣做的方法。來自預測接觸圖和單個蛋白質結構的相關進展的見解也可以納入我們的模型架構。

D-SCRIPT 說明學習單個蛋白質的語言是一項非常成功的深度學習努力,也有助于解碼蛋白質互相作用的語言。利用 Bepler 和 Berger 的預訓練語言模型,能夠間接受益于單個蛋白質 3D 結構的豐富資料。相比之下,直接用蛋白質複合物的 3D 結構監督的 PPI 預測方法,為了學習互相作用的實體機制,需要與相對較小的語料庫抗衡。

深度學習預測蛋白質-蛋白質互相作用

圖示:D-SCRIPT 預測具有生物學意義的接觸圖。(來源:論文)

迫切需要可擴充的計算方法,以從非模式生物中的序列推斷基因的功能。盡管測序革命有助于使基因組更廣泛地可用,但仍然缺乏功能資料。使用 D-SCRIPT 進行 PPI 預測速度快,使基因組規模篩選成為可能。例如,該團隊能夠在 8 天内在單個 GPU 上評估 B. taurus 的 5000 萬個候選 PPI。

使用 D-SCRIPT,一個由基因組規模 PPI 預測組成的工作流程,然後是 PPI 網絡的圖論分析以識别功能子產品,可以生成大規模基因功能的高可信度預測;該團隊在奶牛瘤胃案例研究中證明了這一點。

深度學習預測蛋白質-蛋白質互相作用

這種從頭 PPI 預測甚至在模型生物中也很有用,例如線蟲,對于這些模型生物,PPI 網絡的已知部分仍然非常稀疏。在确實存在一些 PPI 資料的其他生物體中,未來的工作可以将這些資料與 D-SCRIPT 預測有效地結合起來。研究人員希望它的廣泛适用性、跨物種準确性和速度的結合将使 D-SCRIPT 成為解決「基因組到現象」挑戰的有用社群資源。

論文連結:https://doi.org/10.1016/j.cels.2021.08.010

相關報道:https://www.eurekalert.org/news-releases/936669

人工智能×[ 生物 神經科學 數學 實體 材料 ]

「ScienceAI」關注人工智能與其他前沿技術及基礎科學的交叉研究與融合發展。

歡迎關注标星,并點選右下角點贊和在看。

繼續閱讀