天天看點

快80~500倍!人工智能快速預測兩種蛋白質的結構互作方式

編輯 | 蘿蔔皮

抗體是免疫系統産生的小蛋白質,可以附着在病毒的特定部位以中和它。随着科學家們繼續與新冠病毒 SARS-CoV-2 作鬥争,一種可能的武器是合成抗體;它與病毒的刺突蛋白結合,進而阻止病毒進入人體細胞。

為了開發成功的合成抗體,研究人員必須準确了解這種附着是如何發生的。具有包含許多折疊的塊狀 3D 結構的蛋白質可以以數百萬種組合形式粘在一起,是以在幾乎無數候選物中找到合适的蛋白質複合物非常耗時。

為了簡化這一過程,麻省理工學院的研究人員建立了一個機器學習模型(Equidock),可以直接預測兩種蛋白質結合在一起時将形成的複合物。他們的技術比目前最先進的軟體方法快 80 到 500 倍,并且經常預測更接近實驗觀察到的實際結構的蛋白質結構。

該研究以「Independent SE(3)-Equivariant Models for End-to-End Rigid Protein Docking」為題,于 2021 年 9 月 29 日向 ICLR 2022 會議進行盲文投稿。

蛋白質複合物的形成是生物學中的一個核心問題,它參與了細胞的大部分過程,對于藥物設計或蛋白質工程等應用至關重要。研究人員處理剛體蛋白質-蛋白質對接,即從單個未結合結構計算預測蛋白質-蛋白質複合物的 3D 結構,假設在結合過程中沒有 3D 靈活性。

麻省理工學院的從業人員設計了一種新的成對獨立 SE(3)-Equivariant,來預測旋轉和平移,以将其中一種蛋白質放置在正确的位置和相對于第二種蛋白質的正确方向。

無論兩個結構的初始位置如何,該方法在數學上保證預測的複合體總是相同的,避免了昂貴的資料擴充。該模型通過優化傳輸和可微的 Kabsch 算法使用關鍵點比對和對齊來逼近綁定口袋并預測對接姿勢。

根據經驗,盡管沒有使用大量采樣、結構細化或模闆,但在現有蛋白質對接軟體上實作了顯著的運作時間改進,并預測了定性合理的蛋白質複雜結構。

快80~500倍!人工智能快速預測兩種蛋白質的結構互作方式

圖示:蛋白質複合物 3D 結構的不同視圖。(來源:論文)

這項技術可以幫助科學家更好地了解一些涉及蛋白質互相作用的生物過程,如 DNA 複制和修複;它還可以加快開發新藥的程序。

「深度學習非常擅長捕捉化學家或生物學家難以通過實驗編寫的不同蛋白質之間的互相作用。其中一些互相作用非常複雜,人們還沒有找到表達它們的好方法。這種深度學習模型可以從資料中學習這些類型的互動。」麻省理工學院計算機科學和人工智能實驗室(CSAIL)的博士後 Octavian-Eugen Ganea 說。

快80~500倍!人工智能快速預測兩種蛋白質的結構互作方式

圖示:與 Equidock 相同的輸出保證。(來源:論文)

蛋白質附着

研究人員開發的名為 Equidock 的模型專注于剛體對接——當兩種蛋白質通過在 3D 空間中旋轉或平移而附着時發生,但它們的形狀不會擠壓或彎曲。

該模型采用兩種蛋白質的 3D 結構,并将這些結構轉換為可由神經網絡處理的 3D 圖。蛋白質是由氨基酸鍊形成的,每個氨基酸都由圖中的一個節點表示。

快80~500倍!人工智能快速預測兩種蛋白質的結構互作方式

圖示:Equidock 架構和損失的詳細資訊。(來源:論文)

研究人員将幾何知識整合到模型中,是以它了解對象在 3D 空間中旋轉或平移時會如何變化。該模型還内置了數學知識,可確定蛋白質始終以相同的方式附着,無論它們存在于 3D 空間中的何處。這就是蛋白質在人體中的附着方式。

利用這些資訊,機器學習系統識别出兩種蛋白質中最有可能互相作用并形成化學反應的原子,稱為結合口袋點。然後它使用這些點将兩種蛋白質放在一起形成一個複合物。

建構此模型的最大挑戰之一是克服缺乏訓練資料的問題。Ganea 說,由于存在如此少的蛋白質實驗 3D 資料,是以将幾何知識納入 Equidock 尤為重要。

秒 VS 小時

模型訓練完成後,研究人員将其與四種軟體方法進行了比較。Equidock 能夠在一到五秒後預測最終的蛋白質複合物。所有基線都需要更長的時間,從 10 分鐘到一個小時或更長時間。

快80~500倍!人工智能快速預測兩種蛋白質的結構互作方式

圖示:推理運作時間分布。(來源:論文)

在計算預測蛋白質複合物與實際蛋白質複合物有多接近的品質測量中,Equidock 通常與基線相當,但偶爾表現不佳。

「我們仍然落後于其中一個基線。我們的方法仍然可以改進,并且仍然有用。它可以用于非常大的虛拟篩選,我們想了解數千種蛋白質如何互相作用并形成複合物。我們的方法可用于非常快速地生成一組初始候選者,然後可以使用一些更準确但更慢的傳統方法對這些候選者進行微調。」Ganea 說。

快80~500倍!人工智能快速預測兩種蛋白質的結構互作方式

圖示:Equidock 成功預測的蛋白質複合物的可視化。(來源:論文)

除了将這種方法與傳統模型一起使用之外,該團隊還希望将特定的原子互相作用納入 Equidock 中,以便做出更準确的預測。例如,有時蛋白質中的原子會通過疏水互相作用附着,其中涉及水分子。

未來,他們計劃增強 Equidock,以便它可以預測靈活的蛋白質對接。最大的障礙是缺乏訓練資料,是以 Ganea 和他的同僚正在努力生成可用于改進模型的合成資料。

論文連結:https://openreview.net/forum?id=GQjaI9mLet

相關報道:https://phys.org/news/2022-02-artificial-intelligence-rapidly-proteins.html

人工智能×[ 生物 神經科學 數學 實體 材料 ]

「ScienceAI」關注人工智能與其他前沿技術及基礎科學的交叉研究與融合發展。

歡迎關注标星,并點選右下角點贊和在看。

繼續閱讀