編輯 | 蘿蔔皮
深度學習方法推動了生物分子結構單态預測的重大進展。然而,生物分子的功能取決于它們可以呈現的構象範圍。對于肽來說尤其如此,肽是一類高度靈活的分子,參與多種生物過程,作為治療手段備受關注。
多倫多大學的 Philip M. Kim 和 Osama Abdin 開發了 PepFlow,這是一種可轉移生成模型,它能夠從輸入肽的允許構象空間中直接進行全原子采樣。研究人員在擴散架構中訓練模型,然後使用等效流進行構象采樣。
為了克服廣義全原子模組化的成本過高,他們子產品化了生成過程并內建了超網絡來預測序列特定的網絡參數。PepFlow 可準确預測肽結構,并有效重制實驗肽集合,所需運作時間僅為傳統方法的一小部分。PepFlow 還可用于對滿足大環化等限制的構象進行采樣。
「到目前為止,我們還無法模拟肽的全部構象。」這項研究的第一作者 Osama Abdin 說道,「PepFlow 利用深度學習在幾分鐘内捕捉到肽的精确構象。該模型有可能通過設計作為粘合劑的肽來指導藥物開發。」
該研究以「Direct conformational sampling from peptide energy landscapes through hypernetwork-conditioned diffusion」為題,于 2024 年 6 月 27 日釋出在《Nature Machine Intelligence》。
蛋白質-肽互相作用在分子通路中普遍存在,是許多細胞功能不可或缺的一部分。據估計,高達 40% 的蛋白質-蛋白質互相作用是由肽結合介導的。這些互相作用涉及球狀蛋白質與通常位于無序區域的短片段的結合。短肽還具有多種特性,使其适合于治療開發。
與小分子相比,肽往往更具特異性,毒性風險較低。與大型生物制劑相比,肽的生産成本更低,且免疫原性更低。肽療法在醫藥市場中占有相當大的份額。目前,需要計算工具來加快肽的模組化和工程設計。
「肽是 PepFlow 模型的重點,因為它們是非常重要的生物分子,而且它們自然非常活躍,是以我們需要模拟它們的不同構象來了解它們的功能。」多倫多大學教授 Philip M. Kim 表示,「它們在治療方面也發揮着重要作用,從用于治療糖尿病和肥胖症的 GLP1 類似物(如 Ozempic)就可以看出這一點。」
Philip M. Kim 和 Osama Abdin 提出了一種可用于肽構象直接全原子采樣的方法。即使對于短肽,進行準确而高效的全原子采樣也是一項巨大的挑戰。
圖示:PepFlow 架構示意圖。(來源:論文)
為了解決這個問題,他們開發了 PepFlow,這是一個子產品化、超網絡條件的生成模型,可以預測任何輸入肽序列的全原子構象。PepFlow 是在已知分子構象上進行訓練的連續時間擴散模型。相應的機率流 ODE 則用于能量采樣和訓練。
PepFlow 具有強大的預測單态肽結構和短線性基序集合 (SLiM) 的能力,并且可以通過潛在空間構象搜尋在諸如大環化等限制條件下對肽結構進行模組化。
該模型擴充了領先的 Google Deepmind AI 系統 AlphaFold 預測蛋白質結構的能力。PepFlow 可以生成給定肽的一系列構象,進而優于 AlphaFold2;當然 AlphaFold2 的設計初衷并不是解決這一問題。
PepFlow 的與衆不同之處在于其背後的技術創新。例如,它是一種廣義模型,其靈感來自玻爾茲曼生成器,這是一種非常先進的基于實體的機器學習模型。
「使用 PepFlow 模組化可以深入了解肽的真實能量狀況。」Abdin 說,「開發 PepFlow 花了兩年半的時間,訓練它隻花了一個月的時間,但值得邁向下一個前沿,超越僅預測肽的一種結構的模型。」
整體而言,準确高效地對肽構象進行采樣的能力有可能改善肽對接和設計。肽對接方法通常從與目标蛋白對接的肽構象庫開始。更精确的肽集合生成也許能改善這一過程。
PepFlow 還可用于評估不同序列在目标蛋白質 - 蛋白質界面上呈現構象的傾向,進而可用于設計抑制肽。
圖示:PepFlow 生成的集合與分子動力學模拟的比較。(來源:論文)
雖然 PepFlow 在 AlphaFold2 的基礎上有所改進,但它本身也有局限性,因為這隻是模型的第一個版本。
PepFlow 有一個顯著缺點,與玻爾茲曼生成器不同,PepFlow 缺乏對生成的樣本重新權重以達到精确的玻爾茲曼分布的能力。
雖然 PepFlow 能夠對生成的樣本進行似然計算,但可處理的計算需要使用随機估計器,這會給計算值添加噪聲。此外,PepFlow 偶爾會生成高能樣本,但無法捕獲分子動力學模拟中觀察到的全部能量景觀。
改進 PepFlow 的一個潛在方法是将開發的模型轉移到其他采樣架構。在條件設定中使用了标準化流,并使用了不同的采樣方法,以促進從玻爾茲曼分布中進行采樣。
最近學界開發的流比對範式,進一步作為以無模拟方式訓練連續規範化流模型的替代方法。流動比對已被有效用于不同分子(包括小分子和蛋白質)的結構采樣,并可潛在地用于擴充 PepFlow 架構的有效性。
總之,PepFlow 的設計目标是易于擴充,以考慮其他因素、新資訊和潛在用途。
即使隻是第一個版本,PepFlow 也是一個全面而有效的模型,具有進一步開發依賴肽結合來激活或抑制生物過程的治療方法的潛力。
論文連結:https://www.nature.com/articles/s42256-024-00860-4
相關報道:https://phys.org/news/2024-06-deep-outperforms-google-ai-peptide.html