天天看點

AlphaFold3:生物分子預測的大一統工具?

作者:返樸
AlphaFold3:生物分子預測的大一統工具?

2024年5月8日,谷歌DeepMind AlphaFold團隊聯合Isomorphic Labs公司在《自然》(Nature)雜志上發表了題為“Accurate structure prediction of biomolecular interactions with AlphaFold 3”的論文[1],推出了全新的能夠準确預測蛋白質、DNA、RNA、小分子配體結構以及它們互相作用模式的結構預測工具AlphaFold3,并期望能夠轉變科學界對于生物世界以及藥物發現的了解。

撰文 | 劉安吉

在每一個植物、動物和人類細胞内部,都存在着數十億個分子機器。這些機器由蛋白質、DNA及其他分子組成,但沒有任何單一部分可以獨立工作。隻有觀察它們如何在數百萬種組合中互相作用,我們才能開始真正了解生命的過程。

AlphaFold3:生物分子預測的大一統工具?

AlphaFold3是一個具有革命性的新模型,它的革命性展現在兩個方面:廣泛性和準确性。首先,在先前的結構預測工作當中(包括AlphaFold2),結構預測工具往往隻針對某種特定的生物分子,比如蛋白質結構預測或者RNA結構預測,但AlphaFold3具有預測幾乎所有生命分子的結構和互相作用的功能,其廣泛性可見一斑。其次,在實作了廣泛性的同時,對于結構預測的準确性也有長足的進步,對于蛋白質與其他分子類型的互相作用,與現有預測方法相比,實作了至少50%的改進,而對于一些重要的互相作用類别,AlphaFold3的預測準确度實作了翻倍。

AlphaFold3:生物分子預測的大一統工具?

目前,AlphaFold3向科學界免費開放了AlphaFold Server,其中包含了AlphaFold3的大部分功能,供科學家進行結構預測。Alphafold Server的連結如下:https://golgi.sandbox.google.com/about。總體來說,Alphafold Server的界面使用簡單,可視化程度良好,使用者可以在網站上送出各種不同的生物分子的序列,輕松地進行結構預測。網站的序列輸入界面與結果展現界面如下:

AlphaFold3:生物分子預測的大一統工具?
AlphaFold3:生物分子預測的大一統工具?

(上)AlphaFold Server序列輸入界面;(下)AlphaFold Server結果展示界面

本篇文章将解答三個問題:

1. AlphaFold3做了哪些改進?

2. AlphaFold3的預測結果提升大嗎?

3. AlphaFold3還有哪些需要改進的問題?

AlphaFold3的改進

在2021年7月15日,谷歌DeepMind AlphaFold2的論文發表在《自然》雜志上[2]。AlphaFold2作為基于深度學習的結構預測工具,能夠以很高的準确度預測蛋白質的結構。蛋白質的功能主要取決于蛋白質的結構,确定蛋白質折疊成何種形狀被稱為“蛋白質折疊問題”,這一問題在過去50年裡一直是生物學中的一個重大挑戰。而AlphaFold2在結構預測比賽CASP中,取得了令人眼前一亮的成績,不僅展現了人工智能在結構預測上的巨大潛力,也掀起了使用人工智能對蛋白質進行模組化的浪潮,使得蛋白質模組化和設計的應用範圍大大擴充。

AlphaFold3:生物分子預測的大一統工具?
AlphaFold3:生物分子預測的大一統工具?

(左上)曆屆CASP冠軍表現 (右上)AlphaFold2預測結果與實驗結果的對比

(下)蛋白質巨大的搜尋空間丨圖檔來自AlphaFold官網:https://deepmind.google/technologies/alphafold/

在AlphaFold推出之後,整個領域出現了井噴式的繁榮,很多後續的方法都或多或少采用了AlphaFold2的思想或者技術。比如有研究發現簡單地改變輸入可以實作更好的預測結果[3],也有研究發現,在蛋白質互相作用預測上,重新訓練一個AlphaFold2也可以實作很不錯的結果[4]。

AlphaFold3:生物分子預測的大一統工具?

AlphaFold2架構圖[2]

AlphaFold3:生物分子預測的大一統工具?

AlphaFold3架構圖[1]

AlphaFold3也是基于AlphaFold2進行了改進,目标則是将針對不同生物分子的工具統一到一個神經網絡中,實作單一神經網絡架構預測所有生物分子結構。基于這個目标,研究團隊做了如下改進,以便包含更廣泛的化學結構并提高資料的使用效率:

1. 減少了多序列比對(Multiple Sequence Alignment, MSA)子產品的數量:AlphaFold2後續的研究發現,AlphaFold2的運算時間和資源占用大部分都是由MSA子產品導緻的。

2. 将AlphaFold2中的編碼器EvoFormer用更簡單的編碼器Pairformer代替,減少對MSA資訊的依賴,更多地依靠pair資訊。

3. 引入了擴散子產品(Diffusion Module),代替了AlphaFold2中的結構子產品(Structural Module)。新的擴散子產品可以直接預測原子坐标,而結構子產品需要給予特定的氨基酸架構和側鍊扭轉角進行操作。擴散過程的多尺度特性還使得AlphaFold3能夠消除立體化學損失,并在網絡中減少對鍵合模式的特殊處理,進而輕松适應任意化學成分。

AlphaFold3:生物分子預測的大一統工具?

AlphaFold2的EvoFormer架構[2]

AlphaFold3:生物分子預測的大一統工具?

AlphaFold3的PairFormer[1]

AlphaFold3的預測結果

AF3能夠從輸入的聚合物序列、殘基修飾和配體SMILES預測結構。下圖中展示了一系列示例,突出了AF3在許多生物學重要和治療相關模式上的泛化能力。

AlphaFold3:生物分子預測的大一統工具?

(a) 蛋白質-核酸複合體 (b) 糖基化修飾 (c)抗體-多肽複合體 (def)小分子抑制劑-蛋白複合體

為了衡量AF3在預測不同生物分子結構上的表現,研究者分别在蛋白質-配體互相作用、蛋白質-核酸複合體、RNA結構、共價修飾、蛋白複合體四個任務上對AF3的準确性進行了測量。

AlphaFold3:生物分子預測的大一統工具?

對于蛋白質-配體互相作用預測,AF3在PoseBusters[5]基準資料集上進行測試。在蛋白質-配體互相作用任務上,主要有兩類模型:一類僅使用蛋白質序列和配體SMILES作為輸入;另一類還額外使用已解決的蛋白質-配體測試結構的資訊。AF3隻采用第一類序列資訊,傳統的分子對接利用第二類蛋白配體結構資訊,但是AF3的表現卻遠超傳統的對接方法(如上圖中的Autodock Vina[6])。今年3月,David Baker實驗室推出了RoseTTAFold-All-Atom(RFAA)模型[7],也是利用深度學習的方法,對各種生物大分子的結構進行預測。但是,在PoseBuster資料集上,AF3的表現比RFAA要優秀很多。

對于蛋白質-核酸複合體結構預測,目前最好的預測方法是David Baker實驗室開發的RoseTTAFold2NA[8]。從下圖中可以看出,AF3在蛋白質-RNA複合體結構預測任務和蛋白質-雙鍊RNA結構預測任務上,表現都比RoseTTAFold2NA好很多。

對于RNA結構預測,目前比較好的基于人工智能的方法有RoseTTAFold2NA和AIchemy_RNA[9](後者是CASP15競賽中最好的基于人工智能的方法)。AF3在10個公開可獲得的CASP15競賽中的RNA靶标上進行了測試,雖然沒有達到由人類專家輔助的AIchemy_RNA2[10]方法,但是取得了比RoseTTAFold2NA和AIchemy_RNA更好的結果,如上圖所示。

對于共價修飾,例如鍵結合的配體、糖基化、蛋白殘基的修飾等,AF3也能得到很好的預測。

對于蛋白質複合體預測,先前的AlphaFold multimer4的結果有些許不盡如人意;在AF3中,蛋白質複合體的預測準确度也獲得了提高。在蛋白質複合體領域,AF3更聚焦于蛋白質-抗體複合物的結構預測,在這方面的預測精确度有了極大的提升。

AlphaFold3的局限性

不可否認,AF3在結構預測方法取得了很大的突破,但同時也存在一些局限性。局限性主要展現在四個方面:立體化學 (stereochemistry)、幻覺效應 (Hallucinations)、動态性 (dynamics) 以及對某些目标的準确性。

在立體化學 (stereochemistry) 方面,主要有兩方面的問題。首先,AF3模型輸出的手性(chirality)不總是對的。盡管模型輸入的蛋白質的手性是正确的,并且模型在訓練過程中對手性錯誤添加了懲罰項,但在PoseBuster這個資料集上進行預測,還是會出現手性出錯的問題(4.4%)。第二類立體化學違規現象是模型有時會在預測中産生重疊(“沖突”)原子的傾向,對于具有同源性的蛋白,這種結構上的重疊更加常見,有時會觀察到整條鍊的重疊。在模型訓練過程中,對重疊進行懲罰會減輕輸出結構中的重疊現象,但是無法完全消除。

AlphaFold3:生物分子預測的大一統工具?

AF3預測蛋白中的重疊現象

因為AF3引入了擴散模型,而擴散模型很容易出現幻覺效應 (Hallucinations)。對于AF3來說,蛋白質中的無序區會出現虛假的結構序列。雖然這些幻覺區域通常被标記為非常低的置信度,但它們可能缺乏AlphaFold 2在無序區域産生的典型帶狀外觀。為了在AF3中鼓勵類似帶狀的預測,研究者使用了從AlphaFold 2預測中的蒸餾訓練,并且添加了一個排名項,以鼓勵結果顯示更多的溶劑可接觸表面積。

AlphaFold3:生物分子預測的大一統工具?

AF3中的幻覺效應

對于蛋白質結構預測任務說,通常預測的結構是靜态的結構,然而在生物體系中,蛋白質常常呈現動态的結構。在AF3中,這個問題仍然存在,AF3還是隻能預測蛋白質的靜态結構。

對于一些特定的情況來說,在給定配體的情況下,預測蛋白質的構象可能并不能和配體很好地對應。例如,E3泛素化連接配接酶不結合配體的情況下是打開的構象(open conformation),在結合配體的情況下是關閉的構象(close conformation),但是不管是否給定配體,AF3隻能預測得到關閉的構象(close conformation)。

AlphaFold3:生物分子預測的大一統工具?

AF3預測蛋白中無法産生動态性

是以,雖然AF3在模組化準确率方面有很大的提高,但是還是有很多靶點蛋白很難進行模組化。想要得到最高準确率的結果,最好的方法是生成大量的預測結果,并對這些預測結果進行排序。正如下圖所示,随着生成的預測結構的增加,預測結果的準确度一直在提高,甚至到了1000次,曲線似乎還沒有收斂。

AlphaFold3:生物分子預測的大一統工具?

讨論

分子生物學的核心挑戰是了解并最終調控生物系統的複雜原子互相作用。AlphaFold3在這方面邁出了一大步,證明了在統一的架構中準确預測各種生物分子系統的結構是可能的。AlphaFold3減少了對MSA的依賴,是以可以很快完成結構預測。AlphaFold3也有一些局限,之後的提升一方面需要計算機領域的進展,另一方面也需要實驗結構解析方面的進步,例如冷凍電子顯微鏡(Cryo-EM)和冷凍電子斷層成像(Cryo-ET)。實驗解析技術的進步會帶來更多高品質蛋白質複合體結構,而這些蛋白質複合體結構可以作為訓練資料,進一步提高模型的泛化能力。是以,實驗技術的發展和計算方法的發展是同步進行的,兩者齊頭并進,才能帶動我們更好地了解生物世界,開發出具有更好療效的藥物。

原文連結:

https://www.nature.com/articles/s41586-024-07487-w

AlphaFold Server連結:

https://golgi.sandbox.google.com/about

參考文獻

[1] Abramson, J. et al. Accurate structure prediction of biomolecular interactions with AlphaFold 3. Nature (2024) doi:10.1038/s41586-024-07487-w.

[2] Jumper, J. et al. Highly accurate protein structure prediction with AlphaFold. Nature 596, 583–589 (2021).

[3] Bryant, P., Pozzati, G. & Elofsson, A. Improved prediction of protein-protein interactions using AlphaFold2. Nat. Commun. 13, 1265 (2022).

[4] Evans, R. et al. Protein complex prediction with AlphaFold-Multimer. Preprint at https://doi.org/10.1101/2021.10.04.463034 (2021).

[5] Buttenschoen, M., Morris, G. M. & Deane, C. M. PoseBusters: AI-based docking methods fail to generate physically valid poses or generalise to novel sequences. (2023) doi:10.48550/ARXIV.2308.05777.

[6] Trott, O. & Olson, A. J. AutoDock Vina: Improving the speed and accuracy of docking with a new scoring function, efficient optimization, and multithreading. J. Comput. Chem. 31, 455–461 (2010).

[7] Krishna, R. et al. Generalized Biomolecular Modeling and Design with RoseTTAFold All-Atom. http://biorxiv.org/lookup/doi/10.1101/2023.10.09.561603 (2023) doi:10.1101/2023.10.09.561603.

[8] Baek, M. et al. Accurate prediction of protein–nucleic acid complexes using RoseTTAFoldNA. Nat. Methods 21, 117–121 (2024).

[9] Shen, T. et al. E2Efold-3D: End-to-End Deep Learning Method for accurate de novo RNA 3D Structure Prediction. (2022) doi:10.48550/ARXIV.2207.01586.

[10] Chen, K., Zhou, Y., Wang, S. & Xiong, P. RNA tertiary structure modeling with BRiQ potential in CASP15. Proteins Struct. Funct. Bioinforma. 91, 1771–1778 (2023).

本文經授權轉載自微信公衆号“北京生物結構前沿研究中心”。

特 别 提 示

1. 進入『返樸』微信公衆号底部菜單“精品專欄“,可查閱不同主題系列科普文章。

2. 『返樸』提供按月檢索文章功能。關注公衆号,回複四位數組成的年份+月份,如“1903”,可擷取2019年3月的文章索引,以此類推。

繼續閱讀