天天看点

AlphaFold3:生物分子预测的大一统工具?

作者:返朴
AlphaFold3:生物分子预测的大一统工具?

2024年5月8日,谷歌DeepMind AlphaFold团队联合Isomorphic Labs公司在《自然》(Nature)杂志上发表了题为“Accurate structure prediction of biomolecular interactions with AlphaFold 3”的论文[1],推出了全新的能够准确预测蛋白质、DNA、RNA、小分子配体结构以及它们相互作用模式的结构预测工具AlphaFold3,并期望能够转变科学界对于生物世界以及药物发现的理解。

撰文 | 刘安吉

在每一个植物、动物和人类细胞内部,都存在着数十亿个分子机器。这些机器由蛋白质、DNA及其他分子组成,但没有任何单一部分可以独立工作。只有观察它们如何在数百万种组合中相互作用,我们才能开始真正理解生命的过程。

AlphaFold3:生物分子预测的大一统工具?

AlphaFold3是一个具有革命性的新模型,它的革命性体现在两个方面:广泛性和准确性。首先,在先前的结构预测工作当中(包括AlphaFold2),结构预测工具往往只针对某种特定的生物分子,比如蛋白质结构预测或者RNA结构预测,但AlphaFold3具有预测几乎所有生命分子的结构和相互作用的功能,其广泛性可见一斑。其次,在实现了广泛性的同时,对于结构预测的准确性也有长足的进步,对于蛋白质与其他分子类型的相互作用,与现有预测方法相比,实现了至少50%的改进,而对于一些重要的相互作用类别,AlphaFold3的预测准确度实现了翻倍。

AlphaFold3:生物分子预测的大一统工具?

目前,AlphaFold3向科学界免费开放了AlphaFold Server,其中包含了AlphaFold3的大部分功能,供科学家进行结构预测。Alphafold Server的链接如下:https://golgi.sandbox.google.com/about。总体来说,Alphafold Server的界面使用简单,可视化程度良好,用户可以在网站上提交各种不同的生物分子的序列,轻松地进行结构预测。网站的序列输入界面与结果展现界面如下:

AlphaFold3:生物分子预测的大一统工具?
AlphaFold3:生物分子预测的大一统工具?

(上)AlphaFold Server序列输入界面;(下)AlphaFold Server结果展示界面

本篇文章将解答三个问题:

1. AlphaFold3做了哪些改进?

2. AlphaFold3的预测结果提升大吗?

3. AlphaFold3还有哪些需要改进的问题?

AlphaFold3的改进

在2021年7月15日,谷歌DeepMind AlphaFold2的论文发表在《自然》杂志上[2]。AlphaFold2作为基于深度学习的结构预测工具,能够以很高的准确度预测蛋白质的结构。蛋白质的功能主要取决于蛋白质的结构,确定蛋白质折叠成何种形状被称为“蛋白质折叠问题”,这一问题在过去50年里一直是生物学中的一个重大挑战。而AlphaFold2在结构预测比赛CASP中,取得了令人眼前一亮的成绩,不仅展现了人工智能在结构预测上的巨大潜力,也掀起了使用人工智能对蛋白质进行建模的浪潮,使得蛋白质建模和设计的应用范围大大扩展。

AlphaFold3:生物分子预测的大一统工具?
AlphaFold3:生物分子预测的大一统工具?

(左上)历届CASP冠军表现 (右上)AlphaFold2预测结果与实验结果的对比

(下)蛋白质巨大的搜索空间丨图片来自AlphaFold官网:https://deepmind.google/technologies/alphafold/

在AlphaFold推出之后,整个领域出现了井喷式的繁荣,很多后续的方法都或多或少采用了AlphaFold2的思想或者技术。比如有研究发现简单地改变输入可以实现更好的预测结果[3],也有研究发现,在蛋白质相互作用预测上,重新训练一个AlphaFold2也可以实现很不错的结果[4]。

AlphaFold3:生物分子预测的大一统工具?

AlphaFold2架构图[2]

AlphaFold3:生物分子预测的大一统工具?

AlphaFold3架构图[1]

AlphaFold3也是基于AlphaFold2进行了改进,目标则是将针对不同生物分子的工具统一到一个神经网络中,实现单一神经网络框架预测所有生物分子结构。基于这个目标,研究团队做了如下改进,以便包含更广泛的化学结构并提高数据的使用效率:

1. 减少了多序列比对(Multiple Sequence Alignment, MSA)模块的数量:AlphaFold2后续的研究发现,AlphaFold2的运算时间和资源占用大部分都是由MSA模块导致的。

2. 将AlphaFold2中的编码器EvoFormer用更简单的编码器Pairformer代替,减少对MSA信息的依赖,更多地依靠pair信息。

3. 引入了扩散模块(Diffusion Module),代替了AlphaFold2中的结构模块(Structural Module)。新的扩散模块可以直接预测原子坐标,而结构模块需要给予特定的氨基酸框架和侧链扭转角进行操作。扩散过程的多尺度特性还使得AlphaFold3能够消除立体化学损失,并在网络中减少对键合模式的特殊处理,从而轻松适应任意化学成分。

AlphaFold3:生物分子预测的大一统工具?

AlphaFold2的EvoFormer架构[2]

AlphaFold3:生物分子预测的大一统工具?

AlphaFold3的PairFormer[1]

AlphaFold3的预测结果

AF3能够从输入的聚合物序列、残基修饰和配体SMILES预测结构。下图中展示了一系列示例,突出了AF3在许多生物学重要和治疗相关模式上的泛化能力。

AlphaFold3:生物分子预测的大一统工具?

(a) 蛋白质-核酸复合体 (b) 糖基化修饰 (c)抗体-多肽复合体 (def)小分子抑制剂-蛋白复合体

为了衡量AF3在预测不同生物分子结构上的表现,研究者分别在蛋白质-配体相互作用、蛋白质-核酸复合体、RNA结构、共价修饰、蛋白复合体四个任务上对AF3的准确性进行了测量。

AlphaFold3:生物分子预测的大一统工具?

对于蛋白质-配体相互作用预测,AF3在PoseBusters[5]基准数据集上进行测试。在蛋白质-配体相互作用任务上,主要有两类模型:一类仅使用蛋白质序列和配体SMILES作为输入;另一类还额外使用已解决的蛋白质-配体测试结构的信息。AF3只采用第一类序列信息,传统的分子对接利用第二类蛋白配体结构信息,但是AF3的表现却远超传统的对接方法(如上图中的Autodock Vina[6])。今年3月,David Baker实验室推出了RoseTTAFold-All-Atom(RFAA)模型[7],也是利用深度学习的方法,对各种生物大分子的结构进行预测。但是,在PoseBuster数据集上,AF3的表现比RFAA要优秀很多。

对于蛋白质-核酸复合体结构预测,目前最好的预测方法是David Baker实验室开发的RoseTTAFold2NA[8]。从下图中可以看出,AF3在蛋白质-RNA复合体结构预测任务和蛋白质-双链RNA结构预测任务上,表现都比RoseTTAFold2NA好很多。

对于RNA结构预测,目前比较好的基于人工智能的方法有RoseTTAFold2NA和AIchemy_RNA[9](后者是CASP15竞赛中最好的基于人工智能的方法)。AF3在10个公开可获得的CASP15竞赛中的RNA靶标上进行了测试,虽然没有达到由人类专家辅助的AIchemy_RNA2[10]方法,但是取得了比RoseTTAFold2NA和AIchemy_RNA更好的结果,如上图所示。

对于共价修饰,例如键结合的配体、糖基化、蛋白残基的修饰等,AF3也能得到很好的预测。

对于蛋白质复合体预测,先前的AlphaFold multimer4的结果有些许不尽如人意;在AF3中,蛋白质复合体的预测准确度也获得了提高。在蛋白质复合体领域,AF3更聚焦于蛋白质-抗体复合物的结构预测,在这方面的预测精确度有了极大的提升。

AlphaFold3的局限性

不可否认,AF3在结构预测方法取得了很大的突破,但同时也存在一些局限性。局限性主要体现在四个方面:立体化学 (stereochemistry)、幻觉效应 (Hallucinations)、动态性 (dynamics) 以及对某些目标的准确性。

在立体化学 (stereochemistry) 方面,主要有两方面的问题。首先,AF3模型输出的手性(chirality)不总是对的。尽管模型输入的蛋白质的手性是正确的,并且模型在训练过程中对手性错误添加了惩罚项,但在PoseBuster这个数据集上进行预测,还是会出现手性出错的问题(4.4%)。第二类立体化学违规现象是模型有时会在预测中产生重叠(“冲突”)原子的倾向,对于具有同源性的蛋白,这种结构上的重叠更加常见,有时会观察到整条链的重叠。在模型训练过程中,对重叠进行惩罚会减轻输出结构中的重叠现象,但是无法完全消除。

AlphaFold3:生物分子预测的大一统工具?

AF3预测蛋白中的重叠现象

因为AF3引入了扩散模型,而扩散模型很容易出现幻觉效应 (Hallucinations)。对于AF3来说,蛋白质中的无序区会出现虚假的结构序列。虽然这些幻觉区域通常被标记为非常低的置信度,但它们可能缺乏AlphaFold 2在无序区域产生的典型带状外观。为了在AF3中鼓励类似带状的预测,研究者使用了从AlphaFold 2预测中的蒸馏训练,并且添加了一个排名项,以鼓励结果显示更多的溶剂可接触表面积。

AlphaFold3:生物分子预测的大一统工具?

AF3中的幻觉效应

对于蛋白质结构预测任务说,通常预测的结构是静态的结构,然而在生物体系中,蛋白质常常呈现动态的结构。在AF3中,这个问题仍然存在,AF3还是只能预测蛋白质的静态结构。

对于一些特定的情况来说,在给定配体的情况下,预测蛋白质的构象可能并不能和配体很好地对应。例如,E3泛素化连接酶不结合配体的情况下是打开的构象(open conformation),在结合配体的情况下是关闭的构象(close conformation),但是不管是否给定配体,AF3只能预测得到关闭的构象(close conformation)。

AlphaFold3:生物分子预测的大一统工具?

AF3预测蛋白中无法产生动态性

所以,虽然AF3在建模准确率方面有很大的提高,但是还是有很多靶点蛋白很难进行建模。想要得到最高准确率的结果,最好的方法是生成大量的预测结果,并对这些预测结果进行排序。正如下图所示,随着生成的预测结构的增加,预测结果的准确度一直在提高,甚至到了1000次,曲线似乎还没有收敛。

AlphaFold3:生物分子预测的大一统工具?

讨论

分子生物学的核心挑战是理解并最终调控生物系统的复杂原子相互作用。AlphaFold3在这方面迈出了一大步,证明了在统一的框架中准确预测各种生物分子系统的结构是可能的。AlphaFold3减少了对MSA的依赖,所以可以很快完成结构预测。AlphaFold3也有一些局限,之后的提升一方面需要计算机领域的进展,另一方面也需要实验结构解析方面的进步,例如冷冻电子显微镜(Cryo-EM)和冷冻电子断层成像(Cryo-ET)。实验解析技术的进步会带来更多高质量蛋白质复合体结构,而这些蛋白质复合体结构可以作为训练数据,进一步提高模型的泛化能力。所以,实验技术的发展和计算方法的发展是同步进行的,两者齐头并进,才能带动我们更好地理解生物世界,开发出具有更好疗效的药物。

原文链接:

https://www.nature.com/articles/s41586-024-07487-w

AlphaFold Server链接:

https://golgi.sandbox.google.com/about

参考文献

[1] Abramson, J. et al. Accurate structure prediction of biomolecular interactions with AlphaFold 3. Nature (2024) doi:10.1038/s41586-024-07487-w.

[2] Jumper, J. et al. Highly accurate protein structure prediction with AlphaFold. Nature 596, 583–589 (2021).

[3] Bryant, P., Pozzati, G. & Elofsson, A. Improved prediction of protein-protein interactions using AlphaFold2. Nat. Commun. 13, 1265 (2022).

[4] Evans, R. et al. Protein complex prediction with AlphaFold-Multimer. Preprint at https://doi.org/10.1101/2021.10.04.463034 (2021).

[5] Buttenschoen, M., Morris, G. M. & Deane, C. M. PoseBusters: AI-based docking methods fail to generate physically valid poses or generalise to novel sequences. (2023) doi:10.48550/ARXIV.2308.05777.

[6] Trott, O. & Olson, A. J. AutoDock Vina: Improving the speed and accuracy of docking with a new scoring function, efficient optimization, and multithreading. J. Comput. Chem. 31, 455–461 (2010).

[7] Krishna, R. et al. Generalized Biomolecular Modeling and Design with RoseTTAFold All-Atom. http://biorxiv.org/lookup/doi/10.1101/2023.10.09.561603 (2023) doi:10.1101/2023.10.09.561603.

[8] Baek, M. et al. Accurate prediction of protein–nucleic acid complexes using RoseTTAFoldNA. Nat. Methods 21, 117–121 (2024).

[9] Shen, T. et al. E2Efold-3D: End-to-End Deep Learning Method for accurate de novo RNA 3D Structure Prediction. (2022) doi:10.48550/ARXIV.2207.01586.

[10] Chen, K., Zhou, Y., Wang, S. & Xiong, P. RNA tertiary structure modeling with BRiQ potential in CASP15. Proteins Struct. Funct. Bioinforma. 91, 1771–1778 (2023).

本文经授权转载自微信公众号“北京生物结构前沿研究中心”。

特 别 提 示

1. 进入『返朴』微信公众号底部菜单“精品专栏“,可查阅不同主题系列科普文章。

2. 『返朴』提供按月检索文章功能。关注公众号,回复四位数组成的年份+月份,如“1903”,可获取2019年3月的文章索引,以此类推。

继续阅读