天天看点

恭喜张老师|张贵军课题组:蛋白质结构预测的最新进展与挑战

作者:生信宝典

2023年12月18日,张贵军课题组在Journal of Chemical Information and Modeling发表针对蛋白质结构预测的综述Recent Advances and Challenges in Protein Structure Prediction,主要讨论了在AlphaFold2出现后的一些主流方法。

恭喜张老师|张贵军课题组:蛋白质结构预测的最新进展与挑战

1 背景介绍

截至2023年6月,已有超过2.4亿个氨基酸序列被存入UniProt数据库,而只有大约20万个实验确定的蛋白质结构被存入蛋白质数据库(PDB),占总序列的不到0.1%。为了弥补这一差距,并探索未知蛋白质的潜在价值,科学家们已经转向了计算方法来预测蛋白质的三维结构。DeepMind和 EMBL’s European Bioinformatics Institute (EMBL-EBI)

构建了AlphaFold蛋白结构数据库(AlphaFold DB)。AlphaFold

DB已经发布了超过2亿个蛋白质结构结构,这些结构可以向全球科学界免费和开放。

近年来,人工智能在蛋白质结构预测领域取得了重大进展。特别是,DeepMind的端到端模型,AlphaFold2,已经证明了预测许多未知蛋白质的三维结构的能力,其精度水平可与那些实验方法相媲美。这一突破为理解蛋白质的结构和功能,以及加速药物的发现和其他在生物学和医学领域的应用开辟了新的可能性。尽管人工智能在该领域取得了显著的成就,但仍存在一些挑战和局限性。本文就蛋白质结构预测的研究进展和一些挑战进行了综述。这些挑战包括预测多结构域的蛋白质结构、蛋白质复合物结构、蛋白质的多种构象状态和蛋白质折叠途径。此外,还强调了可以进行进一步改进的方向。图1显示了过去几年来的一些蛋白质结构预测方法。

恭喜张老师|张贵军课题组:蛋白质结构预测的最新进展与挑战

图1. 使用一些主要的蛋白质结构预测方法的时间线。不同颜色的方框表示方法的类别

在CASP14之前,蛋白质结构预测方法主要分为两大类:template-based modeling(TBM)和free modeling (FM)。在过去的两年里,这两种方法的分类标准变得越来越模糊。随着深度学习技术的快速发展和应用,特别是随着端到端预测方法的出现,蛋白质结构预测方法往往结合各种方法的优势,产生与实验结构相媲美的蛋白质三维原子结构。在AlphaFold2出现的两年内,AlphaFold2在生物学和医学上的许多成功应用已经被报道,显示了其巨大的影响和革命性的潜力。这些研究进一步强调了开发高精度的蛋白质结构预测方法的重要性和必要性。得益于AlphaFold2的突破,许多研究小组在CASP15中以各种方式适应或整合了AlphaFold2。

简而言之,有几个主要方法来提高标准AlphaFold2,如使用不同的策略或扩大数据库产生更丰富的多序列比对(MSA)信息,更有效地使用模板,修改AlphaFold2使用更多的模型,或结合距离和约束从AlphFold2模型到其他方法,这进一步提高了对单个蛋白质和结构域结构的预测。

如图2A所示,服务器组中所有CASP14的最佳模型的平均GDT_TS为67.94,而CASP15的最佳模型的平均GDT_TS为85.34,比CASP14增加了25.6%。此外,在CASP15中,来自服务器组的最佳模型的平均GDT_TS接近于人类组,甚至超过了FM的人类组,如图2C所示。这也表明,这些人工智能模型和计算方法在一定程度上学习到人类的知识。

恭喜张老师|张贵军课题组:蛋白质结构预测的最新进展与挑战

图2. CASP14和CASP15的结构预测结果总结。(A−C)分别对所有类型、TBM和FM的结果。横轴代表不同的组,纵轴代表每个类型的最佳模型。这里提供的数据来自于CASP的官方网站

2 蛋白质结构预测方法的研究进展

有些方法使用深度学习技术来推断蛋白质结构的空间约束,如接触、距离、方向和残基之间的氢键。这些推断出的约束条件与基于知识或物理的力场相结合。最后,采用优化方法,如基于蒙特卡罗的和基于梯度下降的折叠引擎,对能量最低的构象进行采样。接触/距离辅助几何优化蛋白质结构预测方法的流程图如图3所示。表1列出了上面讨论的带有深度学习预测约束的几何优化建模方法的链接,允许读者轻松地访问这些资源。

恭喜张老师|张贵军课题组:蛋白质结构预测的最新进展与挑战

图3. 接触/距离辅助几何优化蛋白质结构预测方法的总体流程图

表1. 综述中讨论的人工智能接触距离结构预测几何优化建模方法列表

恭喜张老师|张贵军课题组:蛋白质结构预测的最新进展与挑战

端到端蛋白质结构预测方法利用深度学习技术直接从氨基酸序列预测三维结构。端到端网络模型主要关注输入序列和输出结构之间的关系。穆罕默德·阿尔拉提出的蛋白质结构预测的端到端深度学习结构的开创性尝试之一是循环几何网络(RGN)。RGN是一个端到端可微分模型,它通过微分原语优化输入到输出。神经能量建模和优化(NEMO)是由John Ingraham等人与RGN同时提出的端到端可微模型。NEMO可以预测蛋白质的空间特征,然后利用Langevin动力学和基于这些特征的原子推断网络来推断输入序列的原子坐标。最初,端到端方法的预测精度并没有明显高于使用AI接触-距离-结构预测模型的几何优化建模。然而,CASP14取得了突破。当时AlphaFold2利用端到端深度学习体系结构实现了高精度的蛋白质结构预测。这证明了使用端到端深度学习架构进行蛋白质结构预测的可行性,并使这些方法在该领域崛起。端到端蛋白质结构预测方法的一般流程图如图4所示。表2列出了这些方法的链接,因此读者可以访问这些有用的资源。

恭喜张老师|张贵军课题组:蛋白质结构预测的最新进展与挑战

图4.端到端蛋白质结构预测方法的总体流程图。

表2.讨论的端到端蛋白质结构预测方法一览表

恭喜张老师|张贵军课题组:蛋白质结构预测的最新进展与挑战

3 蛋白质结构预测方法的挑战

CASP14和CASP15的实验结果表明,在某些情况下,目前的蛋白质结构预测方法可以产生可与实验解析的结构相媲美的结构。在CASP14中,AlphaFold2以绝对领先的预测精度登顶,但在CASP15中,至少有40支队伍的预测精度超过了AlphaFold2。在排名最高的团队中,各种预测方法都不同程度地涉及到AlphaFold2,突出了AlphaFold2对蛋白质结构预测领域的显著影响。总的来说,AlphaFold2仍然是最先进的方法之一。

然而,AlphaFold2也有一些局限性。如所报道的,AlphaFold2的置信度得分与目标结构在PDB中是否具有同源物密切相关。其对孤儿蛋白的预测精度仍然有限。CASP主要通过结构域来评估蛋白质,并更多地关注蛋白质结构域的建模准确性。然而,蛋白质通常作为一个完整的单链结构来执行其功能。与单结构域蛋白结构相比,多结构域蛋白的建模似乎长期以来一直被该领域所忽视。为了引起人们对这个问题的关注,CASP在CASP14之后增加了域间预测评估。AlphaFold2对多结构域蛋白的预测精度不如对单个结构域的预测精度好。域间取向的预测是一个更具挑战性的问题。蛋白质在执行其功能时经常发生结构变化,特别是对于结构域之间经常相互作用以执行更复杂功能的多结构域蛋白质。蛋白质以多种构象存在,所有这些构象都与其功能作用和生物学影响有关。要实现对蛋白质功能的全面了解,就需要了解它们的各种结构状态和蛋白质折叠途径。然而,对蛋白质的所有构象状态进行建模仍然具有挑战性。此外,蛋白质单体可以与其他蛋白质形成复合物,导致结构变化,使蛋白质复合物的预测更具挑战性。除上述问题之外,蛋白质结构预测还存在许多未得到解决的核心挑战和困难。在这里,本文主要讨论了多结构域蛋白、蛋白−蛋白复合物、多构象状态和折叠途径这四个挑战。作者对这些方向进行了一些初步的探索,并对这些领域有了一些我们自己的见解。在接下来的章节中,作者将讨论当前的方法如何将蛋白质结构预测的这些方面结合起来,确定它们的局限性,并基于他们的见解提出潜在的解决方案。

统计数据显示,超过80%的真核蛋白和67%的原核蛋白是多结构域蛋白。大多数人类蛋白由一个以上的结构域组成。然而,PDB中只有大约三分之二的蛋白质结构是单结构域蛋白,可能是由于与多结构域蛋白相比,单结构域蛋白结构的实验测定更容易确定。结构域之间的相互作用在许多多结构域蛋白的高级功能中起着至关重要的作用,这可能不能通过单个结构域结构充分反映出来。因此,准确预测结构域−结构域的相互作用对于全面了解蛋白质功能和设计调节这些功能的新药至关重要。

主流的蛋白质结构预测方法往往忽略了多结构域蛋白质的全链结构建模和结构域取向预测。在CASP14之后,CASP引入了域间预测类别,值得注意的是,CASP的域间预测类别更关注域对,而忽略了具有弱接口的域对。在多结构域蛋白质中,如果对某些结构域间界面的预测错误,就会阻碍其他结构域形成正确的结构域间界面,从而导致无法形成正确的全链结构。正确预测多结构域蛋白质的全链模型更具挑战性,特别是对于结构域间相互作用较弱的蛋白质。即使是像AlphaFold2这样的先进方法在预测整个多结构域蛋白质方面也不如单个结构域的准确。如图5所示,AlphaFold2准确地预测了CASP15靶点T1120的2个结构域(T1120-D1和T1120-D2)的单个结构域结构,tm得分分别为0.90和0.87。然而,AlphaFold2直接预测的T1120全链构象的TM得分显著降低,且AlphaFold2直接预测的所有构象在三维结构上都相似。与单结构域蛋白相比,多结构域蛋白的MSA和同源物较少,PDB中用于训练(或学习)的多结构域蛋白数据也少得多,使得目前先进的预测方法(如AlphaFold2)倾向于单结构域结构预测。因此,开发有效的预测多结构域蛋白质结构和结构域间相互作用的方法是计算生物学中一项具有挑战性和重要的任务。表3列出了相关的方法。

恭喜张老师|张贵军课题组:蛋白质结构预测的最新进展与挑战

图5 CASP215多结构域蛋白靶标(T1120)上的AlphaFold2结构和蛋白结构域组装方法结构。

表3.本综述中讨论的多结构域蛋白质结构组装或预测方法一览表

恭喜张老师|张贵军课题组:蛋白质结构预测的最新进展与挑战

准确预测蛋白相互作用对于理解蛋白质功能和促进药物设计至关重要。蛋白−蛋白相互作用靶点是当今化学生物学和药物发现的主要挑战之一。自2002.124以来,CASP(capri)一直在衡量相关计算方法的准确性。同时,CASP在蛋白质结构预测领域取得了很大的进展。从2014年开始,CAPRI与CASP合作组织了联合比赛,突破了蛋白质复杂结构预测领域的极限。在CASP13-CAPRI实验中,与排名最高的对接解决方案相比,人类群体预测获得了50%的成功率。CASP14包含了几个具有挑战性的大而异构的蛋白,无法用经典的组装预测方法来解决。一些小组已经开始通过在其装配建模中实现深度学习预测约束来解决这些挑战。BAKER实验小组通过使用一种将经典技术(基于模板的建模、蛋白质对接)与基于深度学习的接触预测和折叠-对接方法相结合的方法,取得了最高的性能。此外,在AlphaFold2的深度学习革命之后,蛋白质复合物的建模已经成为当今结构生物学领域的一个突出的研究热点。

然而,目前在这一领域面临的挑战是双重的。首先,预测含有大量氨基酸的复合物,特别是那些高达3000个氨基酸的复合物,需要大量的计算资源。此外,由于内存使用量随着氨基酸数量(如AF_Multimer)的增长大致呈二次增长,这使得未来任何潜在的硬件进步都可能产生有限的影响。因此,迫切需要提供一种轻量级的方法来应对大规模复杂建模的挑战。其次,目前复杂的预测技术往往严重依赖于链间的协同进化信号。当成对的MSA较浅时,预测往往不令人满意,需要有效的策略来处理链间共同进化信息不足的情况,这是另一个重要的问题.对于蛋白质复合物的紊乱预测和宿主−病原体相互作用的预测也是目前该领域面临的挑战,主要原因是前者缺乏关于功能蛋白紊乱的数据,而后者缺乏共同进化信息。此外,在CASP15中,表现最好的组在不同类型中的预测精度不同,这可能是由于他们采用的建模策略不同。因此,为不同类型的复合物设计不同的建模策略也可能是一个值得注意的方向。

许多蛋白质以不同构象状态的系综存在。例如,转运体、152G蛋白偶联受体(GPCRs)和酶在从一种稳定状态到另一种稳定状态的功能转变过程中,它们的结构发生了微妙或显著的变化。阐明这些状态的结构对于阐明其功能机制和生物过程至关重要。例如,转运体通过打开和关闭细胞外和细胞内的门的运动来介导底物的载体易位。此外,在药物发现中,某些药物分子可能只能与蛋白质的特定状态结合。然而,目前大多数的蛋白质结构预测算法只专注于预测特定的蛋白质结构,而忽略了蛋白质不同状态的结构。即使使用了最先进的蛋白质结构预测方法,AlphaFold,预测的蛋白质结构模型在大多数情况下也基本相似。一个具有代表性的结构可能不能完全描述一种蛋白质及其生物学功能。

最近,一些研究试图预测蛋白质的多种构象状态的结构。在不同的构象态之间存在着能量势垒,可以通过某些方法来克服,如离子结合和伙伴分子。分子动力学模拟可以用于研究蛋白质动力学和不同构象态之间的转变。然而,使用分子动力学来模拟构象态之间的过渡轨迹可能需要巨大的计算成本,这对大型蛋白质来说是一个挑战。Jens Meiler等人提出,通过随机子抽样减少输入MSA的深度可以使AlphaFold2能够用于样本多个替代结构。虽然他们提出的方法尚未应用于大量的蛋白质,但正如他们所发现的那样,使用不同的MSA来产生不同的构象,可能是一种很有前途的多重构象状态建模策略。一定程度上,所有这些方法都通过使用和产生不同的空间约束来构建不同状态的结构,但也有必要开发新的深度学习方法来预测蛋白质的相关状态结构集合。作者设想了预测具有多个分布的距离图和不同分布之间的采样构象转换的可能性。然而,由于PDB中缺乏蛋白质的多种状态结构信息,阻碍了深度学习方法的学习或训练,这就提出了一个挑战。一个更具挑战性的任务是捕获由外部因素引起的构象变化,因为它们的共同进化信号很弱。此外,开发能够有效评价一个集成中多个状态结构的准确性和稳定性的模型质量评估方法是至关重要的。这些方法对于从集合中选择稳定的/备选的构象态和指导蛋白质构象变化的探索是必不可少的。

蛋白质折叠途径不仅影响蛋白质的功能,而且还影响其稳定性。许多疾病,如帕金森病和阿尔茨海默病是由折叠过程中蛋白质错误折叠引起的。了解蛋白质折叠的机制和途径对于促进药物的开发是必要的。本质上,蛋白质折叠是物理化学,序列本身决定了结构。然而,折叠机制相当复杂,蛋白质折叠也是一个开放的问题。目前,蛋白质折叠预测通常分为蛋白质结构预测和蛋白质途径预测。蛋白质结构预测问题的目的是基于氨基酸序列预测蛋白质的三维结构,而折叠路径预测的重点是细胞内蛋白质的折叠过程。随着蛋白质结构预测技术的突破,对蛋白质折叠途径的探索和预测引起了计算结构生物学界的广泛关注。人们提出了各种方法,包括模拟从自然状态到展开状态的逆折叠路径,使用机器学习预测早期折叠残基,以及基于模板预测蛋白质折叠中间体。虽然这些方法在一定程度上显示出了良好的结果,但准确预测蛋白质折叠途径仍然是一个挑战。其中一个主要的挑战是缺乏足够的数据来进行验证,这使得评估许多计算方法和应用许多机器学习方法变得困难。此外,蛋白质折叠途径也受到细胞环境中许多因素的影响,这使得其计算或模拟方法更加复杂。因此,整合先进的蛋白质结构预测方法,促进跨学科的沟通和协作,是推进蛋白质折叠途径预测的关键步骤。例如,我们能否预测蛋白质序列中残基相互作用的强度,并对相互作用强烈的残基进行局部结构预测?如果是这样,我们能否在序列中逐个添加相互作用较差的残基,并使用EMBER3D进行实时预测?此外,评估中间结构的置信度对折叠路径的研究也非常重要,这可能有助于我们选择合理的折叠路径或中间体。

4 总结

蛋白质是生命活动的主要载体,其3D的三维结构对于理解其生物学功能、设计药物和维持生命健康至关重要。安芬森证明了一个蛋白质的氨基酸序列包含了其三维结构的所有信息。自20世纪60年代以来,蛋白质结构预测一直是生物信息学中的一个热点和难题。学术界和工业界的努力,特别是在CASP系列事件中,已经导致了21世纪蛋白质结构预测的重大进步。AlphaFold2的出现将蛋白质结构预测问题带到了另一个层次,使预测的结构模型可以与实验求解的结构相媲美。CASP15的研究结果也证明了蛋白质结构预测方法的稳步发展和蓬勃发展。单结构域蛋白质结构预测的突破有望推动多结构域蛋白质预测的进展,进一步促进蛋白质复杂结构预测的发展。这些进展将对免疫学研究产生巨大的影响和益处。此外,焦点是从静态结构转移到动态结构。人工智能模型在数据有限的情况下建模动态结构可能存在困难,这意味着基于物理的模型与人工智能的结合也值得关注。

本文综述了近年来在蛋白质结构预测方面的研究进展,包括使用蛋白质语言模型直接从孤儿蛋白序列中学习结构信息或新的蛋白质预测。此外,本文还综述了高精度蛋白质结构预测方法的一些新应用。更重要的是,回顾总结了一些挑战,仍然存在的蛋白质结构预测和报告的一些方法正在开发来解决这些挑战,如多域蛋白质结构预测、蛋白质复杂结构预测,蛋白质多个构象结构预测/集成预测,和蛋白质折叠路径预测。此外,作者还结合了一些例子来说明这些问题的可行解决方案。综上所述,我们相信随着蛋白质结构预测方法的不断进步,它们将在生物学和医学中发挥越来越重要的作用。

参考资料:

https://pubs.acs.org/doi/epdf/10.1021/acs.jcim.3c01324

本文转载自【DrugPython】公众号

继续阅读