天天看点

3倍灵敏度,搜索百万蛋白对只需几秒,复旦等开发新的语言模型

作者:ScienceAI
3倍灵敏度,搜索百万蛋白对只需几秒,复旦等开发新的语言模型

编辑 | 萝卜皮

同源蛋白质搜索是蛋白质注释和分析最常用的方法之一。与结构搜索相比,仅从序列中检测远程进化关系仍然具有挑战性。

复旦大学、山东大学以及上海交通大学的研究团队提出了 PLMSearch(Protein Language Model),一种仅以序列作为输入的同源蛋白质搜索方法,能够捕获隐藏在序列后面的远程同源信息。

PLMSearch 可以像 MMseqs2 一样在几秒钟内搜索数百万个查询目标蛋白质对,同时将灵敏度提高三倍以上,可与当前最先进的结构搜索方法相媲美。此外,与传统的序列搜索方法不同,PLMSearch 可以召回具有不相似序列但结构相似的大多数远程同源对。

该研究以「PLMSearch: Protein language model powers accurate and fast sequence search for remote homology」为题,于 2024 年 3 月 30 日发布在《Nature Communications》。

3倍灵敏度,搜索百万蛋白对只需几秒,复旦等开发新的语言模型

同源蛋白质搜索是生物信息学领域的核心技术之一,它通过比较蛋白质序列来预测蛋白质的功能和相互作用。尽管基于序列相似性的搜索方法广泛应用,但它们在识别远程进化关系时仍存在挑战。此外,虽然结构搜索方法提供了更高的灵敏度,但获取蛋白质结构的成本和复杂性限制了它们的应用场景。

蛋白质语言模型(PLMs)虽然在结构相关任务中表现出优势,但在处理大规模数据集时,如何有效利用 PLMs 以实现快速且准确的同源性检测仍然是一个挑战。

结合深度学习表示和序列比对算法的方法,虽然提高了准确性,但仍需面对计算效率和模型泛化能力的问题。因此,开发能够克服这些局限性的创新方法,对于推动生物信息学和相关领域的研究具有重要意义。

在这里,复旦大学、山东大学、上海交通大学的研究团队提出了 PLMSearch,这是一种仅以序列为输入,通过蛋白质语言模型和 Pfam 序列分析来搜索同源蛋白的工具,能够挖掘隐藏在序列背后的远程同源信息。

3倍灵敏度,搜索百万蛋白对只需几秒,复旦等开发新的语言模型

图示:PLMSearch 概述。(来源:论文)

PLMSearch主要包括以下三部分:

(1)PfamClan 过滤掉共享相同 Pfam 族域的蛋白质对。

(2)SS-predictor(Structural Similarity predictor)使用蛋白质语言模型生成的嵌入来预测所有查询目标对之间的相似性。如果没有结构作为输入,PLMSearch 不会损失太多灵敏度,因为它使用蛋白质语言模型从深度序列嵌入中捕获远程同源信息。此外,该步骤中使用的SS预测器使用结构相似性(TM-score)作为训练的基本事实。这使得 PLMSearch 即使没有结构作为输入也可以获得可靠的相似性。

(3)PLMSearch 根据预测的相似性对 PfamClan 预先过滤的对进行排序,并相应地输出每个查询蛋白质的搜索结果。接着,使用 PLMAlign 对 PLMSearch 检索到的蛋白对进行比对,获取比对分数。

SCOPe40-test 和 Swiss-Prot 上的搜索测试表明,PLMSearch 可以像 MMseqs2 一样在几秒钟内搜索数百万个查询目标蛋白质对,但将灵敏度提高了三倍以上,性能与当前最先进的结构搜索方法相当,特别是在远程同源对中表现突出。与其他基线方法相比,PLMSearch 是最快的搜索方法之一,并且做到了准确性和速度之间的最佳权衡。

3倍灵敏度,搜索百万蛋白对只需几秒,复旦等开发新的语言模型

图示:PLMsearch 达到与结构搜索方法相近的灵敏度。(来源:论文)

该团队详细讨论了搜索方法(如 PLMSearch)和比对方法(如 pLM-BLAST 和 PLMAlign)之间的区别,并指出基于残基嵌入的比对方法,例如 PLMAlign 和 pLM-BLAST,均有不错的灵敏度。

目前,这些方法的主要限制在于目标数据集的大小。这在两个关键方面尤为明显:

(1)基于残基嵌入的比对需要保留目标数据集中每个蛋白的所有残基嵌入,而 PLMSearch 只需要保留每个蛋白的嵌入,这导致了超过三个数量级的大小差异,对于搜索如 UniRef50 这样包含 5360 万蛋白的大型数据集构成了重大挑战。

(2)基于残基嵌入的比对通过成对的全局(局部)比对来确定蛋白对之间的相似性,而 PLMSearch 只需要通过 SS-predictor 网络的单次前向传递就能预测数百万查询目标对的相似性。

值得注意的是,PLMSearch 只能预测蛋白对的相似性,而不提供任何比对建议。因此,PLMSearch + PLMAlign 通过 PLMSearch 筛选出相似度高于 0.3 的蛋白质对,并为其提供比对;这不仅弥补了 PLMSearch 的局限性,还避免了大量低相似度和无意义的比对,从而保持了高效率。

3倍灵敏度,搜索百万蛋白对只需几秒,复旦等开发新的语言模型

图示:PLMSearch 准确检测远程同源对。(来源:论文)

未来,研究人员计划探索查询和目标残基嵌入之间的相互作用,从而提供更好的全局和局部序列比对结果。

总之,研究人员相信 PLMSearch 已经消除了序列搜索方法的低灵敏度限制。由于序列比结构更易于获取和应用, PLMSearch 有望成为一种更方便的大规模同源蛋白搜索方法。

PLMSearch:https://dmiip.sjtu.edu.cn/PLMSearch

论文链接:https://www.nature.com/articles/s41467-024-46808-5

继续阅读