3倍灵敏度，搜索百万蛋白对只需几秒，复旦等开发新的语言模型

编辑 | 萝卜皮

同源蛋白质搜索是蛋白质注释和分析最常用的方法之一。与结构搜索相比，仅从序列中检测远程进化关系仍然具有挑战性。

复旦大学、山东大学以及上海交通大学的研究团队提出了 PLMSearch（Protein Language Model），一种仅以序列作为输入的同源蛋白质搜索方法，能够捕获隐藏在序列后面的远程同源信息。

PLMSearch 可以像 MMseqs2 一样在几秒钟内搜索数百万个查询目标蛋白质对，同时将灵敏度提高三倍以上，可与当前最先进的结构搜索方法相媲美。此外，与传统的序列搜索方法不同，PLMSearch 可以召回具有不相似序列但结构相似的大多数远程同源对。

该研究以「PLMSearch: Protein language model powers accurate and fast sequence search for remote homology」为题，于 2024 年 3 月 30 日发布在《Nature Communications》。

同源蛋白质搜索是生物信息学领域的核心技术之一，它通过比较蛋白质序列来预测蛋白质的功能和相互作用。尽管基于序列相似性的搜索方法广泛应用，但它们在识别远程进化关系时仍存在挑战。此外，虽然结构搜索方法提供了更高的灵敏度，但获取蛋白质结构的成本和复杂性限制了它们的应用场景。

蛋白质语言模型（PLMs）虽然在结构相关任务中表现出优势，但在处理大规模数据集时，如何有效利用 PLMs 以实现快速且准确的同源性检测仍然是一个挑战。

结合深度学习表示和序列比对算法的方法，虽然提高了准确性，但仍需面对计算效率和模型泛化能力的问题。因此，开发能够克服这些局限性的创新方法，对于推动生物信息学和相关领域的研究具有重要意义。

在这里，复旦大学、山东大学、上海交通大学的研究团队提出了 PLMSearch，这是一种仅以序列为输入，通过蛋白质语言模型和 Pfam 序列分析来搜索同源蛋白的工具，能够挖掘隐藏在序列背后的远程同源信息。

图示：PLMSearch 概述。（来源：论文）

PLMSearch主要包括以下三部分：

（1）PfamClan 过滤掉共享相同 Pfam 族域的蛋白质对。

（2）SS-predictor（Structural Similarity predictor）使用蛋白质语言模型生成的嵌入来预测所有查询目标对之间的相似性。如果没有结构作为输入，PLMSearch 不会损失太多灵敏度，因为它使用蛋白质语言模型从深度序列嵌入中捕获远程同源信息。此外，该步骤中使用的SS预测器使用结构相似性（TM-score）作为训练的基本事实。这使得 PLMSearch 即使没有结构作为输入也可以获得可靠的相似性。

（3）PLMSearch 根据预测的相似性对 PfamClan 预先过滤的对进行排序，并相应地输出每个查询蛋白质的搜索结果。接着，使用 PLMAlign 对 PLMSearch 检索到的蛋白对进行比对，获取比对分数。

SCOPe40-test 和 Swiss-Prot 上的搜索测试表明，PLMSearch 可以像 MMseqs2 一样在几秒钟内搜索数百万个查询目标蛋白质对，但将灵敏度提高了三倍以上，性能与当前最先进的结构搜索方法相当，特别是在远程同源对中表现突出。与其他基线方法相比，PLMSearch 是最快的搜索方法之一，并且做到了准确性和速度之间的最佳权衡。

图示：PLMsearch 达到与结构搜索方法相近的灵敏度。（来源：论文）

该团队详细讨论了搜索方法（如 PLMSearch）和比对方法（如 pLM-BLAST 和 PLMAlign）之间的区别，并指出基于残基嵌入的比对方法，例如 PLMAlign 和 pLM-BLAST，均有不错的灵敏度。

目前，这些方法的主要限制在于目标数据集的大小。这在两个关键方面尤为明显：

（1）基于残基嵌入的比对需要保留目标数据集中每个蛋白的所有残基嵌入，而 PLMSearch 只需要保留每个蛋白的嵌入，这导致了超过三个数量级的大小差异，对于搜索如 UniRef50 这样包含 5360 万蛋白的大型数据集构成了重大挑战。

（2）基于残基嵌入的比对通过成对的全局（局部）比对来确定蛋白对之间的相似性，而 PLMSearch 只需要通过 SS-predictor 网络的单次前向传递就能预测数百万查询目标对的相似性。

值得注意的是，PLMSearch 只能预测蛋白对的相似性，而不提供任何比对建议。因此，PLMSearch + PLMAlign 通过 PLMSearch 筛选出相似度高于 0.3 的蛋白质对，并为其提供比对；这不仅弥补了 PLMSearch 的局限性，还避免了大量低相似度和无意义的比对，从而保持了高效率。

图示：PLMSearch 准确检测远程同源对。（来源：论文）

未来，研究人员计划探索查询和目标残基嵌入之间的相互作用，从而提供更好的全局和局部序列比对结果。

总之，研究人员相信 PLMSearch 已经消除了序列搜索方法的低灵敏度限制。由于序列比结构更易于获取和应用， PLMSearch 有望成为一种更方便的大规模同源蛋白搜索方法。

PLMSearch：https://dmiip.sjtu.edu.cn/PLMSearch

论文链接：https://www.nature.com/articles/s41467-024-46808-5

3倍灵敏度，搜索百万蛋白对只需几秒，复旦等开发新的语言模型

继续阅读

如果蜀汉不进行北伐，而是全心开发南方，蜀汉最后能得天下吗？

张国文：人民币换锚，西部大开发，中国将快速腾飞！

全大核再突破？天玑9300+即将在天玑开发者大会亮相

大模型的发展趋势：从对话框走向产业端

基于Llama 3的最强开源医疗AI模型发布，刷新榜单

AI大模型的应用，小鹏X9为汽车行业带来了哪些新变化？

住友橡胶与东丽联合开发下一代业界最轻碳纤维复合材料轮椅坡道

一锅端！新冠疫苗"开发者"被抓，曝出疫苗的“潜在隐患”！

突发！新冠疫苗开发者被抓，曝出疫苗的“潜在隐患”！

房子明明已经过剩，为什么开发商还在建房？温铁军一句话讲明白了

3秒读懂万字论文，新晋全球最强大模型，什么来头？

闹大了！新冠疫苗"开发者"杨晓明教授被抓，曝出疫苗的"潜在隐患"

奇富科技，用AI大模型为金融业“开挂”

特斯拉大手笔加强AI开发！马斯克：任何支出达不到每年100亿美元的公司都将毫无竞争力【附无人驾驶行业市场规模预测】

卡普空正在开发一款名为《后裔》的新作

杨浦首发数据资产增信模型，赋能新质生产力