天天看点

预测完整糖肽的片段光谱,浙大开发深度学习方法DeepGlyco

作者:ScienceAI
预测完整糖肽的片段光谱,浙大开发深度学习方法DeepGlyco

编辑 | 萝卜皮

深度学习在基于质谱的蛋白质组学领域取得了显著的成功,目前正在糖蛋白质组学领域崭露头角。虽然各种深度学习模型可以非常准确地预测肽的片段质谱,但它们无法应对完整糖肽中的非线性聚糖结构。

浙江大学团队提出了 DeepGlyco,一种基于深度学习的方法,用于预测完整糖肽的片段光谱。该模型采用树形结构的长期短期记忆网络来处理聚糖部分,并采用图神经网络架构来合并特定聚糖结构的潜在碎片路径。

这一特征有利于模型对聚糖结构异构体的可解释性和区分能力。研究人员进一步证明,预测的光谱库可用于数据独立的采集糖蛋白质组学,可作为库完整性的补充。

该研究以「Prediction of glycopeptide fragment mass spectra by deep learning」为题,于 2024 年 3 月 19 日发布在《Nature Communications》。

预测完整糖肽的片段光谱,浙大开发深度学习方法DeepGlyco

液相色谱与串联质谱联用 (LC-MS/MS) 是蛋白质组学和糖蛋白质组学中广泛使用的首选方法。蛋白质组学数据分析的核心是通过将片段光谱与候选肽的理论或实验光谱进行匹配来识别肽。

最常用的蛋白质组学或糖蛋白质组学搜索引擎基于数据库搜索,其中肽谱匹配(PSM)、糖肽谱匹配(GPSM)根据理论上由肽序列和聚糖生成的碎片离子进行评分,但很大程度上忽略了碎片离子强度。

光谱库搜索将分析物碎片离子的强度模式与光谱相关联,可以产生更具辨别力的匹配分数。谱库还常用于数据独立采集 (DIA) 实验的分析。然而,谱库覆盖的不完整性决定了谱库检索识别能力的上限。

多年来,机器学习,特别是深度学习方法在蛋白质组学中的应用变得越来越普遍。科学家使用深度神经网络来预测整个基于 MS 的蛋白质组学工作流程中的肽特性和行为,包括与蛋白酶消化率相关的可检测性、LC 中的保留时间、离子迁移谱中的碰撞截面以及 MS/MS 中的碎片离子强度。

现有的肽性质预测工具大多使用长短期记忆(LSTM)、门控循环单元或基于 transformer 的模型。这些模型只能处理肽序列的线性输入(简单的 PTM 被视为不可分割的标签),而不能处理聚糖结构。

此外,完整糖肽在 MS/MS 中的断裂行为与非糖基化肽不同。具有阶梯式碰撞能量 (CE) 的高能碰撞解离 (HCD) 是 N-糖肽最常见的裂解策略,可连续裂解聚糖和肽键。这导致合并的光谱不仅包含肽片段(b/y 离子),还包含聚糖片段(B/Y 离子),现有的肽片段光谱预测模型未涵盖这些片段。

在最新的研究中,浙江大学团队提出了一个名为 DeepGlyco 的基于深度学习的框架,用于预测完整糖肽的 MS/MS 谱。输入的肽序列由传统的 LSTM 网络处理,而聚糖结构则通过引入树 LSTM 网络来解析。结构特异性聚糖的假定断裂途径通过具有注意机制的图神经网络进行建模,从而能够解释预测碎片离子的可能起源。这一特征有利于区分聚糖结构异构体。研究人员进一步证明,预测谱库也适合分析糖肽的 DIA 数据,作为库完整性的补充。

预测完整糖肽的片段光谱,浙大开发深度学习方法DeepGlyco

图示:糖肽片段谱预测的深度学习模型概述。(来源:论文)

该方法与其他肽 MS/MS 预测方法的主要区别是,能够通过引入树 LSTM 网络来处理非线性聚糖结构。虽然单独的模块发挥各自的作用,从肽和聚糖部分提取特征,但它们通过关于糖肽作为一个整体的特征融合来相互共享信息。采用多任务学习来预测整个糖肽谱以及肽和聚糖片段,旨在适应不同片段类型的广泛峰强度。

该方法使用来自相同生物体和仪器设置的数据训练的模型实现了很高的预测精度。生物体和仪器设置的变化可能会导致预测性能的损失。由于与传统蛋白质组数据集相比,难以访问大规模糖肽 MS/MS 数据集,因此模型的泛化能力仍然受到训练数据大小的限制。

预测完整糖肽的片段光谱,浙大开发深度学习方法DeepGlyco

图示:糖肽片段谱预测的性能。(来源:论文)

研究人员认为,添加光谱元数据的额外编码器(例如仪器类型和碰撞能量)可能会促进独立实验室其他糖蛋白质组数据集中光谱预测模型的可扩展性。

该深度学习模型的另一个显著特征是预测可以通过模型中计算的注意力权重来解释。事实证明,注意力权重可以反映特定聚糖结构的假定断裂途径中可能裂解的重要性。这凸显了该模型如何学习糖肽 MS/MS 碎片的基本原理。

这一特征允许通过对源自不同断裂途径的峰强度变化进行建模,来区分聚糖结构异构体。该团队证明,预测的光谱可用于光谱库搜索,从而根据给定的糖肽组成对潜在的聚糖结构进行排序,并过滤掉不太可能的候选者。

预测完整糖肽的片段光谱,浙大开发深度学习方法DeepGlyco

图示:使用预测光谱库区分结构异构糖肽。(来源:论文)

虽然仅通过谱库搜索来准确识别聚糖结构仍存在差距,但它可以部分地区分聚糖结构异构体,例如核心岩藻糖基化的识别。与依赖确认特征离子存在的方法不同,谱库搜索考虑了整个谱图的强度模式,已被证明在肽段鉴定和磷酸化位点定位方面有效。

通过谱预测,该团队解决了谱库搜索对聚糖结构空间库覆盖不完整的限制,并展示了其通过其他方法验证或补充糖肽结构鉴定的潜力。研究人员进一步设想谱预测可以提高糖肽数据库搜索和从头测序的评分。

论文结果还表明预测的光谱库可用于分析糖肽的 DIA 数据。预测文库不仅可以在保持相同糖肽空间的情况下纠正特定于样品的实验光谱文库中的低质量光谱,而且可以扩大糖蛋白质组覆盖范围并提高文库完整性。

预测完整糖肽的片段光谱,浙大开发深度学习方法DeepGlyco

图示:DIA 分析的预测光谱库的性能。(来源:论文)

目前以糖肽为中心的DIA数据分析方法无法承受极大的查询空间,其中包含很大一部分在样本中无法检测到的假目标糖肽。这种限制并不是糖蛋白质组学特有的,实际上是继承自传统蛋白质组学 DIA 分析的统计控制策略。

因此,使用从生物体范围内的蛋白质组和糖组空间生成的预测糖肽谱库是不切实际的。相反,目前仍然需要感兴趣的起始糖肽列表来界定搜索空间。研究人员预计,随着糖蛋白组学 DIA 数据分析的重大进展,这个问题将得到解决,例如与传统蛋白质组学的蛋白质组规模预测库兼容的基于深度学习的评分。

该团队期望这项工作将为糖蛋白质组学社区提供有价值的深度学习资源,并在用户的信息工作流程中提供其他潜在的应用。虽然这里是在 N-糖蛋白组学背景下进行演示的,但这里深度学习模型的通用架构可以适用于 O-糖肽的谱预测。

研究人员设想未来模型架构的扩展将支持其他碎片离子类型的碎片技术,例如电子转移解离,以及每个糖肽含有多个聚糖的分析物。

论文链接:https://www.nature.com/articles/s41467-024-46771-1

继续阅读