天天看點

預測完整糖肽的片段光譜,浙大開發深度學習方法DeepGlyco

作者:ScienceAI
預測完整糖肽的片段光譜,浙大開發深度學習方法DeepGlyco

編輯 | 蘿蔔皮

深度學習在基于質譜的蛋白質組學領域取得了顯著的成功,目前正在糖蛋白質組學領域嶄露頭角。雖然各種深度學習模型可以非常準确地預測肽的片段質譜,但它們無法應對完整糖肽中的非線性聚糖結構。

浙江大學團隊提出了 DeepGlyco,一種基于深度學習的方法,用于預測完整糖肽的片段光譜。該模型采用樹形結構的長期短期記憶網絡來處理聚糖部分,并采用圖神經網絡架構來合并特定聚糖結構的潛在碎片路徑。

這一特征有利于模型對聚糖結構異構體的可解釋性和區分能力。研究人員進一步證明,預測的光譜庫可用于資料獨立的采集糖蛋白質組學,可作為庫完整性的補充。

該研究以「Prediction of glycopeptide fragment mass spectra by deep learning」為題,于 2024 年 3 月 19 日釋出在《Nature Communications》。

預測完整糖肽的片段光譜,浙大開發深度學習方法DeepGlyco

液相色譜與串聯質譜聯用 (LC-MS/MS) 是蛋白質組學和糖蛋白質組學中廣泛使用的首選方法。蛋白質組學資料分析的核心是通過将片段光譜與候選肽的理論或實驗光譜進行比對來識别肽。

最常用的蛋白質組學或糖蛋白質組學搜尋引擎基于資料庫搜尋,其中肽譜比對(PSM)、糖肽譜比對(GPSM)根據理論上由肽序列和聚糖生成的碎片離子進行評分,但很大程度上忽略了碎片離子強度。

光譜庫搜尋将分析物碎片離子的強度模式與光譜相關聯,可以産生更具辨識力的比對分數。譜庫還常用于資料獨立采集 (DIA) 實驗的分析。然而,譜庫覆寫的不完整性決定了譜庫檢索識别能力的上限。

多年來,機器學習,特别是深度學習方法在蛋白質組學中的應用變得越來越普遍。科學家使用深度神經網絡來預測整個基于 MS 的蛋白質組學工作流程中的肽特性和行為,包括與蛋白酶消化率相關的可檢測性、LC 中的保留時間、離子遷移譜中的碰撞截面以及 MS/MS 中的碎片離子強度。

現有的肽性質預測工具大多使用長短期記憶(LSTM)、門控循環單元或基于 transformer 的模型。這些模型隻能處理肽序列的線性輸入(簡單的 PTM 被視為不可分割的标簽),而不能處理聚糖結構。

此外,完整糖肽在 MS/MS 中的斷裂行為與非糖基化肽不同。具有階梯式碰撞能量 (CE) 的高能碰撞解離 (HCD) 是 N-糖肽最常見的裂解政策,可連續裂解聚糖和肽鍵。這導緻合并的光譜不僅包含肽片段(b/y 離子),還包含聚糖片段(B/Y 離子),現有的肽片段光譜預測模型未涵蓋這些片段。

在最新的研究中,浙江大學團隊提出了一個名為 DeepGlyco 的基于深度學習的架構,用于預測完整糖肽的 MS/MS 譜。輸入的肽序列由傳統的 LSTM 網絡處理,而聚糖結構則通過引入樹 LSTM 網絡來解析。結構特異性聚糖的假定斷裂途徑通過具有注意機制的圖神經網絡進行模組化,進而能夠解釋預測碎片離子的可能起源。這一特征有利于區分聚糖結構異構體。研究人員進一步證明,預測譜庫也适合分析糖肽的 DIA 資料,作為庫完整性的補充。

預測完整糖肽的片段光譜,浙大開發深度學習方法DeepGlyco

圖示:糖肽片段譜預測的深度學習模型概述。(來源:論文)

該方法與其他肽 MS/MS 預測方法的主要差別是,能夠通過引入樹 LSTM 網絡來處理非線性聚糖結構。雖然單獨的子產品發揮各自的作用,從肽和聚糖部分提取特征,但它們通過關于糖肽作為一個整體的特征融合來互相共享資訊。采用多任務學習來預測整個糖肽譜以及肽和聚糖片段,旨在适應不同片段類型的廣泛峰強度。

該方法使用來自相同生物體和儀器設定的資料訓練的模型實作了很高的預測精度。生物體和儀器設定的變化可能會導緻預測性能的損失。由于與傳統蛋白質組資料集相比,難以通路大規模糖肽 MS/MS 資料集,是以模型的泛化能力仍然受到訓練資料大小的限制。

預測完整糖肽的片段光譜,浙大開發深度學習方法DeepGlyco

圖示:糖肽片段譜預測的性能。(來源:論文)

研究人員認為,添加光譜中繼資料的額外編碼器(例如儀器類型和碰撞能量)可能會促進獨立實驗室其他糖蛋白質組資料集中光譜預測模型的可擴充性。

該深度學習模型的另一個顯著特征是預測可以通過模型中計算的注意力權重來解釋。事實證明,注意力權重可以反映特定聚糖結構的假定斷裂途徑中可能裂解的重要性。這凸顯了該模型如何學習糖肽 MS/MS 碎片的基本原理。

這一特征允許通過對源自不同斷裂途徑的峰強度變化進行模組化,來區分聚糖結構異構體。該團隊證明,預測的光譜可用于光譜庫搜尋,進而根據給定的糖肽組成對潛在的聚糖結構進行排序,并過濾掉不太可能的候選者。

預測完整糖肽的片段光譜,浙大開發深度學習方法DeepGlyco

圖示:使用預測光譜庫區分結構異構糖肽。(來源:論文)

雖然僅通過譜庫搜尋來準确識别聚糖結構仍存在差距,但它可以部分地區分聚糖結構異構體,例如核心岩藻糖基化的識别。與依賴确認特征離子存在的方法不同,譜庫搜尋考慮了整個譜圖的強度模式,已被證明在肽段鑒定和磷酸化位點定位方面有效。

通過譜預測,該團隊解決了譜庫搜尋對聚糖結構空間庫覆寫不完整的限制,并展示了其通過其他方法驗證或補充糖肽結構鑒定的潛力。研究人員進一步設想譜預測可以提高糖肽資料庫搜尋和從頭測序的評分。

論文結果還表明預測的光譜庫可用于分析糖肽的 DIA 資料。預測文庫不僅可以在保持相同糖肽空間的情況下糾正特定于樣品的實驗光譜文庫中的低品質光譜,而且可以擴大糖蛋白質組覆寫範圍并提高文庫完整性。

預測完整糖肽的片段光譜,浙大開發深度學習方法DeepGlyco

圖示:DIA 分析的預測光譜庫的性能。(來源:論文)

目前以糖肽為中心的DIA資料分析方法無法承受極大的查詢空間,其中包含很大一部分在樣本中無法檢測到的假目标糖肽。這種限制并不是糖蛋白質組學特有的,實際上是繼承自傳統蛋白質組學 DIA 分析的統計控制政策。

是以,使用從生物體範圍内的蛋白質組和糖組空間生成的預測糖肽譜庫是不切實際的。相反,目前仍然需要感興趣的起始糖肽清單來界定搜尋空間。研究人員預計,随着糖蛋白組學 DIA 資料分析的重大進展,這個問題将得到解決,例如與傳統蛋白質組學的蛋白質組規模預測庫相容的基于深度學習的評分。

該團隊期望這項工作将為糖蛋白質組學社群提供有價值的深度學習資源,并在使用者的資訊工作流程中提供其他潛在的應用。雖然這裡是在 N-糖蛋白組學背景下進行示範的,但這裡深度學習模型的通用架構可以适用于 O-糖肽的譜預測。

研究人員設想未來模型架構的擴充将支援其他碎片離子類型的碎片技術,例如電子轉移解離,以及每個糖肽含有多個聚糖的分析物。

論文連結:https://www.nature.com/articles/s41467-024-46771-1

繼續閱讀