天天看點

Nat. Genet. | 深度蛋白質語言模型在基因組範圍内預測疾病變異效應

作者:生信寶典

編譯 | 曾全晨

審稿 | 王建民

今天為大家介紹的是來自Chun Jimmie Ye和Vasilis Ntranos團隊的一篇關于語言模型應用的論文。預測編碼變異的效應是一個重大挑戰。盡管最近的深度學習模型在變異效應預測準确性方面取得了改進,但由于依賴于近源同源物或軟體限制,它們無法分析所有編碼變異。在這裡,作者開發了一個工作流程,使用ESM1b,一個擁有6.5億參數的蛋白質語言模型,來預測人類基因組中約4.5億個可能的錯義變異效應。ESM1b在将約15萬個ClinVar/HGMD錯義變異分類為緻病性或良性,并在28個深度突變掃描資料集中預測測量方面優于現有方法。

Nat. Genet. | 深度蛋白質語言模型在基因組範圍内預測疾病變異效應

遺傳變異的表型後果,即變異效應預測(Variant Effect Prediction,VEP),是人類遺傳學中的一個關鍵挑戰。改變蛋白質氨基酸序列的編碼變異因其在疾病關聯、機制了解和治療可行性方面的豐富性而具有特殊的興趣。大多數自然發生的編碼變異是錯義突變,将一個氨基酸替換為另一個。盡管在功能基因組學和遺傳研究方面取得了進展,但區分蛋白質破壞性有害變異與中性變異仍然是一個挑戰。此外,大多數人類基因存在可選擇性剪接,同一變異可能對某些蛋白質異構體具有破壞作用,但對其他異構體中性,這取決于與蛋白質其餘部分的互相作用。是以,大多數錯義變異仍然是不确定意義變異(Variant of Uncertain Significance,VUS),限制了外顯子組測序在臨床診斷中的應用。對于影響多個氨基酸殘基的編碼變異,例如幀内插入缺失(in-frame indels),VEP甚至更具挑戰性。

VEP的實驗方法,如深度突變掃描(Deep Mutational Scans,DMS)和擾動測序(Perturb-seq),可以同時測量數千個變異體的分子和細胞表型。然而,這些内表型并不完全是相關臨床表型的代理,而且在全基因組範圍内難以擴充。相比之下,學習蛋白質的生物實體性質或進化限制的計算方法在理論上可以覆寫所有編碼變異。盡管大多數計算方法是基于對緻病性與良性變異的标記資料進行訓練的,無監督的基于同源性的方法可以直接從多序列比對(MSA)中預測變異效應,而無需對标記資料進行訓練。最近,一種名為EVE的無監督深度學習方法,實施了生成式變分自編碼器,被證明在性能上優于監督方法。然而,由于它們依賴于MSA,基于同源性的方法僅提供一部分對齊良好的蛋白質和殘基的預測。此外,由于同一基因的不同異構體具有相同的同源物,不清楚它們是否能夠區分變異對不同異構體的影響。

Nat. Genet. | 深度蛋白質語言模型在基因組範圍内預測疾病變異效應

圖 1

VEP的另一種深度學習方法使用蛋白質語言模型,這是一種源自自然語言處理的技術。這些是經過訓練的深度神經網絡,用于模拟通過大型蛋白質資料集(如UniProt)捕獲的整個進化過程中已知蛋白質序列的空間(圖1a)。值得注意的是,蛋白質語言模型不需要顯式的同源性,可以估計任何可能的氨基酸序列的可能性。已經證明它們能夠隐式地學習蛋白質序列如何決定蛋白質結構和功能的許多方面,包括二級結構、遠端互相作用、翻譯後修飾和結合位點。其中一個最大的蛋白質語言模型是ESM1b,它是一個公開可用的650百萬參數模型,訓練資料包括約2.5億個蛋白質序列。已經證明,它能夠在無需進一步訓練的情況下預測與DMS實驗結果相關的變異效應。

然而,ESM1b的使用受到了幾個限制。首先,該模型的輸入序列長度限制為1,022個氨基酸,排除了大約12%的人類蛋白質異構體。其次,雖然在32個基因(其中10個來自人類)的DMS資料上進行了評估,但目前尚不清楚該模型在全基因組範圍内預測編碼變異臨床影響方面的表現如何。最後,使用ESM1b需要軟體工程技能、深度學習專業知識和高記憶體GPU,這些因素共同構成了廣泛使用的技術障礙。在這裡,作者将ESM1b推廣到任意長度的蛋白質序列,并用它來預測人類基因組中所有42,336個蛋白質異構體的約450 million個可能的錯義變異效應。作者在三個不同的基準測試上評估,并将其與其他45種VEP方法進行了比較。

預測人類基因組中所有可能錯義變異的效應

作者開發了一種改進的ESM1b工作流,并将其應用于擷取所有42,336個已知人類蛋白質異構體上的約450 million個錯義變異效應的完整目錄。每個變異的效應分數是變異和野生型(WT)殘基之間的對數似然比(LLR)(圖1b)。與目前僅适用于一部分人類蛋白質和具有MSA覆寫率的殘基的同源性模型(圖1c)不同,ESM1b預測了每個可能的錯義變異的效應。由ESM1b預測為有害的蛋白區域中的許多可能突變通常與已知的蛋白質結構域對齊(圖1d)。如圖所示,對于SPAST、SLC7A3和ARX,這些結構域可能位于MSA覆寫範圍之外,不适合基于同源性的模型(圖1d),但可能攜帶與疾病相關的變異。

ESM1b在臨床和實驗基準測試中表現優于其他VEP方法

Nat. Genet. | 深度蛋白質語言模型在基因組範圍内預測疾病變異效應

圖 2

為了評估ESM1b在預測變異臨床影響方面的性能,作者在兩個資料集中比較了模型在緻病性和良性變異之間的效應分數。第一個資料集包含了在ClinVar中注釋的緻病性和良性變異,第二個資料集包括了HGMD中被注釋為緻病性的變異,以及gnomAD中的良性變異(定義為等位基因頻率大于1%)。ESM1b效應分數的分布在這兩個資料集中顯示出緻病性和良性變異之間的顯著差異(圖2a)。此外,在這兩個資料集中,緻病性和良性變異顯示出一緻的分布,表明預測結果具有很好的校準性。使用LLR門檻值為-7.5來區分緻病性和良性變異,在這兩個資料集中的真陽性率分别為81%和82%。将ESM1b與EVE作為變異緻病性的分類器進行比較,ESM1b在區分ClinVar中的19,925個緻病性和16,612個良性變異(跨越2,765個基因)方面獲得了0.905的ROC-AUC分數,而EVE的分數為0.885。在HGMD/gnomAD中(涵蓋1,991個基因,包括27,754個緻病性和2,743個常見變異),ESM1b獲得了0.897的ROC-AUC分數,而EVE的分數為0.882(圖2b)。

在确認ESM1b作為變異緻病性分類器的高準确性後,作者嘗試預測ClinVar中VUS的效應。為此将ESM1b效應分數在VUS上模組化為具有兩個成分的高斯混合分布(圖2c)。這兩個拟合的分布與注釋的緻病性和良性變異的分布吻合良好(圖2d)。根據該模型,作者估計ClinVar中約58%的錯義VUS是良性的,約42%是緻病的。除EVE之外,作者還将ESM1b與其他44種VEP方法進行了比較,包括來自Database for Nonsynonymous SNPs’ Functional Predictions(dbNSFP)的所有功能預測方法和保守性評分。在臨床基準測試比較中,作者隻考慮了那些(1)未在臨床資料庫(如ClinVar和HGMD)上進行訓練,或未使用來自這些訓練過的方法的特征,并且(2)不使用等位基因頻率作為特征的方法,因為等位基因頻率通常用于将變異标記為良性。在這46種方法中,有19種(包括ESM1b和EVE)滿足這些無偏比較的标準。在所有19種方法報告的變異集合中,ESM1b在ClinVar和HGMD/gnomAD上均優于其他所有方法(圖2e、f)。類似地,ESM1b在其各自報告的變異集合上也分别優于每種單獨的方法(圖2g、h)。所有兩兩比較的結果在統計學上都具有顯著性,P值小于0.001。

Nat. Genet. | 深度蛋白質語言模型在基因組範圍内預測疾病變異效應

圖 3

作者進一步比較了這46種VEP方法在預測DMS實驗測量結果方面的能力。完整的DMS基準測試包括28個實驗,涵蓋了15個人類基因(在76,133個變異上的166,132個實驗測量)。作者将43種方法與由這些方法報告的11個基因中的16,049個變異的子集進行了比較。ESM1b以平均斯皮爾曼相關系數0.426的得分位居首位,其效應分數與實驗測量之間的關系圖如圖3a所示,其次是DEOGEN2(0.423)、REVEL(0.419)和EVE(0.418)。DEOGEN2和REVEL是監督方法,而EVE,就像ESM1b一樣,是一種無監督方法。将ESM1b與EVE直接與具有EVE分數的64,580個變異(跨足15個基因)進行比較,結果呈現出類似的趨勢(圖3b)。同樣,ESM1b在每種方法報告的變異集合上都優于其他45種方法(圖3c),其中有37種方法的比較在統計學上顯著。另外兩項附加分析進一步證明了ESM1b預測的功能解釋。首先,如個别示例所示(圖1d),位于結構域内的錯義變異具有更負面(有害)的效應分數,而位于結構域外的變異類似于良性變異(圖3d)。其次,ESM1b效應分數與等位基因頻率很好地吻合,常見變異被預測為較不具有破壞性(圖3e),這與常見變異通常被認為是良性的一緻。

ESM1b可以預測變異對蛋白質異構體的影響

Nat. Genet. | 深度蛋白質語言模型在基因組範圍内預測疾病變異效應

圖 4

作為一個蛋白質語言模型,ESM1b在輸入的氨基酸序列的上下文中評估每個變異,允許在不同蛋白質異構體的上下文中評估相同的變異。一個變異可能對某些異構體具有破壞性,但對其他異構體沒有,這可能是由于與可選擇性剪接結構域的互相作用(圖4a)。例如,比較P53的主要異構體和一個較短的異構體之間的ESM1b分數,作者發現170個變異(主要位于剪接交界處附近)的分數差異很大(LLR差異>4),其中包括三個ClinVar變異,被注釋為VUS(圖4b)。在ClinVar中發現了3,477個錯義變異,其在異構體間預測的效應有顯著差異(LLR标準差>2)(圖4c)。值得注意的是,作者隻考慮了經過審查和手動篩選的蛋白質異構體。這3,477個變異中,包括148個(4%)良性或可能良性,437個(13%)緻病性或可能緻病性,以及2,892個(83%)VUS。有趣的是,在考慮最具有破壞性的異構體時,這些VUS的效應分數分布與緻病性變異的分布相似;而在考慮最不具有破壞性的異構體時,這些VUS的分布與良性變異相似(圖4c)。與P53類似,許多臨床重要的基因在不同異構體間具有高效應分數方差的ClinVar變異,包括BRCA1、IRF6和TGFB3(圖4d)。

結論

全面的評估顯示,ESM1b在區分ClinVar和HGMD/gnomAD中的緻病性和良性變異,以及預測DMS實驗報告的效果方面,表現優于其他最先進的VEP方法。作為一種不明确依賴同源性的蛋白質語言模型,ESM1b在VEP方面提供了幾個額外的優勢。作為一種無監督方法,ESM1b在臨床或人群遺傳學資料集中,不存在從訓練集到測試集的資訊洩露風險,進而可以進行準确和無偏的評估。與基于同源性的方法相比,ESM1b的預測更簡單且更快速,因為一旦訓練了通用模型,隻需要一個輸入序列。值得注意的是,蛋白質語言模型可以為每個可能的氨基酸序列提供預測,并适用于所有編碼變異。在研究中,已經證明了ESM1b的普适性,包括(1)MSA覆寫範圍之外的變異,(2)對不同蛋白質異構體的不同影響的變異,(3)幀内插入缺失和(4)終止密碼子變異。

參考資料

Brandes, N., Goldman, G., Wang, C.H. et al. Genome-wide prediction of disease variant effects with a deep protein language model. Nat Genet (2023).

https://doi.org/10.1038/s41588-023-01465-0

繼續閱讀