天天看點

MIT | 一種可解釋的PPI預測模型

MIT | 一種可解釋的PPI預測模型

今天給大家介紹的是由MIT在“Biorxiv”上發表的預印本”Sequence-based prediction of protein-protein interactions: a structure-aware interpretable deep learning model ”。

蛋白質-蛋白質互相作用(PPI)網絡在系統生物學中是一種促進發現和了解蛋白質功能的有價值工具。然而,實驗PPI資料在大多數模式生物中仍然稀少,而且在新物種推廣上不佳或是需要特定類型和大小的資料訓練。是以,本文提出了D-SCRIPT(Deep Sequence Contact Residue Interaction Prediction Transfer,深度序列接觸殘基互相作用預測遷移),一種僅使用序列訓練的PPI預測模型。與現有方法相比,D-SCRIPT不僅對新物種有更好的泛化能力,而且對訓練資料大小的限制有較強的魯棒性。作者在人類PPI上訓練了一個模型,并使用來自其他5個模型生物的PPI資料集對其進行了評估,取得了不錯的結果。這說明,僅人類蛋白質語言也有助于解碼其他生物的蛋白質。

1

背景和相關工作

細胞中實體蛋白-蛋白互相作用(PPIs)的系統映射已經被證明對加深我們了解蛋白質功能和生物學非常有價值。然而,盡管引入了高通量方法來測定PPIs,但迄今為止,通過實驗确定的人類PPIs僅代表實體結合在人類細胞中真實蛋白質對的一小部分。在其他物種中,相關資料甚至更少。如圖1所示,在大多數模式生物的情況下,實驗确定的PPIs數量遠遠少于人類,而在非模式生物的情況下,幾乎不存在PPIs。這促使科學家研究預測PPIs的計算方法。

MIT | 一種可解釋的PPI預測模型

圖1 實驗PPI資料的語料庫有限

本文介紹了一種新的深度學習方法D-SCRIPT(Deep Sequence Contact Residue Interaction Prediction Transfer,深度序列接觸殘基互相作用預測遷移),它基于氨基酸序列來确定兩個蛋白質是否在細胞内發生實體互相作用。該模型關鍵的進步在于合理的特征和結構能使模型僅通過序列資料訓練,監督隻有一個二進制互動标簽,然而可以産生一種捕捉蛋白質之間互相作用對的中間表示。

D-SCRIPT能夠同時提供迄今為止無法同時實作的優勢:廣泛的适用性、可解釋性和高跨物種準确性。D-SCRIPT與最近其他成功的深度學習方法PIPR和DPPI一樣,屬于單獨從蛋白質氨基酸序列進行PPI預測的方法。它可以從一類蛋白質PPI的資料進行訓練,來進行任意蛋白質預測任務。

類似D-SCRIPT這樣基于序列的方法的優點是輸入的序列資料幾乎總是可用的,這是以為低成本基因組測序的巨大進步。在基于序列的方法中,D-SCRIPT的優勢在于其更強的跨物種泛化能力和在現有訓練資料稀疏的情況下更準确的預測。此外,作者基于接觸圖的方法與最近在蛋白質序列的單結構接觸圖的深度學習預測方面的工作相似。雖然這些方法都是在三維結構資料上進行訓練,但該方法被設計成隻使用序列資料進行訓練。盡管如此,作者的方法和這些方法的見解可能在未來的工作中結合起來。

2

方法

模型預測可以分為兩個階段:1.分别為每個蛋白質生成豐富的特征表示;2.根據這些特征預測互動。兩個階段都是端到端訓練的。

與PIPR、DPPI将大部分計算複雜性放在階段1不同,D-SCRIPT的一個關鍵創新是作者設計了一個更具有結構感覺(structurally-aware)的階段2。

階段1是通過使用Bepler & Berger預訓練的蛋白質序列模型和投影子產品來完成的,其中模型學習低維蛋白嵌入,這也可以用作下遊互相作用和結構預測任務的緊湊表示。

對于階段2,作者提出了一種新的結構來編碼蛋白質互相作用的實體模型,如圖2所示。作者預測兩個蛋白質隻有在殘基高度相容時才會發生作用。階段2分成三部分:投影子產品,殘基接觸子產品和預測子產品。在投影子產品中,對原始嵌入進行壓縮。在殘基接觸子產品中,低維投影嵌入用于計算稀疏接觸圖。最後,互相作用預測子產品在接觸圖上使用定制的maxpooling操作來預測輸入蛋白質之間的互動機率。

模型的輸入的是一對序列s1,s2,長度分别為n和m,預測機率p和預測接觸圖矩陣C。p和C的元素輸出都在0到1範圍内。

MIT | 一種可解釋的PPI預測模型

圖2 D-SCRIPT架構

序列嵌入

首先,利用Bepler & Berger預訓練模型将序列s1,s2分别嵌入為E1,E2。他們的模型是一個Bi-LSTM神經網絡,訓練三個獨立的資訊: 1)蛋白質的SCOP分類,表明其一般結構,2)蛋白質的三維結構的自接觸圖,3)相似蛋白質的序列比對。其餘的可選嵌入可以被替代。

投影子產品

在投影子產品中,嵌入E通過一個全連接配接層壓縮成低維投影嵌入Z。

MIT | 一種可解釋的PPI預測模型

互相作用預測子產品

這個子產品輸出PPI預測機率p,模型采用2個池化操作。第一個是标準的最大池化。輸出的最大池化矩陣P代表了蛋白質局部區域互相作用的機率,并且隻保留了每個區域的最大殘留接觸機率,用于全局預測。第二個池化是全局池化,計算如下:

MIT | 一種可解釋的PPI預測模型

公式通過一個學習參數γ使P稀疏化,保留高機率預測結果。這種全局池化操作獲得了這樣一種直覺:僅使用高機率區域預測殘基接觸,低機率被忽略。

互動預測的最後一步是增強輸出分布的雙峰性,進而使臨界點的選擇在區分正預測和負預測時變得不那麼重要。通過一個激活函數實作并輸出最終的機率p。

損失函數

除了二進制交叉熵BCE Loss外,文章引入接觸圖的損失MAG Loss,損失函數為

MIT | 一種可解釋的PPI預測模型

MAG Loss起到一種正則化的作用,由接觸圖矩陣C的算數平均值計算得到,使接觸圖的大小最小化。作者認為要根據少數高機率殘基接觸而大多數不接觸來優化。

3

結果

PPI資料集

為了評估D-SCRIPT在預測蛋白質-蛋白質互相作用方面的性能,本文使用了來自STRING資料庫(v11)的資料。作者限制了序列長度并除去了40%以上的相似序列。為了産生PPI的負面例子,遵循Neyshabur等人的工作從非備援集合中随機配對的蛋白質,選擇10:1的負對正比率,以反映真正的正例PPI。

本文的人類PPI資料集包含47,932個陽性和479,320個陰性蛋白互相作用,作者将其中得80%(38,345)用于訓練,20%(9,587)用于驗證。對于5種模式生物(表1),我們使用這個程式為每一種選擇了5000個正互相作用和50000個負互相作用,而大腸杆菌則是(2000 / 20000),因為在STRING中可用的大腸杆菌正例是有限的。

跨物種預測

作者在人類PPI上訓練了一個模型,并使用來自其他5個模型生物的PPI資料集對其進行了評估。作者比較了D-SCRIPT和PIPR,兩者在相同的人類PPI集上訓練。此外,作者還使用了混合方法(PIPR + D-SCRIPT)。

在表1中,本文列出5個物種的各方法的精度、召回率、精确召回曲線下面積(AUPR)、ROC曲線下面積(AUROC)。對于高度不平衡的資料,比如這裡,AUPR通常被認為是比AUROC更好的名額。D-SCRIPT的跨物種表現明顯優于PIPR,并且在所有物種中都保持了較高的AUPR,即使是那些進化上與人類極為遙遠的物種。事實上,它在這些物種中的AUPR與人類交叉驗證中的AUPR相當。在跨物種分析中,混合方法優于單獨使用D-SCRIPT和PIPR方法,但對D-SCRIPT的改進不大。

人類交叉驗證

雖然本文的目标是增強跨物種PPI預測,但作者試圖研究D-SCRIPT在預測人類PPIs的表現。作者進行了5折交叉驗證,并在此報告了所有的平均值。此外,本文還評估了一種混合方法(PIPR + D-SCRIPT)。表1顯示,盡管在交叉驗證中,PIPR在人類PPIs上的表現明顯優于DSCRIPT,但組合方法的表現要優于單獨一種方法。DSCRIPT在涉及PPI網絡中不常見蛋白的互相作用方面表現更好,而PIPR在涉及頻繁發生蛋白的互相作用方面表現更好。

表1 在人類PPI上的模型評價

MIT | 一種可解釋的PPI預測模型

自我接觸預測

設計D-SCRIPT的目的之一是捕捉互動作用的結構,訓練過的投影子產品産生的每個蛋白質嵌入應該編碼結構資訊。為了驗證這一點,本文從蛋白質資料庫(PDB)中随機選擇了300個蛋白質,并使用在人類PPIs上訓練的D-SCRIPT模型生成這些蛋白質的(n x d)維嵌入。圖3顯示,投影子產品輸出的特征通過線性組合能夠實作真實接觸的一個重要子集,在測試資料集上,每個per-structure的AUPR中位數為0.19。這些結果強烈表明, D-SCRIPT隻使用序列資料的端到端訓練可以捕獲每個蛋白質層次結構資訊的中間表示。

MIT | 一種可解釋的PPI預測模型

可解釋性

蛋白質間對接接觸的預測。作者研究了D-SCRIPT模型的可解釋性是否有助于預測蛋白質間的對接接觸。D-SCRIPT的殘基接觸子產品的輸出是一個蛋白間接觸圖C,其中C中的元素Cij可以解釋為蛋白S1的殘基i與蛋白S2的殘基j接觸的機率。本文驗證了訓練後生成的接觸圖與設計目标是一緻的:對應于負例的接觸圖Cij分數應該接近零,而對應正例預測的接觸圖應該是稀疏的,但有孤立的高分數區域。作者發現通常情況下确實是這樣的,并在圖4中展示了一些例子:正例的最大C值高,負例的最大C值低。

接下來,作者試圖測試矩陣C是否在實體上代表實際的對接機制的互相作用。作者強調,這是一個很高的标準,因為他們沒有為模型提供任何三維資訊,也沒有任何對接指導,原則上,在矩陣C不具備實體精度的情況下,模型可以很好地完成分類任務。本文使用Hwang等人的對接蛋白結構基準資料集進行了這項測試。基準集中每個PDB複合體中的每一對鍊生成一個候選PPI。作者在295個候選PPIs上應用了本文的人類資料訓練的模型,并根據真實接觸點評估了預測的接觸圖(在8埃進行評估)。在D-SCRIPT預測了互動作用的情況下,作者發現接觸矩陣C實際上基本概括了真實接觸點(圖4a,4b)。甚至在某些情況下, D-SCRIPT沒有預測的互動,C的分布Cij分數仍然是真實的(圖4c)。作者發現,接觸圖C與真實值顯著相似,即使在D-SCRIPT不能預測互動作用的情況下,C接觸圖與ground truth的相似性也高于随機基線。

MIT | 一種可解釋的PPI預測模型

圖4 D-SCRIPT正确預測時的接觸圖與真實值比較

4

總結

本文介紹了一種可解釋的基于序列的PPI互相作用預測方法——D-SCRIPT。結果表明,它的預測比其他方法更适用于與組成蛋白互相作用的訓練執行個體較少的PPIs,更重要的是适用于隻針對不同物種的蛋白序列進行訓練的跨物種環境,有點類似遷移學習。D-SCRIPT說明,學習單個蛋白質的語言也有助于解碼蛋白質互相作用的語言。