天天看點

eLife | 利用進化資訊預測蛋白質界面間殘基-殘基互相作用

導語:蛋白質在進化過程中,會發生氨基酸突變,破壞了殘基之間的互相作用而導緻蛋白質結構不穩定,若此時與突變殘基具有互相作用的殘基也随之發生突變,且構成新的互相作用,使蛋白質結構保持穩定,稱這種變化為蛋白質共進化。本次介紹一篇由美國華盛頓大學霍華德休斯醫學院研究團隊于2014年5月發表在eLife上的一篇文章,該文章利用共進化資訊實作了對蛋白質間殘基-殘基互相作用的魯棒且準确的預測。

eLife | 利用進化資訊預測蛋白質界面間殘基-殘基互相作用

1

研究背景

蛋白質是連續的氨基酸序列經過盤曲折疊形成特定的三維結構。蛋白質必須有正确的形狀才能正常運作,因為它們通常通過與其他蛋白質或分子結合而起作用。兩個或多個蛋白質可以結合在一起,形成複合體來執行各種任務;研究這些複合物的結構是一項挑戰,即使是在已知蛋白質亞基結構的情況下也是如此。作者注意到在蛋白質複合物中,來自不同蛋白質的氨基酸發生共進化時,這兩個氨基酸往往會在蛋白質-蛋白質界面上發生接觸。本文的作者開發了一種方法,利用共進化資訊來預測在蛋白質複合物(two-protein complex)中哪一部分蛋白質發生了互相接觸。

2

研究方法

(1)生成單個對齊

用HHblits和HHfilter對由EcoGene 3.0鑒定的4303個大腸杆菌蛋白基因進行多序列比對。為了減少備援,作者為每個MSA(多序列比對)構造HMMs并且基于HHΔ( 衡量HMM-HMM相似性:如果一對基因的HHΔ小于0.5,則劃分為同一簇)聚簇基因,生成了2340個非備援基因簇。

對于基準資料集, 使用與每個PDB關聯的序列生成新的對齊。對于50S核糖體和NADH脫氫酶,作者使用來自PDB結構3uxr和4hea的嗜熱菌HB8序列。

對于同源的NADH脫氫酶鍊L,M和N,作者在對齊生成協定中将e-value置為1E-60。除了來自大腸杆菌分析的複合物外,作者還使用來自PDB結構3ip4的序列将GatCAB酰胺基轉移酶複合物納入基準集中。對于PDB序列長度比平均長度範圍長得多的情況,作者将覆寫範圍過濾器修改為查詢的50%。然後使用clustal omega v1.2重新比對序列。查詢序列中不存在的殘基不納入後續分析中。

(2)生成配對對齊

作者從同一基因組中建構成對的蛋白序列[x1, x2, …, xp; xp+1, …, xp+q] ,位置1:p和p+1:p+q分别對應兩個蛋白質。将這樣一對蛋白質的多序列比對稱為配對對齊。

對于基因組中有單拷貝基因的基因家族,如核糖體蛋白,很容易建構配對對齊,因為來自同一基因組的序列對可以直接連接配接。雖然在單基因組中一個基因存在的多個旁系同源基因的情況下,生成配對對齊的過程通常是複雜的,但在原核生物中,共同調控的基因通常在基因組中共同定位于操縱子中。作者限制使用具有小的,保守的基因間距離的基因對來建立配對序列,以此規避旁系同源基因。相似的方法被用于建構原核基因組中融合蛋白的資料庫。将Δgene定義為一個基因對之間的注釋基因數,我們僅考慮Δgene在60%的基因組中保守且小于20的基因對。考慮到在一個基因組中,大多數UniProt accession IDs是連續配置設定的,可以通過檢視UniProt accession IDs的差異進而快速評估Δgene。然後對配對的比對進行過濾,以将備援度降低至90%序列同一性,并去除缺口大于75%的位置。

(3)蛋白質複合體結構識别

為了在複合體結構中識别蛋白質對,對每一個大腸杆菌蛋白,用已生成的HHblits對齊構造HMM。接着使用hmmsearch在S2C資料庫中掃描PDB序列。隻考慮滿足e-value小于1E-10的比對。

(4)用配對對齊建構Gremlin模型

Gremlin為每個配對對齊構造一個全局統計模型,為配對對齊中的每一個氨基酸序列配置設定一個機率。

eLife | 利用進化資訊預測蛋白質界面間殘基-殘基互相作用

其中,Vi是編碼位置特異性氨基酸傾向的向量,Wij表示編碼位置i和j處氨基酸的耦合矩陣。通過最大化對齊的正則化僞似然度,從比對序列中獲得這些參數,如下:

eLife | 利用進化資訊預測蛋白質界面間殘基-殘基互相作用

總和中的每一項是一個條件分布,該條件分布捕獲了整個蛋白質序列中某個位置特定氨基酸的機率,R(v,w)是防止過度拟合的正則化項。

(5)用Gremlin評分排序殘基對

為了将W ij矩陣簡化為反映位置i和j之間耦合強度的單個值,作者首先計算S ij,即它們的向量2範數。使用這些值的行和列平均值來校正由于不同位置處的序列變異性而導緻的Sij的差異:

eLife | 利用進化資訊預測蛋白質界面間殘基-殘基互相作用

其中,括号表示采用括号之外的指數的平均值,計算方法類似于Average Product Correction(APC)。與APC不同,作者僅通過計算對應于位置i和j的蛋白質位置的平均值來解決兩個蛋白質家族中進化速率的差異:如果i和j都在第一個(第二個)蛋白質中,計算出第一個(第二個)蛋白質的位置上的平均值;如果i在第一個蛋白質中,而j在第二個蛋白質中,則僅在第一個蛋白質的位置上計算列平均值,而在第二個蛋白質的位置上僅計算行平均值。然後,計算歸一化的耦合強度,ncsij,計算方法是用除以前3L/2的平均值。

作者觀察到,當給定的複合物的最高耦合強度分數很高時,殘基接觸發生的頻率越高越。為了解釋這些依賴關系,建立了一個基于細菌50S核糖體複合物估計接觸機率的模型:

eLife | 利用進化資訊預測蛋白質界面間殘基-殘基互相作用

通過與50S核糖體資料中觀察到的頻率的非線性拟合,确定了m、c和σ(分别為0.47、0.96和9.77)的值。

(6)将Gremlin評分轉化成距離限制

作者将耦合強度轉換為特定于殘基對的距離限制,并将其包括在Rosetta結構預測程式中。作者使用以下形式的距離限制:

eLife | 利用進化資訊預測蛋白質界面間殘基-殘基互相作用

其中,d是受限制的原子間距,weight與 ncsij成比例。

(7)比較模組化

使用RosettaCM基于與HHsearch生成的同源結構的比對(Remmert等,2011)建立了比較模型。對于預測會接觸的區域中密度缺失的蛋白質,作者使用RosettaCM與受限制的共進化在對接之前建構缺失區域。

(8)從頭模組化

Rosetta從頭模組化的協定包括兩個階段:在初始階段(“質心”),側鍊由固定的質心原子表示,可以快速生成和評估各種蛋白質樣拓撲結構;第二階段(“全原子”)建立在明确的側鍊中,并實作所有原子能的最小化。YIAM是一種膜蛋白, 由Rosetta膜能量函數模組化。強排斥互相作用(公式1:weight: −100, cutoff: 35, slope: 2 and intercept: 100)被添加到細胞外區域的中心和預測的細胞内區域的中心之間,強吸引限制(weight:100, cutoff:35, slope:2 and intercept: 0)在預測的細胞内區域和細胞外區域内,有效地建構了膜狀采樣空間。使用MESSA的輸出來預測跨膜區域。生成了100,000個模型,并且将最适合限制的20個模型收斂到單個群集。

(9)對接測試集

使用Jackhammer(HMMER v3.1b軟體包的一部分)來識别基準集中18種複合物的子集,其中至少一種蛋白質或緊密同源物的apo形式具有可解析的結構。在結構為同源蛋白(e-value < 1E-20)并且存在大多數界面殘基的情況下,我們使用比較模型生成了目标蛋白的結構模型。

(1)蛋白質-蛋白質對接

對于前3 / 2L預測中的每個限制間對,使用PatchDock v1.0,用聚類參數(rmsd 0.5; discardClustersSmaller 0)生成構象合集,然後使用所有限制對其進行評分。限制得分最高的5個模型使用限制在笛卡爾空間中進行了能量最小化。對于原生接觸分數(Fnat)和界面均方根偏差(iRMSD)的計算,界面殘基-殘基接觸是指任何重側鍊原子之間的最小距離小于5Å。

3

實驗結果

要識别兩個蛋白質A和B之間的共進化殘基對并不容易:隻有當兩個有機體中分别包含蛋白質A和蛋白質B的直系同源蛋白,并且生成A序列和B序列的對齊必須正确配對。為了簡化直系同源鑒定,關注基因組中具有保守染色體位置的基因對,該基因對在基因組中被少于20個其他帶注釋的基因隔開。然後,作者為配對蛋白質家族中的序列建立Gremlin全局統計模型。接下來作者研究了具有較大耦合參數的殘基對。

細菌50S核糖體亞機關中的殘基-殘基共進化

作者從研究細菌50S核糖體亞基中的殘基-殘基偶聯參數開始,這是具有原子拆分結構的最大的進化保守細菌多蛋白複合物。對于複合物中的每個蛋白質,通過查詢UniProt序列資料庫建構多序列比對。對于每個這樣的配對比對,建立一個Gremlin全局統計模型,計算歸一化的偶聯強度,并根據這些評分對蛋白質間殘基對進行排名。偶聯強度大于1表示兩個殘基之間的平均偶聯率更高。

研究發現,在50S核糖體亞基中,隻有一小部分殘基協同進化,如偶聯強度(圖1A的 y軸)大于1.5時,并且大多數殘基對距離在8Å 之内,所有殘基對距離都在12Å之内。

eLife | 利用進化資訊預測蛋白質界面間殘基-殘基互相作用

圖1A

圖1B中顯示了50S結構中共進化殘基對的位置(為了清晰起見,各蛋白被拉開了)。黃線表示距離小于8Å,橙線表示距離小于12Å。對于50S核糖體,使用約1500個非備援基因組的序列資料建立了Gremlin模型。

eLife | 利用進化資訊預測蛋白質界面間殘基-殘基互相作用

圖1B

對于大的蛋白質-蛋白質複合物,複合物中蛋白質對之間的偶聯強度的總和是否可用于區分直接互相作用的和非互相作用的蛋白質對?在50S亞基中,總偶聯強度(圖1C中的數字)大于1.5的蛋白質對,彼此互相作用(圖1C中的方框)。但是,在50S亞基中有一些蛋白對接觸,但沒有發現共進化。顯然,并非每種互相作用都可以通過偶聯強度的總和來确定。

eLife | 利用進化資訊預測蛋白質界面間殘基-殘基互相作用

圖1C

圖1D表明,對于具有大量對齊序列的複合體,基于氨基酸序列共進化的殘基-殘基互相作用預測具有較高的置信度。

eLife | 利用進化資訊預測蛋白質界面間殘基-殘基互相作用

細菌複合體基準

對大腸杆菌的基因對生成配對對齊,對于1126個基因對,建立Gremlin全局統計模型,并确定了每個殘基對的偶聯強度。其中有64對基因對包含Gremlin得分>0.85的殘基對,通過實驗進一步确定了其中28對的三維結構,圖2A中顯示了其中一些複合物的Gremlin得分大于0.6的殘基對的位置。

eLife | 利用進化資訊預測蛋白質界面間殘基-殘基互相作用

圖2A

幾乎所有Gremlin得分大于0.6的配對都在複合物結構中接觸,除了NADH脫氫酶亞基(圖2B)明顯例外。有研究者認為該複合物在電子轉移過程中經曆了一系列構象變化。

eLife | 利用進化資訊預測蛋白質界面間殘基-殘基互相作用

圖2B

結構未知的複合物的接觸預測

在圖3中,作者提供了目前結構未知的36種複合物的殘基-殘基接觸預測。這些預測應該會有助于确定這些生物學上重要的複合物的結構。

eLife | 利用進化資訊預測蛋白質界面間殘基-殘基互相作用

圖3

從接觸預測到結構模組化

預測的接觸對于模組化組建蛋白質複合物有幫助嗎?作者在具有18種蛋白質複合物(複合物的部分結構已知)的對接測試集上進行評估。作者開發了一種對接協定,使用預測的接觸作為距離限制,并采樣了實體上合理的結構空間,以生成蛋白質-蛋白質複合物的模型。

eLife | 利用進化資訊預測蛋白質界面間殘基-殘基互相作用

圖4A

iRMSD(界面均方根誤差)最高的兩種情況(圖4A最後兩行)在圖4B和圖4C中說明。高iRMSD是由于其中一種單體結構的構型在結合後發生了較大變化而引起的。盡管發生了這些變化,模型仍然可以準确識别結合界面。

eLife | 利用進化資訊預測蛋白質界面間殘基-殘基互相作用

圖4B-C

4

總結

作者的研究結果表明,共同進化的殘基對在蛋白質複合物中通常都會發生接觸。當然,并不是所有在蛋白質界面發生接觸的殘基對都會發生共進化。之前的研究表明,隻要有足夠的比對序列,對單體蛋白的接觸預測能達到很高的準确率,但是在這種情況下,必須先已知一個家族蛋白結構,并可以從中建立比較模型,限制了接觸預測在結構預測中的效用。

作者使用提出的新方法對細菌中的28種蛋白質複合物中的蛋白質-蛋白質界面和細菌核糖體中蛋白質亞基之間的界面進行了預測,與真實結構比較後,得到了較高的準确率。下一步是考慮将該方法應用于真核生物中發現的蛋白質複合物。這是一個挑戰,因為真核蛋白可供生成多序列比對的蛋白數量較少,是以更難檢測到共進化現象的發生。

資料與工具

http://gremlin.bakerlab.org/complexes/