天天看點

PHR-search:一個基于預測蛋白質層次關系的蛋白質遠端同源性檢測搜尋框Title:PHR-search: a search framework for protein remote homology detection based on the predicted protein hierarchical relationships一、摘要二、方法與資料集

Title:PHR-search: a search framework for protein remote homology detection based on the predicted protein hierarchical relationships

期刊:Briefings in Bioinformatics

中科院分區/影像因子:一區、6.89

發表時間:2022.1.13

伺服器:PHR-search web server

資料集:PHR-search web server

一、摘要

蛋白質遠端同源性檢測是蛋白質結構和功能預測最基本的研究工具之一。大多數用于蛋白質遠端同源性檢測的搜尋方法是基于蛋白質結構分類擴充(SCOPe)基準進行評估的,但是這些方法忽略了查詢蛋白質和候選蛋白質之間的不同層次結構關系。為了進一步提高蛋白質遠端同源性檢測的預測性能,提出了一種基于預測蛋白質層次關系的搜尋架構(PHR-search)。在PHR-search架構中,通過卷積神經網絡提取隐馬爾可夫模型(HMM)的局部和全局特征來獲得超家族級預測資訊,并根據範圍的層次關系将其轉換為折疊級和類級預測資訊。基于這些預測的蛋白質層次關系,使用過濾政策和重排序政策來建構PHR-search的兩級搜尋。實驗結果表明,PHR-search架構通過采用HHblits、JackHMMER、PSI-BLAST、DELTA-BLAST和PSI-BLASTexB五種基本搜尋方法獲得了最佳的性能。

二、方法與資料集

基準資料集:SCOPe2.06 有28010個序列 組織成4874個家族和2006個超家族

獨立資料集:4129個蛋白質序列

方法:

PHR搜尋架構

PHR-search的架構如圖3所示。該架構包含三個主要子產品:

1)基于三種HMM輪廓表示,構造多類卷積神經網絡(PHR-CNN);

2)根據PHR-CNN在範圍内的層次結構關系和預測結果,建構超家族、折疊和類層次的預測資訊。基于PHR-CNN的預測資訊,計算三類相似度得分,增強對非同源蛋白質的區分能力;

3)利用基于PHR的相似性特征建構過濾政策和重排序政策

PHR搜尋流程圖。

查詢蛋白質的序列。

PHR-search:一個基于預測蛋白質層次關系的蛋白質遠端同源性檢測搜尋框Title:PHR-search: a search framework for protein remote homology detection based on the predicted protein hierarchical relationships一、摘要二、方法與資料集

PHR-CNN流程圖:用于捕獲HMM簡檔的局部到全局資訊的卷積神經網絡體系結構。

PHR-search:一個基于預測蛋白質層次關系的蛋白質遠端同源性檢測搜尋框Title:PHR-search: a search framework for protein remote homology detection based on the predicted protein hierarchical relationships一、摘要二、方法與資料集

 基于預測的蛋白質等級關系的建構相似性得分。

PHR-search:一個基于預測蛋白質層次關系的蛋白質遠端同源性檢測搜尋框Title:PHR-search: a search framework for protein remote homology detection based on the predicted protein hierarchical relationships一、摘要二、方法與資料集

(D)PL-搜尋方法[10]用于檢測PHR-搜尋架構的同源蛋白質。

(E)PHR-search的過濾政策,以減少PHR-search的第一級搜尋中的非同源蛋白質的數量。

(F)PHR-search的重新排序政策,用于提高PHR-search的二級搜尋的排序品質。

 第二種表示是HMM profile的ACC特征矩陣,它是通過參數LG為2的改進的ACC特征提取算法将HMM profile轉換成20∫40的特征矩陣而建構的。在該矩陣中,每行代表标準氨基酸和其他标準氨基酸之間的AC特征和CC特征的關聯。這個特征矩陣的構造算法如算法1所示。

1. 基于HMM模型的三種表示

第一種表示是HMM profile的ACC特征向量,它是通過參數LG為2的ACC特征提取算法将HMM profile轉換成1*800的特征向量而建構的。HMM的ACC特征可以表示為:

PHR-search:一個基于預測蛋白質層次關系的蛋白質遠端同源性檢測搜尋框Title:PHR-search: a search framework for protein remote homology detection based on the predicted protein hierarchical relationships一、摘要二、方法與資料集

第二種表示是HMM profile的ACC特征矩陣,它是通過參數LG為2的改進的ACC特征提取算法将HMM profile轉換成20∫40的特征矩陣而建構的。在該矩陣中,每行代表标準氨基酸和其他标準氨基酸之間的AC特征和CC特征的關聯。這個特征矩陣的構造算法如算法1所示。

PHR-search:一個基于預測蛋白質層次關系的蛋白質遠端同源性檢測搜尋框Title:PHR-search: a search framework for protein remote homology detection based on the predicted protein hierarchical relationships一、摘要二、方法與資料集

 第三種表示是包含氨基酸突變機率和狀态轉移機率的HMM矩陣,它也是由HHblits構造的。該HMM矩陣可以表示為:

PHR-search:一個基于預測蛋白質層次關系的蛋白質遠端同源性檢測搜尋框Title:PHR-search: a search framework for protein remote homology detection based on the predicted protein hierarchical relationships一、摘要二、方法與資料集

其中L表示所有蛋白質的長度設定為400,用于輸入PHR-CNN;φI(A)–φI(Y)是20個标準氨基酸的突變機率,接下來的10行是HMM配置檔案中的狀态轉移機率。

2.卷積神經網絡體系結構

    在本節中,建構了一個卷積神經網絡,用于捕獲HMM簡檔的局部到全局資訊,稱為PHRCNN(圖3B)。PHR-CNN有三個輸入:具有狀态轉移機率的HMM矩陣、HMM的ACC特征矩陣HMM簡檔的ACC特征向量。對于具有狀态轉移機率的HMM矩陣,使用TextCNN來捕獲蛋白質序列的氨基酸之間的局部特征。與普通卷積神經網絡相比,TextCNN使用了三種不同的卷積核來增強捕捉HMM矩陣局部資訊的能力。根據參數LG為2的ACC特征提取算法的視窗大小,将三類卷積核的大小分别設定為k1 : [3,30]、k2 : [4,30]和k3 : [5,30]。在通過卷積核提取HMM矩陣的局部資訊之後,局部特征可以表示為[30]:

PHR-search:一個基于預測蛋白質層次關系的蛋白質遠端同源性檢測搜尋框Title:PHR-search: a search framework for protein remote homology detection based on the predicted protein hierarchical relationships一、摘要二、方法與資料集

在使用三種類型的卷積核提取局部資訊後,最大池層用于提取局部資訊表示中最重要的特征。

為了将蛋白質序列分為不同的超家族,建構了三個緻密層和一個脫落層。前兩個緻密層的激活函數設定為Relu,最後一層的激活函數設定為Softmax,用于超家族分類。為了防止過拟合問題,在最後一層之前增加了一個dropout層。

1)基于預測的蛋白質等級關系建構特征

為了獲得超家族級、折疊級和類級的預測特征,PHR-CNN在超家族級的預測結果根據SCOPe基準的層次結構進行了轉換。基于PHR-CNN的預測資訊有四個預測特征(PHRbased features)。

2)基于預測的蛋白質等級關系的相似性分數

在該部分中,基于基于PHR的特征(基于PHR的相似性得分),使用三種類型的相似性計算方法來計算七個相似性特征。第一類相似度計算方法是通過PHRCNN的預測結果來判斷蛋白質序列對是否屬于同一個超家族。

3) PHR-search的過濾政策和重排序政策

在PHR-search架構中,PL-search [10]方法用于提供檢測結果,因為它提高了基本方法對遠距離同源蛋白質的檢測能力。為了提高檢測結果的排序品質,使用過濾政策和重排序政策來建構PHR-search架構的兩級搜尋。

4)過濾政策

PHR-search的檢測結果由PLsearch的雙鍊和profile-link相似度提供,但雙鍊中的非同源蛋白直接嚴重影響PHR-search的排序品質。為了解決雙鍊中非同源蛋白的影響,采用基于PHR的相似性特征對檢測結果進行過濾。濾波算法如算法2所示。

PHR-search:一個基于預測蛋白質層次關系的蛋白質遠端同源性檢測搜尋框Title:PHR-search: a search framework for protein remote homology detection based on the predicted protein hierarchical relationships一、摘要二、方法與資料集

5)重新排序政策

過濾政策後,PHRR1(q,pi)中檢測結果的排序品質通過過濾非同源蛋白得到了提高,但phr 2(q,pi)的排序品質并不好。為了提高PHRR2(q,pi)的排序品質,LambdaMART算法[35]被用作重新排序政策。基于序列相似度矩陣?S2L-search的2L,一個具有基于PHR的相似性特征的序列相似性矩陣被建構作為LambdaMART的輸入。具有基于PHR的相似性特征的序列相似性矩陣表示為:

3.評估

在本研究中,具有相同蛋白質超家族的蛋白質序列對被認為具有正确的同源關系,而不具有相同蛋白質超家族的被認為是非同源蛋白質。具有相同蛋白質家族的蛋白質序列對具有近同源關系,而具有相同超家族但不同家族的蛋白質序列對具有遠同源關系。使用排序品質和檢測到的同源蛋白質的數量來評估PHR-search架構的性能。對于排名品質,使用ROC1和ROC50分數。對于同源蛋白的檢測數量,使用真陽性(TP)數和覆寫率。覆寫率表示在基準資料集中所有同源蛋白質中檢測到的同源蛋白質的比例。與TP數相比,覆寫率避免了蛋白質超家族間數量差異帶來的不平衡問題的影響。

為了評估PHR-search架構的性能,使用了SCOPe2.06基準資料集上的五重交叉驗證和SCOPe2.07獨立資料集上的獨立測試[39–41]。因為基于PHR的相似性特征和由學習和排序模型[35]重新排序的結果是從5重交叉驗證的預測結果中獲得的,是以訓練和測試過程是完全獨立的[25]。結果和讨論PHR-search架構提高了五種基本搜尋方法的性能為了探索用于蛋白質遠端檢測的PHRsearch架構的性能提高,将該架構應用于五種重要的搜尋方法,包括HHblits [14]、JackHMMER [16]、PSI-BLAST [7]、DELTA-BLAST [11]和PSI-BLASTexB [13]。此外,為了證明PHRsearch架構的優勢,将其與三個相關架構進行了比較,包括PL-search [10]、SMI-BLAST [24]和S2L-PSIBLAST [25]。将PHR-search架構應用于這些基本搜尋方法後,它們的性能在ROC1方面提高了3–7 %(表1)。在基于PHR的方法中,PHR-HHblits在排序品質和檢測到的同源蛋白數量方面獲得了最好的性能。這意味着更好的基本方法導緻更高的PHR搜尋性能。對于PSI-BLAST的兩個改進版本(DELTA-BLAST和PSI-BLASTexB),它們的性能通過PHR-search架構得到了進一步的改進。這意味着PHRsearch架構和這兩個改進版本是互補的。與基于PL的方法、基于SMI的方法和基于S2L的方法相比,PHR-search架構具有更好的性能和通用性。從圖4和表1可以看出:1)除了SMI-BLAST架構和S2L-PSIBLAST架構改進的四個基本方法外,PHRsearch架構也被應用于HHblits,并取得了最好的性能;2)與S2LDELTABLAST相比,PHR-DELTABLAST在ROC1方面的性能進一步提高了2%

4.非同源蛋白質混合到雙鍊中時PHR-search和S2L-search的性能比較

當非同源蛋白質序列混合到基于二級結構的搜尋架構的一級搜尋中時,它們的排序品質受到一級搜尋性能的限制。為了提高基于兩級結構的搜尋架構的性能,在第一級搜尋中過濾更多的非同源蛋白質序列是非常重要的。對于PHR-search和S2L-search,它們的一級搜尋是通過過濾PL-search的doublelink得到的[10]。是以,當非同源蛋白質混合到它們的雙鍊中時,比較PHR-search和S2L-search的性能。從圖7A和https://academic.oup.com/bib,線上提供的補充表S2可以看出:1)經過PHR-search和S2Lsearch的過濾政策後,含有混合非同源蛋白的第一級結果的數量明顯減少;2) PHR-search比S2Lsearch具有更強的過濾能力。對于這些在一級結果中含有混合非同源蛋白的序列,通過PHR-search和S2L-search,它們的性能明顯提高(圖7 b–F)。當非同源蛋白質混合到它們的雙鍊中時,PHR-search的性能優于S2L-search,表明PHR-search的過濾政策和重排序政策更好。

5.PHR搜尋架構下的序列相似性特征分析

在PHR-search架構中,使用22個序列相似性特征來建構序列相似性矩陣,以提高其排序品質。Ranklib2.1.0的FeatureManager工具計算了這些序列相似性特征對于PHR-search架構的重要性。在這22個序列相似性特征中,有14個特征已被S2L-PSIBLAST架構使用[25]。在本研究中,為了進一步提高性能,建構了8個序列相似性特征:1) 7個相似性特征基于基于phr的相似性得分;2)另一個由PHR-search架構的過濾清單和PL-search [10]的二級Jaccard距離構造,稱為PHR2LJaccard相似性特征。

三、結果

PHR-search的獨立測試

PHR-search:一個基于預測蛋白質層次關系的蛋白質遠端同源性檢測搜尋框Title:PHR-search: a search framework for protein remote homology detection based on the predicted protein hierarchical relationships一、摘要二、方法與資料集

 四、結論

在本研究中,我們提出了一個基于預測的蛋白質層次關系的搜尋架構,以提高蛋白質遠端同源性檢測的性能。該架構有效地利用了HMM圖譜中超家族的資訊和預測的蛋白質層次關系,以獲得更準确的兩級搜尋結果。在SCOPe benchmark上的實驗結果表明,PHR-search增強了區分非同源蛋白質的能力,進而提高了排序品質。此外,PHR-search在成功應用于五種不同的基本搜尋方法時,表現出很強的通用性。實驗結果表明,基于預測的蛋白質層次關系建構序列相似性特征是提高蛋白質遠端同源性檢測性能的有效途徑。