天天看點

UDSMProt:蛋白質分類通用深度序列模型

UDSMProt:蛋白質分類通用深度序列模型

今天給大家介紹由德國弗勞恩霍夫·海因裡希·赫茲研究所的研究人員發表在Bioinformatics上的一篇文章。該文章針對大多數蛋白質分類的最先進方法都是為單個分類任務量身定制,并且依賴手工制作特征的問題,提出了通用的深度序列模型UDSMProt。該模型在來自Swiss-Prot的未标記蛋白質序列上進行了預訓練,并在蛋白質分類任務上進行微調,然後應用于三個典型任務。實驗結果表明,UDSMProt與針對這些特定任務量身定制的最新算法的性能相當,并且對于三分之二的任務,UDSMProt的性能更好。

1

介紹

從氨基酸的潛在序列(一級結構)推斷蛋白質特性是生物資訊學中一個長期存在的主題,而且由于測序技術的進步以及大量具有未知特性的蛋白質的存在,這個主題尤為重要。推斷蛋白質特性的方法有很多,大多數都利用了手工制作的特征,但是源自多個序列比對的手工特征依賴于比對算法,該算法的時間複雜度無法跟上目前蛋白質資料庫的大小和指數增長。為了突破這些瓶頸,人們開始提出能夠直接從單獨的氨基酸序列直接預測蛋白質特性的方法,其中自然語言處理(NLP)的自監督算法是在這個方向上很有希望的方法。在自然語言進行中,自監督方法在各種各樣的任務中顯示出廣闊的前景,它們通過使用自回歸語言模組化或自動編碼任務進行預訓練來利用未标記的大型語料庫中的隐式特征。相關研究表明,使用自監督進行預訓練的模型性能有顯着改進,可以有效利用來自預訓練的生物學敏感資訊。

本文中作者的主要貢獻為三點:(1)提出了用于蛋白質分類的通用深度序列模型(UDSMProt),該模型在Swiss-Prot上進行了預訓練,并針對特定的分類任務進行了微調,而無需進行任何針對特定任務的操作修改。(2)該模型能夠達到甚至超過了最先進的蛋白子分類算法的性能水準,其中許多算法都利用了PSSM特征。(3)證明了UDSMProt對于小型資料集的特殊有效性。

2

模型

作者指出UDSMProt的想法是将自監督的預訓練應用于最新的使用語言模組化任務的遞歸神經網絡(RNN)架構。通過這種方式,模型從未标記的資料中學習隐式表示,這些隐式表示可用于下遊分類任務,作者希望在僅輸出層的維數必須适應特定任務的通用單一體系結構中解決一系列不同分類問題。為了對下遊分類任務進行微調,所有嵌入權重和長短期記憶(LSTM)權重都使用從語言模型預訓練中獲得的同一組權重進行初始化。

在語言模型訓練期間,作者使用了可變長度序列的時間反向傳播(BPTT)對梯度進行反向傳播,并且輸出層仍與嵌入層的權重聯系在一起。對于分類器訓練,作者使用BPTT進行文本分類。作者的遷移學習訓練過程如下:第一步,在Swiss-Prot資料庫中訓練語言模型。第二步,将語言模型的輸出層替換為concat池化層和兩個完全連接配接的層。在對分類器進行微調時,作者逐漸逐層解凍層(總共四個)以進行優化,與之前的各個層組相比,作者将學習率降低了兩倍。單個模型通過構造隻能以單向方式捕獲上下文,作為将雙向上下文納入最終預測的最簡單方法,使用相應的微調分類器訓練單獨的前進和後退語言模型,通過對兩個分類器的輸出機率求平均來獲得整體模型。所有超參數均根據模型在單獨的驗證集上的性能進行了優化,在所有情況下,作者都使用二進制/分類交叉熵作為損失函數和AdamW優化器,除此之外,還有一個潛在的中間步驟是根據分類步驟對語料庫進行微調,改進了下遊分類性能。

UDSMProt:蛋白質分類通用深度序列模型

在下面的實驗中作者大多直接将其與預定義資料集上其他文獻報道方法的結果進行比較。為了将所提出的方法的結果與最新性能聯系起來,作者使用了一個基準模型,該模型在文獻基準測試上達到了最新性能,是以可以用作文獻中考慮的模型的代替。在基準模型中,作者使用PSI-BLAST方法來輸入特征,使用和其他文獻報道中一樣的參數,基準模型是由一個七層的卷積神經網絡(CNN)組成。

3

實驗

作者主要示範了UDSMProt在三個原型蛋白質分類任務上的功能,分别為酶類别預測,基因本體(GO)預測和遠端同源性檢測。

酶類别預測 本節中的主要實驗分兩步進行:1.在定義明确的實驗環境中針對自定義資料集的拟議方法與基于PSSM功能運作的基線模型進行比較2.作者直接與文獻結果進行比較,證明所提出的方法确實達到或超過了該任務的最新性能。除了現有的DEEPre和ECPred資料集,作者還使用兩個定制的EC40(相似度門檻值40%)和EC50(相似度門檻值50%)資料集,提供所有叢集成員。作者使用有代表性的序列訓練CNN模型,因為這大大減少了确定PSSM特征的計算負擔,UDSMProt通常使用包括備援序列的完整訓練集進行訓練,而相應的測試和驗證集始終僅包含非備援序列。

表1 在EC40和EC50上的EC分類準确率

UDSMProt:蛋白質分類通用深度序列模型

在所有實驗中,CNN(seq;non-red)與CNN(seq+PSSM;non-red)之間在性能上都有明顯的差距,這強烈表明PSSM功能的強大功能。可以通過使用來自訓練群集(CNN(seq))的備援序列來減少此差距,最重要的是,可以通過使用語言模型預訓練來縮小差距, 性能最佳的UDSMProt優于使用PSSM功能的基準算法, 結合來自前向和後向上下文的資訊,始終比具有單向上下文的模型更好。另一個觀察結果是,與從頭開始訓練的模型相比,預訓練具有一緻的優勢.。作者還指出UDSMProt分類模型從下遊分類任務的備援訓練序列中獲得的好處是,相似性門檻值越低,收益越大。比較不同相似度門檻值的相應結果,即EC40與EC50的結果,揭示了預期的模式,因為降低相似度門檻值會使分類任務複雜化,因為測試序列與訓練集的序列重疊較小。

表2在ECPred和DEEPre上的EC分類準确率

UDSMProt:蛋白質分類通用深度序列模型

為了将UDSMProt與最新方法聯系起來,作者對文獻提供的ECPred和DEEPre兩個資料集進行了實驗,表2顯示了相關實驗結果,與不考慮那些包含功能注釋(例如Pfam)的功能的文獻方法相比,作者的基準模型達到了最新的性能,是以可以在以下研究中用作最新算法的代替,作者所提出的UDSMProt模型在兩個文獻資料集上都具有很強的競争力。

作者為了證明在較小資料集的情況下UDSMProt方法的特殊優勢,進行了連續減少訓練集大小的實驗,同時保持測試和驗證集固定不變,使用完整的訓練資料将超參數固定為運作參數。試驗結果表明,雙向UDSMProt模型總是勝過CNN基線模型,對于較小的資料集兩個模型之間的差距會增加,經過預訓練的模型性能也更好。

UDSMProt:蛋白質分類通用深度序列模型

基因本體(GO)預測 為了說明整合不同分類器的前景,作者報告了将預先訓練的(向前和向後)模型與DiamondScore的BLAST結果進行整合的結果,使用與Kulmanov和Hoehndorf(2019)相同的相對權重。為了直接與最新技術進行直接比較,作者使用了基于時間的分割構造的資料集。

表3 GO預測性能

UDSMProt:蛋白質分類通用深度序列模型

表3中的結果證明了UDSMProt在GO預測領域的強大性能。特别是,就三個GO類而言,在Fmax方面,前向後向模型均優于基于神經網絡的最新方法,甚至在CCO類别的所有最大Fmax單模型方法以及所有三個類别的精确召回曲線(AUPR)下的面積方面,都達到了最新結果。結合Kulmanov和Hoehndorf(2019)的預測與DiamondScore的BLAST-KNN功能相結合,在Fmax和AUPR方面與最新的內建方法相比甚至具有非常好的競争性結果。

遠端同源性和折疊檢測 作者根據SCOP資料庫進行遠端同源性檢測,為了使過程盡可能簡單,作者為給定任務的所有資料集保留一組全局超參數。該過程如下,因為沒有為原始資料集提供驗證,作者将訓練資料分為基于CD-HIT聚類(門檻值0.5)的訓練和驗證集,在驗證集中測得的給定任務的所有資料集的平均AUC優化超參數,并基于驗證集AUC執行模型選擇,即對于每個單獨的資料集,作者驗證AUC最高的時期選擇模型。

表4 遠端同源性和折疊檢測性能

UDSMProt:蛋白質分類通用深度序列模型

根據圖四結果,根據大多數名額進行同源性和倍數檢測從頭開始訓練的UDSMProt模型的性能要比原始LSTM模型差,通過使用語言模型預訓練可以克服此缺陷,其中兩種單向模型的性能都優于LSTM基線模型,所提出的方法在折疊和超家族水準上也明顯優于經典方法。作者指出遠端同源性和折疊檢測的出色結果支援了UDSMProt的普遍性以及在小資料集規模方面的特殊優勢。

4

總結

在這項工作中,作者利用NLP在此方向上的最新進展,研究了蛋白質分類任務的自監督預訓練的前景。除了對氨基酸序列進行微調的步驟之外,沒有特定任務修改的單一通用模型體系結構UDSMProt在許多方面都可以達到甚至超過最新技術水準蛋白質分類任務,這是通過自監督的預訓練強大而隐式學習的表示來實作的。而大多數最新算法都利用了從BLAST資料庫搜尋中獲得的PSSM功能,這些功能随資料集大小的增加而不利地擴充,UDSMProt對于小型資料集也顯示出特殊的優勢。