天天看點

Nat. Commun | 結合二維深度神經網絡和遷移學習 預測RNA二級結構

Nat. Commun | 結合二維深度神經網絡和遷移學習 預測RNA二級結構

研究背景

RNA分子是生物體内參與各種如細胞分化、代謝、記憶存儲等重要生命活動的一類大分子,其常見的種類有rRNA、mRNA、tRNA。近年來越來越多的實驗表明RNA似乎無處不在、無所不能,而事實上,編碼用的mRNA才占1.5%,而非編碼RNA則占據了人類基因組的75%。但是我們對絕大多數的非編碼RNA了解甚少,主要原因是缺乏結構資訊,因為結構決定功能,不知道結構,我們就無法推測其功能。

RNA的三維結構往往是在先形成的二級結構的架構上堆疊而成的,是以知道二級結構對于RNA結構模組化和了解其功能機制至關重要。二級結構是指RNA序列各個位置有氫健互補配對的堿基(例如第i個堿基與第j個堿基(i:j)有氫健相連),而鄰近不間斷多個配對堿基的堆積(i:j ,i-1:j+1,i-2:j+2等)所形成的螺旋長莖區是二級結構穩定的關鍵。如下圖所示,二級結構的二維描述是螺旋莖區加無堿基配對的各種環狀結構(Hairpin Loop發夾環;Multiple Loop多環;Internal Loop内環;Bulge Loop凸環),它也可以通過一維的堿基連接配接圖來顯示。

Nat. Commun | 結合二維深度神經網絡和遷移學習 預測RNA二級結構

雖然二級結構是關于堿基的配對,但堿基的配對不僅僅有二級結構的資訊。RNA序列通常是由四個堿基(A,C,G,U)的排列組合所組成。在兩個堿基配對裡,AU和GC配對最穩定、被稱為Watson-Crick配對,GU是次穩定的配對(Wobble base pair)。其它堿基之間也能配對,它們被稱為非規範堿基對,往往需要靠三維結構才能穩定下來。需要三維結構來穩定的還有孤堿基對(沒有多個配對堿基的堆積)以及各種假結結構(Pseudoknot)(例如,一個莖環結構的莖的一半插入了另一個莖環結構的莖結構,相吻發夾(kissing hairpin),發夾-突環接觸等,圖二)。是以,完整的RNA堿基配對資訊隻有通過昂貴而且費時的三維結構測定才能精确獲得。

但是最近十多年來,預測二級結構的精度一直在一個水準上徘徊不前(50%的覆寫率,75-83%的精确度),這主要是下列原因:1)目前幾乎所有的方法是基于折疊的算法(folding algorithm),需要一個能量函數來尋找最低自由能的狀态,但目前的能量函數過于簡單,無法描述複雜的RNA互相作用,2)大多數二級結構預測隻關心長螺旋莖區的規範堿基對(AU,GC,和GU),而不考慮孤堿基對和非規範堿基對,這無疑會對尋找最低自由能帶來不利的影響,3)沒有什麼好的方法來獲得假結,因為假結對環境非常敏感。

與RNA二級結構預測對應的是蛋白質氨基酸殘基間的接觸圖預測(contact map prediction)。最近幾年來,通過深度學習,蛋白質二級結構和接觸圖預測的精确度有了極大的改善,并且提出了Raptor-X和SPOT-Contact等方法。本文受這些方法的啟發,提出了一種可以用于預測RNA二級結構的深度學習模型—SPOT-RNA。該方法在預測假節、孤堿基對、和非規範堿基對(需要三維結構穩定的堿基對)上的改進更大。這個結果表明,用折疊算法來預測RNA二級結構的精确度上限可以用折疊以外的方法(深度學習+遷移學習)來打破。

Nat. Commun | 結合二維深度神經網絡和遷移學習 預測RNA二級結構

方法介紹與結果展示

SPOT-RNA主要包括兩個部分:(1)初始訓練,通過從bpRNA (具有超過100,000個自動注釋二級結構的RNA序列的大型資料庫)建構非備援RNA序列集來訓練ResNets和LSTM模型(2)遷移學習,将第一步訓練後的模型遷移到另一個高分辨率非備援RNA序列資料集進行進一步訓練和預測。

1

初始訓練(Initial training by bpRNA)

初始訓練是使用包含13,419個RNA的資料集,進一步随機分成三部分,10,814個RNA作為訓練集(TR0),1300個RNA作為驗證集(VL0)和1,305個RNA作為測試集(TS0)。将資料以ont-hot形式輸入,訓練了多個參數不同的深度學習模型,并挑選和內建了在VL0上表現最好的五個模型,結果如下表所示。模型在驗證集和測試集上的MCC相差不大,驗證了模型良好的魯棒性。

Nat. Commun | 結合二維深度神經網絡和遷移學習 預測RNA二級結構

2

遷移學習(Transfer learning with RNA structures)

将初始訓練得到的模型轉移到高分辨率非備援的新資料集上,新資料集的訓練集(TR1)、驗證集(VL1)以及測試集(TS1)分别為120、30和67個RNA,并且使用CD-HIT-EST和BLAST-N對資料進行了進一步處理來消除序列同源性。如下圖所示,遷移學習的各項名額都全面超過初始訓練和直接訓練,驗證了遷移學習的有效性。

Nat. Commun | 結合二維深度神經網絡和遷移學習 預測RNA二級結構

3

RNA二級結構預測方法的比較

如下圖所示,a展示了內建遷移模型和其他十二種方法在TS1上的召回率曲線,b展示了各種方法在單個RNA上F1值的分布情況,方框的中心和上下邊框分别表示中位數、75百分位數和25百分位數,離群點(outliers)用“+”來表示。

Nat. Commun | 結合二維深度神經網絡和遷移學習 預測RNA二級結構

4

去除非規範堿基對後模型性能比較

上述比較實驗對于SPOT-RNA來說比較有優勢,因為幾乎所有的其他方法都隻能對标準堿基對進行預測,其中也包括Watson-Crick堿基對和Wobble堿基對。是以為了證明SPOT-RNA的有效性,本文将資料集中的非規範堿基對剔除後再一次進行了實驗對比,實驗結果表示SPOT-RNA仍然具有最佳的表現,相比于第二名至少有6%的效果提升,結果如下圖所示:

Nat. Commun | 結合二維深度神經網絡和遷移學習 預測RNA二級結構

5

與假節關聯的堿基對預測問題

與假節關聯的堿基對一直是個十分具有挑戰性的問題,因為他們往往與難以預測的三級互相作用相關。為了能夠進行更加直覺的比較,論文将假結對定義為移除後便成為無假結二級結構的最小堿基對數。下圖給出了各種方法的實驗效果對比,盡管所有模型在假節上的效果都表現不佳,但SPOT-RNA的F1得分相比于第二名仍然提高了52%。

Nat. Commun | 結合二維深度神經網絡和遷移學習 預測RNA二級結構

6

在不同基元的二級結構上的性能比較

RNA的二級結構根據不同的基元具有不同的結構類型,使用bqRNA對每一個二級結構根據基元來分類就能得到不同的類别,針對這些類别分别進行實驗,雖然在某些類别上的F1得分略低于其他方法,但是在大多數類别上均優于其他方法。

Nat. Commun | 結合二維深度神經網絡和遷移學習 預測RNA二級結構

7

在TS2上的性能比較

為了進一步驗證模型性能,使用NMR建構了另一個包含39個RNA二級結構的測試集TS2,與TS1相同,TS2也使用CD-HIT-EST和BLAST-N消除了備援性。下圖a展示了SPOT-RNA以及其他方法在TS2上的精度-召回率曲線,SPOT-RNA的表現仍然最佳。此外,下圖b展示了F1評分在中位數、25百分位和75百分位數上的分布。SPOT-RNA以最小波動率達到最高的中位F1評分。但在此處沒有對假節預測的效果進行比較,原因是TS2的假節中堿基對數量太少(僅有21對),無法進行有說服力的實驗。

Nat. Commun | 結合二維深度神經網絡和遷移學習 預測RNA二級結構

8

在最新的6個RNA上的性能比較

作者還收集了近期剛得知其二級結構的6個RNA,并在其上進行了對比實驗,實驗結果如下,除了d和f以外,SPOT-RNA的F1得分均高于其他方法。

Nat. Commun | 結合二維深度神經網絡和遷移學習 預測RNA二級結構

結論

本文提出了一個基于RNA序列來預測其二級結構的深度學習模型—SPOT-RNA,該方法的主要優點是可以對所有的堿基對進行訓練和預測,而相比之下,基于折疊的方法則必須有精确的能量參數來捕獲非正則堿基對,并且需要複雜的算法來進行全局最小搜尋來對假節點配對進行解釋。作者還在多個資料集上用不同的評價名額分别進行了對比實驗,證明了SPOT-RNA的魯棒性和有效性。