天天看點

Nat. Commun. | 深度學習探索可程式設計RNA開關

Nat. Commun. | 深度學習探索可程式設計RNA開關

1.背景

具有特定生物學功能的工程RNA分子在合成生物學中發揮着重要作用,特别是作為小分子、蛋白質和核酸的可程式設計反應元件;例如作為核糖開關、核糖調節因子和核酶,且在體内和體外都可應用。工程RNA分子功能的多樣性給這種新興的合成生物學預測模型的設計和驗證帶來挑戰。

目前,用于揭示RNA序列、結構和行為之間基本關系的研究主要集中在機械熱力學模組化和低通量實驗上,這些實驗往往不能提供足夠的預測性和可操作性的資訊來幫助設計RNA工具。而相比之下,由一系列計算構成的深度學習是非常适用于複雜且高度組合的生物學問題的特征識别,比如合成RNA工具的序列設計空間。但是,深度學習在RNA合成生物學中預測功能的應用受到資料集不足的限制。

Toehold開關是一類多功能原核生物核糖調節劑,可以通過完全可程式設計的反式RNA觸發序列的存在誘導,代表合成生物學中的基準RNA元件;此RNA合成生物學元件功能多樣,既可以在體内作為遺傳線路元件,也能作為體外無細胞蛋白質合成(CFPS)系統核的酸診斷工具。類似于其他RNA合成生物學工具,相當一部分toehold開關性能較差,即使已經努力基于低通量資料集來建立合理的、機械的規則以提高性能的測試實驗,其實際效用還沒有定論。考慮到toehold開關設計的廣泛适用性,本文開發了一個深度學習平台,以預測toehold開關作為合成生物學中的經典RNA開關模型的功能。

2.方法

首先使用高通量DNA合成和測序管道來擴充可用的toehold資料集的大小,以表征超過105個toehold開關。然後使用這個全面的資料集來證明直接用開關 RNA序列訓練的深度神經網絡在預測toehold開關功能方面可以優于熱力學和動力學分析。此外,通過利用核苷酸互補矩陣輸入表示法來可視化標明模型中重要的學習到的二級結構模式,進而提高深度學習方法的透明度。這種注意力可視化技術,我們稱之為VIS4Map(可視化二級結構顯著圖),此技術可以通過深度學習模型用來準确預測toehold轉換功能的二級結構來識别RNA子產品的成功和失敗模式。所得的資料集、模型和可視化分析(圖1)在高通量RNA合成生物學工具設計的驗證和可解釋性方面向前邁出了實質性的一步,超越了目前機械RNA二級結構模組化的限制。

Nat. Commun. | 深度學習探索可程式設計RNA開關

為了最大化有助于二級結構的開關區域中的序列多樣性,作者選擇了來自于Green等設計的第一代toehold開關架構。病毒基因組于2018年11月6日從

https://www.ncbi.nlm.nih.gov/genome/viruses/

獲得。使用230 bp的寡核苷酸設計了244,000個toehold開關突變體,由公司訂購并合成。配置Flow-seq管道;進行深度測序和讀取計數分析;控制庫的品質:重複管道的ON / OFF相關的測量,比較相關性R2;進行無細胞開關驗證;使用ViennaRNA,Kinfold和RBS電腦進行計算。為了比較資料集中測得的最佳和最差突變體之間的序列水準基序,在觀察到的功能值尾部進行了k-mer搜尋,以尋找過度代表的序列基序。

深度學習模型架構:分别使用了MLP-理性特征;MLP-OneHot seq;MLP-混合理性特征/ OneHot seq;CNN-OneHot seq;CNN-2D互補圖和LSTM-OneHot seq;考慮到由于模型缺乏驗證集的改而觸發的20個epoch的提前終止,所有模型都最多使用300個epochs進行訓練。所有模型的批處理大小為64 *(1 + ngpus),其中ngpus定義為模型訓練期間使用的圖形處理單元的數量。所有訓練的回歸模型均使用“十倍交叉驗證”對報告的名額進行了驗證,而分類訓練的模型則按在三個改組的測試集上進行了評估。

資料平衡:作者嘗試了幾種方法來解決不平衡OFF狀态資料的局限性,而有趣的是,得到的結果僅對由R 2、AUROC和AUPRC測得的模型的精度産生了很小的改進。這表明,通過使用未轉換和不平衡的資料,本文的模型已經可以在涉及的架構下實作幾乎最佳的性能。

互補矩陣和VIS4Map:此技術可以用于生成熱圖編碼的在空間上與互補性圖中的toehold區域相關的顯着性圖圖像,進而可以進行準确的預測。

3.結果

庫合成與驗證:文章的toehold開關文庫由244,000個觸發序列設計和合成,該觸發序列涵蓋了23種緻病病毒的完整基因組、906個人類轉錄因子的整個編碼區和10,000個随機序列。選擇RNA工具後,進行文庫合成和表征,并使用深度神經網絡(DNN)進行分析,以提供功能預測和生物學見解(圖1)。作者從一個合成的寡核苷酸庫中生成了兩個用于ON和OFF狀态的建構文庫。對于Flow-seq toehold開關庫的特性和觸發本體如圖2所示。

使用RNA二級結構模型的理性分析:對生物學序列資料的K-mer搜尋通常用于發現基序,在我們的資料集中發現了某些過表示的基序(圖 3a),但利用這些并不能顯着改善開關行為的功能預測。對于30個最新的熱力學功能,獲得了Pearson相關性和核糖體結合位點(RBS)電腦的輸出(圖 3b),發現當使用較大的資料集分析這些理性特征時,它們不能很好地預測toehold開關功能,雖然可測量,但其相關性對于在特定RNA合成生物學工具的計算機輔助設計中的實際應用而言太弱。

Nat. Commun. | 深度學習探索可程式設計RNA開關

使用多層感覺器(MLP)模型改進的預測:以MLP模型為基本體系結構(圖3c)。首先在資料集上訓練了一個三層MLP模型,其輸入包含先前計算的30個熱力學有理特征。當在回歸模式下訓練時,該模型能夠得到在R2和平均絕對誤差(MAE)上比單個理性功能或RBS電腦更好的預測(R2:ON=0.35,OFF=0.25,ON/OFF=0.20)(圖3d、e)。當該模型在分類模式下訓練時, 它在接收者-操作者曲線(AUROC)下達到了0.76,在精度-召回曲線(AUPCRc)下達到0.18。MLP模型的表現略好于訓練在相同理性特征上的邏輯回歸(圖d-f),這表明與更簡單的非層級模型相比,MLP架構能夠從這些特征中提取出更進階的模式。

與有理特征相比,在純序列輸入上訓練時性能的提高表明,當對toehold開關序列進行熱力學計算時,會出現顯著的資訊丢失。結果表明,雖然有理特征的使用可能有助于提取toehold開關功能的潛在相關資訊,但如果給出足夠的訓練資料,隻有one-hot僅序列的MLP模型可以在沒有先驗假設的情況下恢複這些資訊。

另外用兩輪驗證來評估該純序列MLP模型的生物學泛化程度,當分别在有理功能、one-hot序列和串聯輸入上進行訓練時,該MLP模型獲得了0.70、0.81和0.79的AUROC(圖3g)。當直接根據核苷酸序列而不是熱力學特征來訓練模型時,即使是對于外部資料集,性能也有所改善,這表現了使用深度學習和高通量資料集對RNA合成生物學工具進行模組化的價值,消除了目前對機械理性參數的假設。

Nat. Commun. | 深度學習探索可程式設計RNA開關

高容量模型的預測性能:在一個熱序列輸入上訓練了CNN,在一個熱序列輸入上訓練了LSTM,并在二維one-hot互補圖表示輸入上訓練了CNN。在對這些模型進行回歸模式下的R 2和MAE以及分類模式下的AUROC和AUPRC的評估之後(圖 4a–d),我們得出的結論是,與序列相比,這些神經網絡體系結構并不能産生更好的預測模型前文所述的基于三層的MLP。在這些情況下,增加的模型容量會導緻拟合不足或過度拟合,是以需要更多的訓練示例或改進的微調以加速有效的訓練。

在one-hot序列輸入上訓練CNN和LSTM,在二維和one-hot互補地圖表示輸入上訓練CNN。在評估了回歸模式下的R2和MAE以及分類模式下的AUROC和AUPRC(圖4a-d)後,得出結論:與前面描述的基于序列的三層MLP相比,這些神經網絡結構并沒有帶來更好的預測。在這些情況下,增加模型容量會導緻過低或過高的拟合,需要額外的訓練執行個體或改進的微調來加速有效的訓練。

Nat. Commun. | 深度學習探索可程式設計RNA開關
Nat. Commun. | 深度學習探索可程式設計RNA開關

可視化學習到的RNA二級結構基序:為了實作這種可視化,作者在二維核苷酸互補圖表示上訓練了CNN(圖 5a),以便在在這個二級結構空間中進行注意模式可視化。由CNN在互補圖輸入上訓練産生的顯著圖主要包含對角線特征,這些特征顯示出與NUPACK基于其MFE計算的預測MFE結構在統計上顯著一緻的程度(圖5b,c)。是以,在沒有事先了解NUPACK用于計算MFE的算法或參數的情況下,該CNN能夠學習與NUPACK類似的抽象概念,使用這些抽象概念利用互補圖輸入表示法直覺地可視化潛在的相關RNA二級結構。作者将這種解釋RNA深度學習模型的方法命名為可視化二級結構顯著圖(VIS4Map)

當在回歸模式和分類模式下對互補圖表示進行訓練時,VIS4Map的表現明顯優于對理性熱力學特征進行訓練的MLP,且該CNN模型産生的顯著圖顯示了清晰的對角二級結構特征(圖5d)。通過平均顯著圖并發現共享結構與開關發夾的設計目标結構相對應,證明了這些特征的生物學相關性(圖5e)。進一步分析平衡結構之外的學習特征,使用toehold開關OFF信号對顯著圖進行排序(圖5f);發現被二級結構抑制的RBS的遺漏表達可能是由于抑制結構錯誤折疊成不太穩定的動力學中間構象(圖5f右)。

4.讨論

本文提出了一種高通量的DNA合成、測序和深度學習管道,用于可程式設計RNA開關的設計和分析。證明了使用深度學習方法直接分析序列而不是依賴于機械熱力學和動力學模型的計算的好處;也證明出本文模型的強大生物學泛化能力。作者希望這項工作能夠鼓勵使用高通量資料收集來訓練深度學習系統,并與不受熱力學或動力學二級結構模型限制的更具解釋性的神經網絡架構配合使用,以改善RNA合成生物學的預測和見解。

繼續閱讀