編輯 | 蘿蔔芯
預訓練語言模型在分析核苷酸序列方面顯示出了良好的前景,但使用單個預訓練權重集在不同任務中表現出色的多功能模型仍然存在挑戰。
百度大資料實驗室(Big Data Lab,BDL)和上海交通大學團隊開發了 RNAErnie,一種基于 Transformer 架構,以 RNA 為中心的預訓練模型。
研究人員用七個資料集和五個任務評估了模型,證明了 RNAErnie 在監督和無監督學習方面的優越性。
RNAErnie 超越了基線,分類準确率提高了 1.8%,互動預測準确率提高了 2.2%,結構預測 F1 得分提高了 3.3%,展現了它的穩健性和适應性。
該研究以「Multi-purpose RNA language modelling with motif-aware pretraining and type-guided fine-tuning」為題,于 2024 年 5 月 13 日釋出在《Nature Machine Intelligence》。
RNA 在分子生物學的中心法則中扮演着關鍵角色,它負責将 DNA 中的遺傳資訊傳遞給蛋白質。
RNA 分子在基因表達、調控和催化等多種細胞過程中起着至關重要的作用。鑒于 RNA 在生物體系中的重要性,對 RNA 序列進行高效、準确的分析方法需求日益增長。
傳統的 RNA 序列分析依賴于如 RNA 測序和微陣列等實驗技術,但這些方法通常成本高昂、耗時且需要大量的 RNA 輸入。
為了應對這些挑戰,百度 BDL 和上海交通大學團隊開發了一種預訓練的 RNA 語言模型:RNAErnie。
RNAErnie
該模型建立在知識內建增強表示(ERNIE)架構之上,并包含多層和多頭 Transformer 塊,每個 Transformer 塊的隐藏狀态次元為 768。預訓練是使用一個廣泛的語料庫進行的,該語料庫由從 RNAcentral 精心挑選的約 2300 萬條 RNA 序列組成。
所提出的基序感覺預訓練政策涉及基礎級掩蔽、子序列級掩蔽和基序級随機掩蔽,它有效地捕獲了子序列和基序級知識,豐富了RNA序列的表示。
此外,RNAErnie 将粗粒度 RNA 類型标記為特殊詞彙表,并在預訓練期間将粗粒度 RNA 類型的标記附加在每個 RNA 序列的末尾。通過這樣做,該模型有可能辨識各種 RNA 類型的獨特特征,進而促進域适應各種下遊任務。
圖示:模型概述。(來源:論文)
具體來說,RNAErnie 模型由 12 個 Transformer 層組成。在主題感覺預訓練階段,RNAErnie 在從 RNAcentral 資料庫中提取的大約 2300 萬個序列的資料集上進行訓練,使用自我監督學習和主題感覺多級随機掩碼。
圖示:主題感覺預訓練和類型引導微調政策。(來源:論文)
在類型引導的微調階段,RNAErnie 首先使用輸出嵌入預測可能的粗粒度 RNA 類型,然後利用預測的類型作為輔助資訊,通過特定于任務的頭來微調模型。
這種方法使模型能夠适應各種 RNA 類型,并增強其在廣泛的 RNA 分析任務中的實用性。
更具體地說,為了适應預訓練資料集和目标域之間的分布變化,RNAErnie 利用域适應将預訓練主幹與三種神經架構中的下遊子產品組合在一起:具有可訓練頭的當機骨幹網(FBTH)、具有可訓練頭的可訓練骨幹網(TBTH)和用于類型引導微調的堆疊(STACK)。
通過這種方式,所提出的方法可以端到端優化主幹和特定于任務的頭,或者使用從當機主幹中提取的嵌入來微調特定于任務的頭,具體取決于下遊應用。
性能評估
圖示:RNAErnie 捕獲多級本體模式。(來源:論文)
研究人員評估了該方法,結果顯示 RNAErnie 在七個 RNA 序列資料集(涵蓋超過 17,000 個主要 RNA 基序、20 個 RNA 類型和 50,000 個 RNA 序列)中優于現有先進技術。
圖示:RNAErnie 使用 ArchiveII600 和 TS0 資料集在 RNA 二級結構預測任務上的性能。(來源:論文)
使用 30 種主流 RNA 測序技術進行評估,證明了 RNAErnie 的泛化性和穩健性。該團隊采用準确度、精确度、召回率、F1 分數、MCC 和 AUC 作為評估名額,進而確定 RNA 序列分析方法的公平比較。
目前,将具有增強外部知識的 Transformer 架構應用于 RNA 序列資料分析的研究很少。從頭開始的 RNAErnie 架構內建了 RNA 序列嵌入和自我監督學習政策,進而為下遊 RNA 任務帶來卓越的性能、可解釋性和泛化潛力。
此外,RNAErnie 還可以通過修改輸出和監控信号來适應其他任務。RNAErnie 是公開可用的,是了解類型引導 RNA 分析和進階應用的有效工具。
局限性
雖然 RNAErnie 模型在 RNA 序列分析方面有所創新,但仍面臨一些挑戰。
首先,該模型受到它可以分析的 RNA 序列大小的限制,因為長度超過 512 個核苷酸的序列會被丢棄,可能會忽略重要的結構和功能資訊。為處理較長序列而開發的分塊方法可能會導緻有關遠端互相作用的資訊進一步丢失。
其次,這項研究的重點很窄,僅集中在 RNA 結構域上,沒有擴充到 RNA 蛋白質預測或結合位點識别等任務。此外,該模型在考慮 RNA 的三維結構基序(例如環和連接配接點)時遇到了困難,而這對于了解 RNA 功能至關重要。
更重要的是,現有的事後架構設計也有潛在的局限性。
結語
盡管如此,RNAErnie 在推進 RNA 分析方面擁有巨大潛力。該模型在不同的下遊任務中展示了其作為通用解決方案的多功能性和有效性。
此外,RNAErnie 采用的創新政策有望增強其他預訓練模型在 RNA 分析中的性能。這些發現使 RNAErnie 成為一項寶貴的資産,為研究人員提供了一個強大的工具來解開 RNA 相關研究的複雜性。
論文連結:https://www.nature.com/articles/s42256-024-00836-4