今天給大家介紹拉什大學的Shinya Tasaki 等人在Nature Machine Intelligence上發表的文章“Deep learning decodes the principles of differential gene expression”。作者在文章中提出了一個系統生物學模型DEcode來預測差異表達,并挖掘影響預測基因表達的因素的生物學基礎,以了解其如何産生。作者在模型中使用了深度卷積神經網絡,根據RNA和啟動子上的全基因組結合位點預測差異表達。此外,作者通過預測組織間的差異表達、差異轉錄的效用和衰老的驅動因素等實驗,展示了DEcode在産生生物學見解方面的廣泛潛在應用。

1
研究背景
盡管所有人類細胞都共享DNA序列,但是基因調控在細胞類型和發育階段之間以及在對環境和刺激的響應方面有所不同。是以,當基因表達受到不适當的調節時,細胞穩态就會受到幹擾,影響細胞功能并導緻疾病。細胞狀态之間的差別被觀察為基因轉錄本的差異表達(DE),盡管DE十分重要而且普遍存在,但将這些觀察轉變為對本質上解碼DE的潛在生成過程的一緻了解仍然困難,這對于基礎生物學和疾病生物學的發展至關重要。作者通過利用新穎的計算和系統生物學方法來開發基于全基因組調控互相作用資料的DE預測模型來解決這問題。
為了根據分子調控互相作用對DE進行解碼,作者首先使用 DEcode模型DE對其進行高精度預測。該模型結合了多種類型的基因調控互相作用,能夠優先考慮在組織特異性的基礎上影響DE的主要系統和分子,進一步建立這種基因調控的可能的分子機制,并驗證預測的最強調控因子的影響。同時,作者預測不同個體之間DE的起源,這是實驗和臨床研究的主要組成部分。通過在每個實驗中确定DE的來源,可以将DEcode應用于目前和将來的大多數基因表達資料,進而加速基礎生物學和疾病生物學的發展。
2
實驗
2.1預測人體組織間的差異表達
該實驗通過将基因表達作為分子互相作用的結果對其進行預測,以了解差異表達信号的主要調控原理。在DEcode系統中使用深度卷積神經網絡,根據啟動子和mRNA特征預測基因表達的組織間差異和個體差異,模型如圖1所示。
圖1 建構和評估解碼轉錄組預測模型
作者将DEcode架構應用于27,428個基因和79,647個轉錄本的具有組織特異性的人類轉錄組中,利用多任務學習架構,預測53個組織的相對于所有組織的中值表達的對數差異倍數以及所有組織的中值表達值。實驗結果如圖2所示,作者使用斯皮爾曼系數計算預測值和實際值的一緻性,從圖中可以看出,預測的中值表達水準在基因水準和轉錄本水準上均與實際觀察結果高度一緻。
圖2 對整個組織中基因表達水準中位數的預測表現
2.2不同組織間的差異表達調控
除了DEcode的預測性能外,作者還利用該模型來幫助定義調節差異表達的生物過程。為了了解RNA特征在多大程度上影響基因表達水準,作者重新訓練了DEcode模型,随機化了RNA特征和啟動子特征。實驗表明,僅通過RNA特征預測基因水準的對數差異倍數時,其準确性不及使用所有特征的模型,與隻使用啟動子特征的模型表現相近。基于RNA的模型在預測轉錄表達和差異轉錄使用方面比基于啟動子的模型表現更好,實驗結果如圖3所示。
圖3 使用不同特征集訓練的模型的預測性能
為了進一步量化DEcode模型中權重調節的重要性,作者針對每個預測差異倍數任務通過計算DeepLIFT得分衡量了結合位點對預測的累計貢獻,實驗結果表明DEcode模型是可解釋的,反映了控制RNA豐度的生物學機制。此外,作者假設,如果DEcode模型中的關鍵預測因子确實是有效的轉錄組調節因子,則此類調節因子中的缺陷将對細胞表型産生重大影響,進而導緻疾病。通過實驗驗證,轉錄組的關鍵預測因子确實在維持重要的細胞和身體功能中起着至關重要的作用。是以,DEcode模型可用于确定緻病基因的優先級,并且這種能力指向了預測的關鍵調控因子的更廣泛的有效性。
2.3預測個體間的差異表達
為了解輸入相同特征的情況下是否可以預測同一組織内個體之間的相對表達差異,作者擴充了DEcode架構,對14個代表性組織中的個體的差異表達進行模組化,個體差異模型成功預測了個體之間的差異倍數,平均斯皮爾曼相關系數約為0.28,實驗結果如圖4所示。
圖4 特定于個體的模型的預測性能
為了檢查模型是否捕獲了跨組織共享的特定于人的表達,作者還比較了同一個體内不同組織之間以及不同個體之間的基因表達。與實際表達資料一樣,預測的表達在相同個體的組織之間顯示出更好的一緻性,這表明該模型已經捕獲了特定于人的調節機制。
2.4相關性狀表達變化的生成過程
為了解由DEcode模型預測的特定于個體的表達譜是否也保留了與性狀相關的差異表達變化,作者使用預測的基因表達資料對供體的年齡和性别進行了差異表達分析。實驗結果表明,對于兩種性狀,預測資料的測試統計資料均與所有組織中的實際資料具有顯着正相關。
2.5基因共表達關系的調控基礎
作者檢查了DEcode模型是否可以檢測到已知的基因共表達關系,在預測的基因表達譜中的基因共表達關系在每個組織的實際基因表達資料中分離了具有正相關和負相關的基因對。此外,預測的基因表達譜還檢測到組織間共表達關系。這些結果的準确性促使作者通過DEcode預測研究驅動共表達的關鍵因素。在大多數組織中,RNA特征可以比啟動子特征更好地解釋共表達關系,這再次表明RNA特征對人特異性轉錄組的重要貢獻。
3
總結
作者引入了DEcode架構,該架構将大量的基因組資料內建到轉錄組調控的統一計算模型中,以預測特定于組織和個體的轉錄組中的多種轉錄作用。這些實驗結果的系統生物學分析提供了有關轉錄組調控機制的生物學見解。
作者将DEcode架構設計為多任務學習,可以通過共享特征提取層同時預測多個樣本的轉錄組,不僅減少了學習時間,還提高了特定于組織的表達和特定于個體的表達的預測準确性。轉錄組分析通常會鑒定差異表達基因,然後評估功能基因的富集。特定于個人的DEcode模型與這種傳統方法相比具有幾個比較優勢:(1)DEcode可以同時考慮多個調節器的影響,而不是一次考慮一個。(2)DEcode可以估算特定于個體的調節活動,這些活動可用于識别與感興趣的表型相關的調節因子。(3)DEcode可以模拟每個基因的KO擾動的結果。
DEcode可以從轉錄組資料中提取更多可操作的資訊,這将有益于各種轉錄組研究。針對更廣泛的應用,DEcode架構可以靈活地合并其他類型的基因組資訊,例如原始序列,DNA甲基化,組蛋白标記和RNA修飾,也可以擴充到其他生物。是以,DEcode架構在積累基因組大資料與單個轉錄組研究之間建立了直接的橋梁,使研究人員能夠預測控制與任何狀況或疾病相關的差異表達的分子。