天天看點

PNAS | 基因調控之深度學習揭示免疫細胞分化的調節機制

PNAS | 基因調控之深度學習揭示免疫細胞分化的調節機制

今天給大家介紹的是加拿大不列颠哥倫比亞大學和哈佛大學、加拿大CIFAR AI進階研究院合作發表在PNAS的一篇論文。作者借助深度學習中的卷積神經網絡提出一個訓練網絡“ AI-TAC”,該模型通過從頭開始發現已知調控因子和一些未知調控因子的結合DNA功能域(Motifs),學習推斷細胞型特異性的染色質可及性(染色質開放性)。經過小鼠資料訓練的AI-TAC可以解析人的DNA,最終揭示了免疫系統完全分化的調節機制。

1

背景

基因調控是現代分子生物學研究的中心課題之一,目前雖然探索出一些轉錄因子能夠調控哪些特異性序列,但是對于控制免疫細胞分化的調控機理我們尚未清楚。對于免疫系統來說,每種細胞類型都有自己的DNA編碼解釋,而這種差異是由組成型和細胞型特異性轉錄因子,調節性RNA分子以及可能還未知的序列解析分子實體之間的互相作用驅動的。具有調控功能的順反元件通過結合染色質開放區域參與到生物轉錄調控的過程中以控制轉錄活性。比如,轉錄因子一旦結合到開放的染色質區域,就會招募其他蛋白,使附近的基因開始轉錄。染色質開放性是動态的,整體的調控過程與染色質核小體的動态定位相關,是以,高效精确地定位基因組上的開放染色質位點、搞清核小體位置的動态變化,為成功地發掘基因組調控元件,乃至揭示基因表達調控機制提供重要線索和有效手段。Motifs(DNA功能域)是一段特異性序列,可以和轉錄因子結合,确定DNA結合的motif通常是詳細闡釋轉錄因子功能的第一步,鑒定潛在的結合位點為進一步分析提供了途徑。開放的染色質區域(OCR)十分密切地反映了相應細胞中的基因表達。下一步問題是從這些描述性圖表轉向對如何确定這些染色質模式的了解。分析這些有差别的活躍開放染色質區域中轉錄因子結合Motifs(TFBS)的表示,提供了可能導緻細胞特異性的轉錄因子的相關線索,特别是通過将轉錄因子本身的細胞類型特異性表達用作相關先驗知識,是以作者就小鼠免疫系統的81種免疫細胞的染色質可及性,旨在利用CNN僅通過調節DNA序列來學習推斷細胞類型特異性的染色質可及性。結果表明, AI-TAC可以學習準确預測細胞類型特異性OCR的精細特異性,解釋政策能夠發現在計算機中具有影響力的Motifs,并在“真實”染色質免疫沉澱和測序(ChIP-seq)資料中概括其分子對應物的結合位點。是以,AI-TAC學習了構成免疫細胞分化全局性基礎的序列文法。

2

方法

AI-TAC模型的輸入資料是251個堿基對 OCR的DNA序列,以預測每個OCR在所有測得的細胞型上的ATAC-seq作為輸出,整個模型由三個卷積層和兩個全連接配接層組成,使用Pearson相關性作為損失函數進行訓練,可以增強模型準确預測其活性随細胞類型而變化的序列的能力。為了進行參數解釋,1)對于300個第一層filter中的每一個,作者提取了激活它的短序列Motifs,表示為位置權重矩陣(PWM),并定義了其魯棒性的操作參數,以及2)應用了梯度反向傳播政策(DeepLift和TFMoDisco)。可重制的filter(基于PWM表示)在11個單獨訓練的模型中使用“出現次數”進行了識别。使用TomTom對PWM進行注釋,以搜尋TFBS的Cis-BP資料庫(FDR 0.05)。使用消融政策計算filter影響值:依次移除每個filter,并計算所有示例中模型誤差的平方差平均值。為了進行生化驗證,将從基因表達綜合(GEO)下載下傳的Pax5,Ebf1,Spi1和Tcf1(32)的原始ChIP-seq資料集,并與AI-TAC相交預測。為了可視化高階序列邏輯,獲得了由節點激活在最後一個共享層中捕獲的AI-TAC嵌入(n = 1000),并使用t-SNE對其進行了二維投影。下圖A為模型整體架構圖。

PNAS | 基因調控之深度學習揭示免疫細胞分化的調節機制

3

結果

AI-TAC可以僅從序列預測增強子活性,通過這種方式,AI-TAC學習了嵌入在OCR中的序列Motifs的組合與其在各種免疫細胞類型中的可及性之間的關系。在實驗中,通過使用作者最近的ATAC-seq成果定義的每個OCR的327,927個序列的90%作為輸入來訓練該模型,以預測每個OCR在所有測得的細胞型上的ATAC-seq譜作為輸出。CNN學習輸入和輸出之間精确映射的能力取決于幾個超參數(隐藏層的數量,filter及其長度,損失函數),并且對它們進行了系統地探讨。在下圖B中的一個示例中,在保留的OCR的子集上,經過訓練的AI-TAC模型在精确預測所有人群的粒度變量可通路性方面顯示出良好的性能。

PNAS | 基因調控之深度學習揭示免疫細胞分化的調節機制

總體而言,預測有61%的測試OCR具有統計上顯着的相關系數(錯誤發現率[FDR] 0.05)(下圖C)。OCR的可預測性與其在各種免疫細胞類型中可及性之間的變化之間存在很大的單調關系,因為具有低預測性能的OCR通常具有較小的變異系數(下圖D和E)。該圖還表明,除了普遍存在的OCR之外,在特定類别的OCR上也沒有缺少該模型(如圖F的熱力圖所證明)。通過執行幾個随機實驗以建立3個不同的空模型(圖C)以及進行染色體省略實驗,評估了這些預測的魯棒性。此外,作者進行了10次交叉驗證的10次獨立試驗(即100個受過訓練的模型),是以327927個OCR被視為10個不同測試集的一部分(D)。這些資料可以确認,在針對資料的不同子集訓練的不同模型中,通常可以很好地預測出預測良好的OCR,這表明該模型所捕獲的調節邏輯是可以推廣的。

PNAS | 基因調控之深度學習揭示免疫細胞分化的調節機制

4

總結

總而言之,針對全基因組染色質可及性的深度學習方法揭示了直接源自DNA序列的免疫轉錄調節因子的模式和複雜模式。盡管仍然存在一些盲點,但該監管路線圖草案應為嫁接其他層級的人為或機器生成的結果提供基礎,并為進行實驗探索提供跳闆。