天天看點

EPIVAN | 基于預訓練和注意力機制的啟動子增強子互相作用預測

EPIVAN | 基于預訓練和注意力機制的啟動子增強子互相作用預測

作者 | 洪曾豔

指導 | 劉向榮教授

機關 | 廈門大學

研究方向 | 生物序列分析

EPIVAN | 基于預訓練和注意力機制的啟動子增強子互相作用預測

1. 研究背景

增強子是一段50-1500bp的DNA序列,它能夠提高特定基因的轉錄活性,能大大增強啟動子的活性。啟動子是轉錄起始位點上遊與RNA聚合酶結合的一段DNA序列,能使RNA聚合酶與模闆DNA準确的結合并具有轉錄起始的特異性。增強子和啟動子的互相作用關鍵影響了基因的表達調控,和人類疾病的發生密切相關。是以研究某個增強子是否會和某個啟動子發生反應具有重大的意義。用生物實驗的手段進行增強子和啟動子的互相作用研究需要耗費大量的人力、時間和資金。随着高通量測序技術發展,為研究人員提供了大量的資料,用計算的方式深入研究增強子和啟動子的互相作用成為可能。

現有的一些關于增強子和啟動子的互相作用識别的計算方法存在一些不足。首先,強子和啟動子的互相作用具有細胞系特異性,即在不同細胞系中的作用規律通常是不同的。大多數現有方法可以預測細胞系特異性的增強子和啟動子的互相作用,但是建構的模型不能在各種細胞系中通用。其次,之前的方法都使用one-hot或普通的word embedding對基因序列編碼,這具有一些局限性。比如,單個細胞系的訓練樣本數量不夠多,訓練出來的詞向量包含的資訊有限。

為了解決這些問題,作者提出了一個新的深度學習模型,EPIVAN,隻需要輸入增強子和啟動子的基因序列就可以預測增強子和啟動子的互相作用。這項工作的三個貢獻如下:(1)使用基于人類全基因預訓練的DNA向量來編碼增強子和啟動子。(2)使用注意機制來增強關鍵特征對模型的貢獻,進而提高模型的性能。(3)建立了一個通用模型,它具有遷移能力,可用于預測各種細胞系中的增強子和啟動子的互相作用。

2.模型介紹

模型預測增強子和啟動子的互相作用的流程如圖1所示。它有三個主要步驟:序列嵌入,特征提取和注意機制。然後,将生成的特征向量饋送到最後的預測層,以預測EPI。

EPIVAN | 基于預訓練和注意力機制的啟動子增強子互相作用預測

圖1 EPIVAN的流程圖

2.1序列嵌入

為了解決one-hot編碼和普通詞向量所含資訊不足的問題,作者使用了dna2vec中提供的預訓練的DNA向量。dan2vec是Ng等人在2017年提出的一種基于word2vec詞向量模型的新方法,用于計算DNA序列中k-mers(k-mer是長度為k的序列片段)的分布式表示。dna2vec使用人類基因組序列作為學習語料庫,将k-mers嵌入到100維連續向量空間中。相比以單細胞系的增強子和啟動子基因序列作為訓練語料,dna2vec使用更大的學習語料庫,是以學習的DNA向量包含更多的序列資訊。用預訓練的DNA向量對輸入模型的基因序列進行編碼能夠讓模型有更多的資訊能捕獲。

EPIVAN | 基于預訓練和注意力機制的啟動子增強子互相作用預測

2.2特征提取

在深度學習中,通常使用遞歸神經網絡(RNN)進行序列分析,但是RNN不能并發計算,對于長序列的分析需要耗費非常多的計算資源和時間。也有些方法使用卷積神經網絡(CNN)進行序列特征提取,CNN可以并行計算,但是CNN隻能關注序列局部聯系的特征,會丢失遠距離序列依賴特征。是以作者将CNN和RNN相結合,共同提取序列特征。序列編碼。當擷取了序列的向量表示後,作者首先使用1維卷積層和最大池化層來提取序列中的局部相關特征,然後将它們再輸入到雙向門控循環單元(Bi-GRU)中以提取全局相關特征。

2.3注意力機制

在進行初步的特征提取後,作者希望能夠加強更關鍵的特征對模型的貢獻。作者使用了Yang等人在2016年提出的用于文檔分類的注意力機制來自适應地學習特征的權重。為了讓EPIVAN模型更好的做出預測,對預測增強子和啟動子是否會發生反應啟更突出作用的特征,作者使用這個注意力機制來提高這些關鍵特征的權重。該注意力機制在訓練過程中能夠自适應地學習一個上下文向量,并計算每個特征的隐藏表示和這個上下文向量的相似性,如果相似性越高則賦予該向量的權重越大。注意機制的公式描述如下:

EPIVAN | 基于預訓練和注意力機制的啟動子增強子互相作用預測

其中,是第i個特征的隐藏表示。α為每個特征的歸一化權重。所有特征向量乘以它們相應的權重,然後求和為最終的特征向量v。最後這個特征向量将輸入到預測層(一個sigmoid單元)中進行最後的預測。

3. 實驗

實驗的資料來自TargetFinder提供的資料集,該資料集包含了人類的6個細胞系(GM12878,HUVEC,HeLa-S3,IMR90,K562,NHEK)中的增強子和啟動子互相作用。當一對啟動子和增強子會發生反應,被标記為正樣本;否則被标記為負樣本。作者使用了資料增強的方法處理類不平衡問題。并使用受試者工作特征曲線下面積(AUROC)和precision-recall 曲線下面積作為模型性能的評估名額。

因為增強子和啟動子互相作用存在細胞系特異性,是以作者首先建構了特異性模型,EPIVAN-specific。并通過實驗證明了,在指定細胞系上訓練的EPIVAN-specific能夠很好地預測該細胞系上的增強子和啟動子互相作用,但是在其他細胞系上就失去了預測能力(如表1和表2所示)。

表1 EPIVAN-specific在每個細胞系上的AUROC值

EPIVAN | 基于預訓練和注意力機制的啟動子增強子互相作用預測
EPIVAN | 基于預訓練和注意力機制的啟動子增強子互相作用預測

為了解決要為不同的細胞系訓練不同的模型,作者提出建構通用模型EPIVAN-general。相比在單個細胞系上訓練的EPIVAN-specific,在六個細胞系上訓練的EPIVAN-general能夠捕獲共同特征,但捕獲特異性特征的能力低于EPIVAN-specific,是以EPVAN-general可以在6個細胞系上通用,但是在指定細胞系上沒有EPIVAN-specific的表現好(實驗結果如表3所示)。

表3 EPIVAN-general在每個細胞系上的表現

EPIVAN | 基于預訓練和注意力機制的啟動子增強子互相作用預測

在建構完EPIVAN-specific和EPIVAN-general模型的基礎上,作者對預訓練DNA向量和注意力機制對模型的貢獻進行了讨論。作者設計了兩組對照實驗,證明了預訓練DNA向量有助于模型更好地捕獲細胞系共有特征。注意機制有助于模型更好地提取細胞系特異性特征。這兩者共同協助,大大提高了通用模型的性能(在訓練集較小的EPIVAN-specific模型上,預訓練DNA向量無法發揮出作用)。對照實驗結果如圖2和圖3所示。

EPIVAN | 基于預訓練和注意力機制的啟動子增強子互相作用預測

圖2 八個模型在六個細胞系上的AUROC值。(a)去除預訓練DNA向量或注意機制後EPIVAN-specific的表現。(b)去除預訓練DNA向量或注意機制後EPIVAN-general的表現。

EPIVAN | 基于預訓練和注意力機制的啟動子增強子互相作用預測

圖3 八個模型在六個細胞系上的AUPR值。(a)去除預訓練DNA向量或注意機制後EPIVAN-specific的表現。(b)去除預訓練DNA向量或注意機制後EPIVAN-general的表現。

為了提高EPIVAN-general在指定細胞系上的表現,作者提出了新的訓練政策,令EPIVAN-general在指定細胞系上進行再訓練來增強EPIVAN-general對該細胞系特異性特征的提取,并将再訓練後的模型稱為EPIVAN-best。并将EPIVAN-best在每個細胞系上的表現和EPIVAN-specific和EPIVAN-general進行對比。實驗結果表明,EPIVAN-best在每個細胞系上的表現比EPIVAN-specific和EPIVAN-general都要好得多(如表4和表5所示)。

表4 三個模型在六個細胞系上的AUROC值

EPIVAN | 基于預訓練和注意力機制的啟動子增強子互相作用預測

表5 三個模型在六個細胞系上的AUPR值

EPIVAN | 基于預訓練和注意力機制的啟動子增強子互相作用預測

作者還将EPIVAN-best和現有的最先進的識别增強子和啟動子互相作用的模型進行比較,實驗結果表明,EPIVAN-best在每個細胞系上的表現都優于現有模型(如表6和表7所示)

表6 不同模型在六個細胞系上的AUROC值

EPIVAN | 基于預訓練和注意力機制的啟動子增強子互相作用預測

表7 不同模型在六個細胞系上的AUPR值

EPIVAN | 基于預訓練和注意力機制的啟動子增強子互相作用預測

最後作者對EPIVAN-general是否能夠進行遷移學習進行了讨論。實驗結果表明,EPIVAN-general可以作為遷移學習的預訓練模型(如表8所示)。

表8 EPIVAN-general遷移到新的細胞系上的AUROC和AUPR值

EPIVAN | 基于預訓練和注意力機制的啟動子增強子互相作用預測

4. 總結

在這項工作中,作者提出了一個僅使用增強子和啟動子序列就能預測增強子和啟動子互相作用的新模型EPIVAN。與現有模型相比,EPIVAN增加了預先訓練的DNA向量和注意機制,能夠建構不同細胞系都适用的通用模型。作者證明了EPIVAN能夠捕獲細胞系特異性特征和細胞系共同特征,并證明了EPIVAN-general具有良好的遷移能力,可以作為遷移學習的預訓練模型。六個細胞系的實驗結果作者提出的最優模型EPIVAN-best比現有的最先進的模型表現都更好。

參考資料

Zengyan Hong, Xiangxiang Zeng, Leyi Wei, Xiangrong Liu, Identifying Enhancer-Promoter Interactions with Neural Network Based on Pre-trained DNA Vectors and Attention Mechanism, Bioinformatics, btz694.

Ng, P. (2017) dna2vec: Consistent vector representations of variable-length k-mers. arXiv:1701.06279.

Yang, Z. et al. (2016) Hierarchical Attention Networks for Document Classification. arXiv:1707.00896.

Whalen, S. et al. (2016) Enhancer-promoter interactions are encoded by complex genomic signatures on looping chromatin. Nature Genetics, 48, 488-496.

Code availability

https://github.com/hzy95/EPIVAN

DrugAI

( 掃描下方二維碼訂閱擷取最新消息!)

EPIVAN | 基于預訓練和注意力機制的啟動子增強子互相作用預測

繼續閱讀