天天看點

Nat. Genet. | 基于CRISPRi技術檢測增強子與啟動子互相作用

今天給大家介紹2019年11月發表在Nature Genetics的論文“Activity-by-contact model of enhancer-promoter regulation from thousands of CRISPR perturbations”,該工作由劍橋大學-哈佛大學-麻省理工學院聯合研究所的Fulco團隊聯合完成。本研究提出一種新的實驗方法CRISPRi-FlowFISH用于量化增強子對基因的影響,并提出一個名為ABC(Activity-by-contact model)的模型用于預測增強子-基因之間的互相作用。

Nat. Genet. | 基于CRISPRi技術檢測增強子與啟動子互相作用

1

研究背景

人類基因組中的增強子可以控制基因在特定細胞類型中的表達。是以,增強子的遺傳變異會導緻許多常見疾病。但是,哪些增強子調節哪些特定基因,這個問題仍待解決,目前也缺乏預測跨細胞類型的增強子與基因的聯系的一般規則。為解決這一難題,Fulco團隊提出了一種實驗方法CRISPRi-FlowFISH,該方法的關鍵在于基于目标基因的表達并且通過CRISPRi和熒光原位雜交技術(FISH)來測量候選增強子功能。同時該團隊發現一個簡單的ABC(Activity-by-contact model)模型在預測CRISPR資料集中的複雜連接配接方面明顯優于其他的方法。這種ABC模型能夠在染色質狀态測量的基礎上,建構給定細胞類型中增強子與基因的連接配接的全基因組圖。CRISPRi-FlowFISH和Activity-by-contact模型一起提供了一種系統的方法來定位和預測哪些增強子調節哪些基因,并将有助于解釋非編碼基因組中數千種疾病風險變體的功能。

2

方法

2.1 CRISPRi-FlowFISH

CRISPRi-FlowFISH結合了CRISPRi(一種基因幹擾技術)和FISH(熒光原位雜交技術,一種基因染色技術),通過幹擾目标基因附近的候選增強子核苷酸序列,并量化這些序列對目标基因的影響。其主要原理是gRNA可以引導KRAB-dCas9與特定核苷酸序列結合,抑制該序清單達。KRAB-dCas9已經被證明可以抑制許多啟動子和增強子,并影響gRNA附近的200-500個堿基對(bp)内的候選調控元素。主要操作步驟如下:

檢測目标基因附近核苷酸序列的DNase I hypersensitive (DHS)值,DHS峰值對應着候選增強子序列,為各個候選增強子設計gRNA并用熒光原位雜交技術為gRNA病毒染色。

gRNA病毒引導KRAB-dCas9進入細胞抑制候選增強子的表達并為細胞着色。同時對一個細胞群落的多個細胞進行實驗,每個細胞至多能與一個gRNA結合。

利用熒光激活細胞分選技術,采樣着色的細胞并根據目标基因表達強度将采集樣本分為六組,然後使用高通量測序技術确定每組内每種gRNA的豐富度。

根據各種gRNA的豐富度和基因表達情況,使用Broyden–Fletcher–Goldfarb–Shanno 算法與極大似然估計方法推導各個gRNA抑制的候選增強子對目标基因的作用。

Nat. Genet. | 基于CRISPRi技術檢測增強子與啟動子互相作用

圖1 CRISPRi-FlowFISH操作流程

2.2 Activity-by-contact model

目前已有基于增強子與目标基因的方法、基于基因組三維特征的方法和基于表觀基因組特征的機器學習方法用于預測增強子和目标基因之間的功能性連接配接,其表現均不盡人意。Fulco團隊提出了ABC模型,該模型基于簡單的生物化學概念:一種遠端候選元素對目标基因的定量影響應該取決于它作為增強子的活性(Activity),權重于它與目标基因啟動子的3D接觸頻率(Contact);一個遠端候選元素對目标基因表達的相對貢獻應該取決于該元素的定量影響除以所有元素的總定量影響。在這個概念下,得到遠端候選元素E對目标基因G的相對貢獻值公式:

Nat. Genet. | 基于CRISPRi技術檢測增強子與啟動子互相作用
其中:

  1. 增強子活性(A)取遠端候選元素核苷酸序列上DHS和H3K24ac ChIP–seq 的幾何平均值,這兩個參數被用于識别增強子。
  2. 接觸頻率(C)取5 kb分辨率下,遠端候選元素E與目标基因G上啟動子之間的由Hi-C實驗法測得的KR歸一化接觸頻率。
Nat. Genet. | 基于CRISPRi技術檢測增強子與啟動子互相作用

圖2 ABC score計算過程

3

結果

3.1 使用CRISPRi-FlowFISH識别目标基因的調控元素

Fulco團隊對K562人類白血病細胞進行實驗,反複實驗中對每個候選元素的計算出的量化影響具有高度相關性,皮爾森相關系數達0.94且CRISPRi-FlowFISH計算得到的量化影響滿足逆轉錄定量PCR的測量,皮爾森相關系數達0.81。此外,在對GATA1的實驗中,識别出三個之前已确定的候選元素。圖3展示了CRISPRi-FlowFISH對目标基因GATA1與HDAC6對應調控元素的識别。計算得到的對目标基因表達有促進或抑制作用的遠端候選元素正好對應核苷酸序列中DHS和H3K27ac值的波峰位置。

Nat. Genet. | 基于CRISPRi技術檢測增強子與啟動子互相作用

圖3 CRISPRi-FlowFISH識别GATA 1和HDAC6的遠端候選元素

3.2 使用CRISPRi-FlowFISH映射多個調控元素和多個目标基因的關系

在對全基因組進行調控元素和目标基因的CRISPRi-FlowFISH映射後,實驗結果表明一個增強子可以調控多達五個目标基因、一個目标基因可以被多達十四個遠端候選元素調控、部分增強子會跳過近端的基因而調控遠端的基因、調控元素與目标基因之間的距離大多小于100kb,這些符合其他實驗方法的結果。此外,在測試的3863個遠端候選元素-目标基因對中,141對涉及重要基因表達的識别錯誤率低于0.05。

Nat. Genet. | 基于CRISPRi技術檢測增強子與啟動子互相作用

圖4 CRISPRi-FlowFISH映射多個調控元素和多個目标基因的關系

3.3 使用ABC模型預測目标基因的增強子

Fulco團隊将ABC模型對遠端候選元素-目标基因對的評分與CRISPRi-FlowFISH測得的量化影響進行了對比,二者之間相關性說明了模型的優秀性能。

Nat. Genet. | 基于CRISPRi技術檢測增強子與啟動子互相作用

圖5 遠端候選元素-目标基因的ABC評分和量化影響的相關性

作者還比較了基于ABC門檻值的二進制分類模型和其他增強子-基因調控預測模型的召回率,精确度和AUPRC,結果表明ABC模型性能極佳,AUPRC達0.65,優于其他預測模型,如圖6。此外,ABC模型也優于單獨使用A或C的模型(AUPRC分别為0.22和0.29)。

Nat. Genet. | 基于CRISPRi技術檢測增強子與啟動子互相作用

圖6 ABC與其他模型的預測性能比較

3.4 ABC模型跨細胞類型的泛化能力

雖然染色質可達性群組蛋白修飾在許多類型的細胞中可以測量,但并不是所有細胞類型都有三維接觸譜,是以需要定義其他方法來計算ABC模型中的C值。由于Hi-C實驗測得的接觸頻率在不同細胞類型中具有極大相關性且很大程度上取決于基因序列的一維距離,是以可以直接使用K562的Hi-C資料或者十個人類細胞類型的Hi-C平均值或者一維距離的倒數作為C值,這三種替代方案在K562中達到了與原方案相近的預測性能(AUPRC = 0.65, 0.66 ,0.64)。遷移到其他細胞類型上時也有不錯的表現,如圖7。

Nat. Genet. | 基于CRISPRi技術檢測增強子與啟動子互相作用

圖7 ABC模型跨五個細胞類型的平均性能

4

讨論

為了更好地表征并預測增強子對目标基因的影響,本文提出新型實驗方法CRISPRi-FlowFISH 和ABC預測模型,兩者結合提供了映射和預測增強子調控基因和破譯非編碼基因組中疾病風險變體功能的系統性方法。在30個基因上測試了多達3500對潛在的增強子-基因對後,結果表明簡單的ABC模型預測複雜影響的能力大幅度優于先前的預測模型。

本文還揭示了增強子-基因連接配接的關鍵性質并為将來研究調控元素和非編碼基因遺傳變異奠定了基礎。文章中的實驗資料以及ABC模型的預測都表明增強子往往調控多個基因、大部分起作用的增強子距離目标啟動子的不超過100kb、增強子對目标基因的量化影響時大範圍的。

然而,目前的增強子-基因互相作用模型是不完整的。特别是,僅根據實體接觸來推斷增強子影響的方法,其精确度和靈敏度都很低,本文目前工作重點為尋找更有效的特征來表示和預測互相作用。此外,未來研究一個有前景的領域将是使用額外的CRISPRi-FlowFISH資料集來疊代地細化和改進ABC或類似的模型,并将這些模型應用于來自多種細胞類型的許多公共功能基因組資料集。

Data availability

https://osf.io/uhnb4/ https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE118912

Code availability

https://github.com/broadinstitute/ABC-Enhancer-Gene-Prediction

繼續閱讀