天天看點

高通量資料分析必備|基因組浏覽器使用介紹 - 1

作者:生信寶典

基因組浏覽器是高通量測序分析的一個重要的可視化工具。相比于最終提供的表格,基因組浏覽器可以提供更多的資訊,如直覺展示突變位點、檢視有無新轉錄本或新的可變剪接形式、檢視peak的可信度、上下遊基因、區域保守性、重複元件、蛋白結合motif等。

我們前面有測序資料可視化列舉了4個常用的高通量資料可視化工具,詳細介紹了IGV基因組浏覽器可視化高通量測序資料和UCSC 基因組浏覽器的安裝使用。

最近幾次将以華盛頓大學(DC)開發的EPGG基因組浏覽器為主要工具 (目前主流浏覽器之一,不同的功能更新分别發表于NBT, Nature method等雜志),介紹下基因組浏覽器的基本展示内容、各部分含義、使用方式等。

基因組浏覽器都可以按照位置或基因名字搜尋,可進行局部放大和縮小。雖然每個軟體略有不同,但基本操作是通用的。點一點,拽一拽,就都能用了。初次接觸一個軟體,多一點耐心,多一點操作,其實沒那麼難。

高通量資料分析必備|基因組浏覽器使用介紹 - 1

基因資訊展示包含基因的轉錄方向資訊 (箭頭),基因結構資訊 (CDS, UTR, intron),基因功能描述資訊等。方向資訊對我們識别轉錄起始位點及啟動子區域和啟動子上的ChIP peak至關重要。

另外還有個功能,基因隻在基因組占1%,浏覽起來不友善,Juxtapose模式可以隻顯示基因區,其它區域隐藏,這樣截圖或浏覽起來都更友善。

高通量資料分析必備|基因組浏覽器使用介紹 - 1

重複元件是我們做分析時需要關注的一個點,最近Cell文章發現 LINE元件 (A LINE-1-Nucleolin Patnership Regulates Early Development and ESC Identity)是胚胎發育的關鍵。如果我們的資料能在某個重複元件上有特殊分布,也可能催生重要發現呢。

高通量資料分析必備|基因組浏覽器使用介紹 - 1

“峰圖”是最常見的展示形式,reads的分布有高有低,在基因組上形成層戀疊嶂的山峰狀。峰頂表示對應區域的表達、修飾或結合比較高。

除了峰形圖,也可以展示熱圖、線圖等。

數值Track支援的資料一般是bigWig格式,在不同浏覽器之間通用。不同Track之間比較時需要先對資料做标準化,也需要設定同等大小的Y軸。資料可以進行一定程度的拟合,使得結果更清晰 (圖中的Smooth window)。

高通量資料分析必備|基因組浏覽器使用介紹 - 1

這個線圖常用于比較富集樣品和對照樣品,或比較不同樣品之間的表達量高低等。把2個Track放到一起展示,高低立見。UCSC genome browser也有類似功能,而且展示效果更好,我們前面也已提過。

高通量資料分析必備|基因組浏覽器使用介紹 - 1

EPGG特有的甲基化資料展示,給定每個位點測序深度,CG甲基化比例,CHH,CHG甲基化比例等。還可以線上過濾,篩選不同支援reads數的甲基化位點,更有動态性。是甲基化分析的必備神器。

高通量資料分析必備|基因組浏覽器使用介紹 - 1

染色體的三維結構研究越來越多,用途也越來越大。關聯SNP位點的功能,尋找enhancer的靶基因,基因組區域互作,都可以通過Hi-C資料提供更多支援資訊。EPGG可以用互作熱圖或loop連線兩種方式展示區域之間的互作。

互作熱圖的識别方式是:如果要看位點A和位點B之間是否有互作,隻需在正負45度方向畫一條線,檢視線是否有交點和交點處顔色強弱即可判斷。

還有圈圖形式,從宏觀展示某個位點與基因組其它區域的互作。

高通量資料分析必備|基因組浏覽器使用介紹 - 1

SNP位點展示及連鎖不平衡展示,這也是EPGG的特有功能。可視化與Hi-C染色體互作類似。

高通量資料分析必備|基因組浏覽器使用介紹 - 1

下一步将講一下EPGG的自帶資料和分析功能,以更友善使用。

通路連結:http://epigenomegateway.wustl.edu/browser/

繼續閱讀