一、摘要
實驗旨在了解Chip-seq的基本原理。通過模仿文獻《Targeting super enhancer associated oncogenes in oesophageal squamous cell carcinoma》的流程,學會利用NCBI和EBI資料庫下載下傳資料,熟悉Linux下的基本操作,并使用R語言畫圖,用Python或者shell寫腳本進行基本的資料處理,通過FastQC、Bowtie、Macs、samtools、ROSE等軟體進行資料處理,并對預測結果進行分析讨論。
二、材料
1、硬體平台 處理器:Intel(R) Core(TM)i7-4710MQ CPU @ 2.50GHz 2.50GHz
安裝記憶體(RAM):16.0GB
2、系統平台 Windows 8.1,Ubuntu
3、軟體平台 ① Aspera connect ② FastQC ③ Bowtie
④ Macs 1.4.2 ⑤ IGV ⑥ ROSE
4、資料庫資源 NCBI資料庫:https://www.ncbi.nlm.nih.gov/;
EBI資料庫:http://www.ebi.ac.uk/;
5、研究對象 加入H3K27Ac 抗體處理過的TE7細胞系測序資料和其空白對照組
加入H3K27Ac 抗體處理過的KYSE510細胞系和其空白對照組
背景簡介:食管鱗狀細胞癌(OSCC)是一種侵襲性的惡性惡性良性腫瘤,本文章通過高通量小分子抑制劑進行篩選,發現了一個高度有效的抗癌物,特異性的CDK7抑制劑THZ1。RNA-Seq顯示,低劑量THZ1會對一些緻癌基因的産生選擇性抑制作用,而且,對這些THZ1敏感的基因組功能的進一步表征表明他們經常與超級增強子結合(SE)。ChIP-seq解讀在OSCC細胞中,CDK7的抑制作用的機制。
本文亮點:确定了在OSCC細胞中SE的位置,以及識别出許多SE有關的調節元件;并且發現小分子THZ1特異性抑制SE有關的轉錄,顯示強大的抗癌性。
文章PMID: 27196599
三、方法
實驗資料擷取流程如下:
Chip-seq流程報告1、硬體平台2、系統平台3、軟體平台4、資料庫資源5、研究對象1、Aspera軟體下載下傳及安裝2、Chip-Seq資料下載下傳3、FastQC品質檢查4、使用Bowtie對Reads進行Mapping5、MACS尋找Peak富集區6、IGV可視化7、ROSE鑒定Enhancer1、Chip-Seq資料下載下傳2、FastQC品質檢查3、使用Bowtie對Reads進行Mapping4、MACS尋找Peak富集區5、IGV對peaks可視化6、ROSE分析結果1、結論2、讨論 資料分析流程圖如下:
Chip-seq流程報告1、硬體平台2、系統平台3、軟體平台4、資料庫資源5、研究對象1、Aspera軟體下載下傳及安裝2、Chip-Seq資料下載下傳3、FastQC品質檢查4、使用Bowtie對Reads進行Mapping5、MACS尋找Peak富集區6、IGV可視化7、ROSE鑒定Enhancer1、Chip-Seq資料下載下傳2、FastQC品質檢查3、使用Bowtie對Reads進行Mapping4、MACS尋找Peak富集區5、IGV對peaks可視化6、ROSE分析結果1、結論2、讨論 1、Aspera軟體下載下傳及安裝 進入Aspera官網的Downloads界面,選中aspera connect server,點選Wwindows圖示,選擇v3.6.2版本,點選Download進行下載下傳。
Chip-seq流程報告1、硬體平台2、系統平台3、軟體平台4、資料庫資源5、研究對象1、Aspera軟體下載下傳及安裝2、Chip-Seq資料下載下傳3、FastQC品質檢查4、使用Bowtie對Reads進行Mapping5、MACS尋找Peak富集區6、IGV可視化7、ROSE鑒定Enhancer1、Chip-Seq資料下載下傳2、FastQC品質檢查3、使用Bowtie對Reads進行Mapping4、MACS尋找Peak富集區5、IGV對peaks可視化6、ROSE分析結果1、結論2、讨論 圖表 1 aspera的下載下傳
Linux下的安裝配置參考博文:
http://blog.csdn.net/likelet/article/details/8226368
2、Chip-Seq資料下載下傳 1)選擇NCBI的GEO DataSets資料庫,輸入GSE76861,打開GSM2039110、GSM2039111、2039112、GSM2039113擷取它們對應的SRX序列号。
Chip-seq流程報告1、硬體平台2、系統平台3、軟體平台4、資料庫資源5、研究對象1、Aspera軟體下載下傳及安裝2、Chip-Seq資料下載下傳3、FastQC品質檢查4、使用Bowtie對Reads進行Mapping5、MACS尋找Peak富集區6、IGV可視化7、ROSE鑒定Enhancer1、Chip-Seq資料下載下傳2、FastQC品質檢查3、使用Bowtie對Reads進行Mapping4、MACS尋找Peak富集區5、IGV對peaks可視化6、ROSE分析結果1、結論2、讨論 圖表 2 Chip-seq資料
Chip-seq流程報告1、硬體平台2、系統平台3、軟體平台4、資料庫資源5、研究對象1、Aspera軟體下載下傳及安裝2、Chip-Seq資料下載下傳3、FastQC品質檢查4、使用Bowtie對Reads進行Mapping5、MACS尋找Peak富集區6、IGV可視化7、ROSE鑒定Enhancer1、Chip-Seq資料下載下傳2、FastQC品質檢查3、使用Bowtie對Reads進行Mapping4、MACS尋找Peak富集區5、IGV對peaks可視化6、ROSE分析結果1、結論2、讨論 圖表 3 擷取SRA編号
2)進入EBI,擷取ascp下載下傳位址
Chip-seq流程報告1、硬體平台2、系統平台3、軟體平台4、資料庫資源5、研究對象1、Aspera軟體下載下傳及安裝2、Chip-Seq資料下載下傳3、FastQC品質檢查4、使用Bowtie對Reads進行Mapping5、MACS尋找Peak富集區6、IGV可視化7、ROSE鑒定Enhancer1、Chip-Seq資料下載下傳2、FastQC品質檢查3、使用Bowtie對Reads進行Mapping4、MACS尋找Peak富集區5、IGV對peaks可視化6、ROSE分析結果1、結論2、讨論 圖表 4 ascp下載下傳位址
3)使用aspera下載下傳并解壓
aspera下載下傳指令及gunzip解壓指令(nohup+指令+&可以背景運作)
Chip-seq流程報告1、硬體平台2、系統平台3、軟體平台4、資料庫資源5、研究對象1、Aspera軟體下載下傳及安裝2、Chip-Seq資料下載下傳3、FastQC品質檢查4、使用Bowtie對Reads進行Mapping5、MACS尋找Peak富集區6、IGV可視化7、ROSE鑒定Enhancer1、Chip-Seq資料下載下傳2、FastQC品質檢查3、使用Bowtie對Reads進行Mapping4、MACS尋找Peak富集區5、IGV對peaks可視化6、ROSE分析結果1、結論2、讨論 3、FastQC品質檢查 3.1 FastQC的安裝 Ubuntu軟體包内自帶Fastqc
故安裝指令apt-get install fastqc
3.2 使用FastQC進行品質檢查 fastqc指令:
fastqc -o . -t 5 -f fastq SRR3101251.fastq &
-o . 将結果輸出到目前目錄
-t 5 表示開5個線程運作
-f fastq SRR3101251.fastq 表示輸入的檔案
(要分别對四個fastq檔案執行四次)
4、使用Bowtie對Reads進行Mapping 4.1 Bowtie的安裝 Ubuntu軟體包内自帶bowtie
故安裝指令apt-get install bowtie
4.2 下載下傳人類參考基因組 文獻說序列比對到了人類參考基因組GRCh37/hg19上
bowtie官網上面有人類參考基因組hg19已經建好索引的檔案
Chip-seq流程報告1、硬體平台2、系統平台3、軟體平台4、資料庫資源5、研究對象1、Aspera軟體下載下傳及安裝2、Chip-Seq資料下載下傳3、FastQC品質檢查4、使用Bowtie對Reads進行Mapping5、MACS尋找Peak富集區6、IGV可視化7、ROSE鑒定Enhancer1、Chip-Seq資料下載下傳2、FastQC品質檢查3、使用Bowtie對Reads進行Mapping4、MACS尋找Peak富集區5、IGV對peaks可視化6、ROSE分析結果1、結論2、讨論 圖表 5 bowtie hg19建好的索引
再執行解壓縮指令:unzip hg19.ebwt.zip
4.3 使用bowtie進行比對 bowtie指令:
Chip-seq流程報告1、硬體平台2、系統平台3、軟體平台4、資料庫資源5、研究對象1、Aspera軟體下載下傳及安裝2、Chip-Seq資料下載下傳3、FastQC品質檢查4、使用Bowtie對Reads進行Mapping5、MACS尋找Peak富集區6、IGV可視化7、ROSE鑒定Enhancer1、Chip-Seq資料下載下傳2、FastQC品質檢查3、使用Bowtie對Reads進行Mapping4、MACS尋找Peak富集區5、IGV對peaks可視化6、ROSE分析結果1、結論2、讨論 5、MACS尋找Peak富集區 5.1 Macs14的安裝 至劉小樂實驗室網站下載下傳http://liulab.dfci.harvard.edu/MACS/Download.html
Chip-seq流程報告1、硬體平台2、系統平台3、軟體平台4、資料庫資源5、研究對象1、Aspera軟體下載下傳及安裝2、Chip-Seq資料下載下傳3、FastQC品質檢查4、使用Bowtie對Reads進行Mapping5、MACS尋找Peak富集區6、IGV可視化7、ROSE鑒定Enhancer1、Chip-Seq資料下載下傳2、FastQC品質檢查3、使用Bowtie對Reads進行Mapping4、MACS尋找Peak富集區5、IGV對peaks可視化6、ROSE分析結果1、結論2、讨論 解壓後,切換到檔案夾目錄,執行
python setup.py install
5.2 使用Macs模組化,尋找Peaks富集區 MACS指令:
Chip-seq流程報告1、硬體平台2、系統平台3、軟體平台4、資料庫資源5、研究對象1、Aspera軟體下載下傳及安裝2、Chip-Seq資料下載下傳3、FastQC品質檢查4、使用Bowtie對Reads進行Mapping5、MACS尋找Peak富集區6、IGV可視化7、ROSE鑒定Enhancer1、Chip-Seq資料下載下傳2、FastQC品質檢查3、使用Bowtie對Reads進行Mapping4、MACS尋找Peak富集區5、IGV對peaks可視化6、ROSE分析結果1、結論2、讨論 6、IGV可視化 6.1資料正規化normalised 編寫python程式對wig檔案進行normalised
Chip-seq流程報告1、硬體平台2、系統平台3、軟體平台4、資料庫資源5、研究對象1、Aspera軟體下載下傳及安裝2、Chip-Seq資料下載下傳3、FastQC品質檢查4、使用Bowtie對Reads進行Mapping5、MACS尋找Peak富集區6、IGV可視化7、ROSE鑒定Enhancer1、Chip-Seq資料下載下傳2、FastQC品質檢查3、使用Bowtie對Reads進行Mapping4、MACS尋找Peak富集區5、IGV對peaks可視化6、ROSE分析結果1、結論2、讨論 對TE7_H3K27Ac和KYSE510_H3K27Ac的wig檔案(即MACS後生成的treat檔案夾裡的wig檔案)計算RPM
RPM公式:(某位置的reads數目÷所有染色體上總reads數目)×1000000
6.2 使用wigToBigWig轉化格式 Chip-seq流程報告1、硬體平台2、系統平台3、軟體平台4、資料庫資源5、研究對象1、Aspera軟體下載下傳及安裝2、Chip-Seq資料下載下傳3、FastQC品質檢查4、使用Bowtie對Reads進行Mapping5、MACS尋找Peak富集區6、IGV可視化7、ROSE鑒定Enhancer1、Chip-Seq資料下載下傳2、FastQC品質檢查3、使用Bowtie對Reads進行Mapping4、MACS尋找Peak富集區5、IGV對peaks可視化6、ROSE分析結果1、結論2、讨論 6.3安裝IGV(Integrative Genomics Viewer)對結果可視化 從IGV官網下載下傳windows版本http://software.broadinstitute.org/software/igv/download根據提示安裝
直接點選打開igv.jar或者對bat檔案以管理者身份運作
首先,載入hg19基因組;接着載入兩個normalised後的bw檔案即可
7、ROSE鑒定Enhancer 7.1 ROSE程式安裝 ROSE程式可以到http://younglab.wi.mit.edu/super_enhancer_code.html下載下傳,并且有2.7G的示例資料
7.2 資料預處理 Chip-seq流程報告1、硬體平台2、系統平台3、軟體平台4、資料庫資源5、研究對象1、Aspera軟體下載下傳及安裝2、Chip-Seq資料下載下傳3、FastQC品質檢查4、使用Bowtie對Reads進行Mapping5、MACS尋找Peak富集區6、IGV可視化7、ROSE鑒定Enhancer1、Chip-Seq資料下載下傳2、FastQC品質檢查3、使用Bowtie對Reads進行Mapping4、MACS尋找Peak富集區5、IGV對peaks可視化6、ROSE分析結果1、結論2、讨論 7.3運作ROSE程式 Chip-seq流程報告1、硬體平台2、系統平台3、軟體平台4、資料庫資源5、研究對象1、Aspera軟體下載下傳及安裝2、Chip-Seq資料下載下傳3、FastQC品質檢查4、使用Bowtie對Reads進行Mapping5、MACS尋找Peak富集區6、IGV可視化7、ROSE鑒定Enhancer1、Chip-Seq資料下載下傳2、FastQC品質檢查3、使用Bowtie對Reads進行Mapping4、MACS尋找Peak富集區5、IGV對peaks可視化6、ROSE分析結果1、結論2、讨論 7.4 進行基因注釋 Chip-seq流程報告1、硬體平台2、系統平台3、軟體平台4、資料庫資源5、研究對象1、Aspera軟體下載下傳及安裝2、Chip-Seq資料下載下傳3、FastQC品質檢查4、使用Bowtie對Reads進行Mapping5、MACS尋找Peak富集區6、IGV可視化7、ROSE鑒定Enhancer1、Chip-Seq資料下載下傳2、FastQC品質檢查3、使用Bowtie對Reads進行Mapping4、MACS尋找Peak富集區5、IGV對peaks可視化6、ROSE分析結果1、結論2、讨論 7.5 編寫R程式,繪制Enhancer及鄰近基因 Chip-seq流程報告1、硬體平台2、系統平台3、軟體平台4、資料庫資源5、研究對象1、Aspera軟體下載下傳及安裝2、Chip-Seq資料下載下傳3、FastQC品質檢查4、使用Bowtie對Reads進行Mapping5、MACS尋找Peak富集區6、IGV可視化7、ROSE鑒定Enhancer1、Chip-Seq資料下載下傳2、FastQC品質檢查3、使用Bowtie對Reads進行Mapping4、MACS尋找Peak富集區5、IGV對peaks可視化6、ROSE分析結果1、結論2、讨論 圖表 6 TE7.r程式
Chip-seq流程報告1、硬體平台2、系統平台3、軟體平台4、資料庫資源5、研究對象1、Aspera軟體下載下傳及安裝2、Chip-Seq資料下載下傳3、FastQC品質檢查4、使用Bowtie對Reads進行Mapping5、MACS尋找Peak富集區6、IGV可視化7、ROSE鑒定Enhancer1、Chip-Seq資料下載下傳2、FastQC品質檢查3、使用Bowtie對Reads進行Mapping4、MACS尋找Peak富集區5、IGV對peaks可視化6、ROSE分析結果1、結論2、讨論 圖表 7 KYSE510.r程式
四、結果
1、Chip-Seq資料下載下傳 Chip-Seq資料下載下傳并解壓結果
Chip-seq流程報告1、硬體平台2、系統平台3、軟體平台4、資料庫資源5、研究對象1、Aspera軟體下載下傳及安裝2、Chip-Seq資料下載下傳3、FastQC品質檢查4、使用Bowtie對Reads進行Mapping5、MACS尋找Peak富集區6、IGV可視化7、ROSE鑒定Enhancer1、Chip-Seq資料下載下傳2、FastQC品質檢查3、使用Bowtie對Reads進行Mapping4、MACS尋找Peak富集區5、IGV對peaks可視化6、ROSE分析結果1、結論2、讨論 圖表 8 Chip-Seq資料
2、FastQC品質檢查 資料品質檢查
Chip-seq流程報告1、硬體平台2、系統平台3、軟體平台4、資料庫資源5、研究對象1、Aspera軟體下載下傳及安裝2、Chip-Seq資料下載下傳3、FastQC品質檢查4、使用Bowtie對Reads進行Mapping5、MACS尋找Peak富集區6、IGV可視化7、ROSE鑒定Enhancer1、Chip-Seq資料下載下傳2、FastQC品質檢查3、使用Bowtie對Reads進行Mapping4、MACS尋找Peak富集區5、IGV對peaks可視化6、ROSE分析結果1、結論2、讨論 圖表 9 品質檢查檔案
Chip-seq流程報告1、硬體平台2、系統平台3、軟體平台4、資料庫資源5、研究對象1、Aspera軟體下載下傳及安裝2、Chip-Seq資料下載下傳3、FastQC品質檢查4、使用Bowtie對Reads進行Mapping5、MACS尋找Peak富集區6、IGV可視化7、ROSE鑒定Enhancer1、Chip-Seq資料下載下傳2、FastQC品質檢查3、使用Bowtie對Reads進行Mapping4、MACS尋找Peak富集區5、IGV對peaks可視化6、ROSE分析結果1、結論2、讨論 圖表 10 品質檢查結果
3、使用Bowtie對Reads進行Mapping 3.1基因組檔案 Chip-seq流程報告1、硬體平台2、系統平台3、軟體平台4、資料庫資源5、研究對象1、Aspera軟體下載下傳及安裝2、Chip-Seq資料下載下傳3、FastQC品質檢查4、使用Bowtie對Reads進行Mapping5、MACS尋找Peak富集區6、IGV可視化7、ROSE鑒定Enhancer1、Chip-Seq資料下載下傳2、FastQC品質檢查3、使用Bowtie對Reads進行Mapping4、MACS尋找Peak富集區5、IGV對peaks可視化6、ROSE分析結果1、結論2、讨論 圖表 11人類參考基因組HG19索引
3.2 Mapping結果 Chip-seq流程報告1、硬體平台2、系統平台3、軟體平台4、資料庫資源5、研究對象1、Aspera軟體下載下傳及安裝2、Chip-Seq資料下載下傳3、FastQC品質檢查4、使用Bowtie對Reads進行Mapping5、MACS尋找Peak富集區6、IGV可視化7、ROSE鑒定Enhancer1、Chip-Seq資料下載下傳2、FastQC品質檢查3、使用Bowtie對Reads進行Mapping4、MACS尋找Peak富集區5、IGV對peaks可視化6、ROSE分析結果1、結論2、讨論 圖表 12 Mapping整體結果
Chip-seq流程報告1、硬體平台2、系統平台3、軟體平台4、資料庫資源5、研究對象1、Aspera軟體下載下傳及安裝2、Chip-Seq資料下載下傳3、FastQC品質檢查4、使用Bowtie對Reads進行Mapping5、MACS尋找Peak富集區6、IGV可視化7、ROSE鑒定Enhancer1、Chip-Seq資料下載下傳2、FastQC品質檢查3、使用Bowtie對Reads進行Mapping4、MACS尋找Peak富集區5、IGV對peaks可視化6、ROSE分析結果1、結論2、讨論 圖表 13 生成的sam檔案
4、MACS尋找Peak富集區 4.1MACS結果檔案 Chip-seq流程報告1、硬體平台2、系統平台3、軟體平台4、資料庫資源5、研究對象1、Aspera軟體下載下傳及安裝2、Chip-Seq資料下載下傳3、FastQC品質檢查4、使用Bowtie對Reads進行Mapping5、MACS尋找Peak富集區6、IGV可視化7、ROSE鑒定Enhancer1、Chip-Seq資料下載下傳2、FastQC品質檢查3、使用Bowtie對Reads進行Mapping4、MACS尋找Peak富集區5、IGV對peaks可視化6、ROSE分析結果1、結論2、讨論 圖表 14 TE7實驗對照組結果
Chip-seq流程報告1、硬體平台2、系統平台3、軟體平台4、資料庫資源5、研究對象1、Aspera軟體下載下傳及安裝2、Chip-Seq資料下載下傳3、FastQC品質檢查4、使用Bowtie對Reads進行Mapping5、MACS尋找Peak富集區6、IGV可視化7、ROSE鑒定Enhancer1、Chip-Seq資料下載下傳2、FastQC品質檢查3、使用Bowtie對Reads進行Mapping4、MACS尋找Peak富集區5、IGV對peaks可視化6、ROSE分析結果1、結論2、讨論 圖表 15 KYSE510實驗對照組結果
4.2 MACS結果解讀 Peaks.xls從左至右依次是:峰所在的染色體名稱,峰的起始位置,峰的結束為止,峰的長度,峰的高度,貼上的reads标簽個數,pvalue(表示置信度),峰的富集程度,FDR假陽性率(越小則峰越好)
Chip-seq流程報告1、硬體平台2、系統平台3、軟體平台4、資料庫資源5、研究對象1、Aspera軟體下載下傳及安裝2、Chip-Seq資料下載下傳3、FastQC品質檢查4、使用Bowtie對Reads進行Mapping5、MACS尋找Peak富集區6、IGV可視化7、ROSE鑒定Enhancer1、Chip-Seq資料下載下傳2、FastQC品質檢查3、使用Bowtie對Reads進行Mapping4、MACS尋找Peak富集區5、IGV對peaks可視化6、ROSE分析結果1、結論2、讨論 圖表 16 Peaks.xls檔案
negative_peaks.xls當有對照組實驗存在時,MACS會進行兩次peak calling。第一次以實驗組(Treatment)為實驗組,對照組為對照組,第二次颠倒,以實驗組為對照組,對照組為實驗組。這個相當于颠倒過後計算出來的檔案
Chip-seq流程報告1、硬體平台2、系統平台3、軟體平台4、資料庫資源5、研究對象1、Aspera軟體下載下傳及安裝2、Chip-Seq資料下載下傳3、FastQC品質檢查4、使用Bowtie對Reads進行Mapping5、MACS尋找Peak富集區6、IGV可視化7、ROSE鑒定Enhancer1、Chip-Seq資料下載下傳2、FastQC品質檢查3、使用Bowtie對Reads進行Mapping4、MACS尋找Peak富集區5、IGV對peaks可視化6、ROSE分析結果1、結論2、讨論 圖表 17 negative_peaks.xls
Peaks.bed檔案相當于Peaks.xls的簡化版,從左至右依次是:峰所在的染色體名稱,峰的起始位置,峰的結束為止,峰的MACS名稱,pvalue(表示置信度)
Chip-seq流程報告1、硬體平台2、系統平台3、軟體平台4、資料庫資源5、研究對象1、Aspera軟體下載下傳及安裝2、Chip-Seq資料下載下傳3、FastQC品質檢查4、使用Bowtie對Reads進行Mapping5、MACS尋找Peak富集區6、IGV可視化7、ROSE鑒定Enhancer1、Chip-Seq資料下載下傳2、FastQC品質檢查3、使用Bowtie對Reads進行Mapping4、MACS尋找Peak富集區5、IGV對peaks可視化6、ROSE分析結果1、結論2、讨論 圖表 18 Peaks.bed檔案
summits.bed是峰頂檔案,從左至右依次是:峰所在的染色體名稱,峰頂的位置,峰的MACS名稱,峰的高度
Chip-seq流程報告1、硬體平台2、系統平台3、軟體平台4、資料庫資源5、研究對象1、Aspera軟體下載下傳及安裝2、Chip-Seq資料下載下傳3、FastQC品質檢查4、使用Bowtie對Reads進行Mapping5、MACS尋找Peak富集區6、IGV可視化7、ROSE鑒定Enhancer1、Chip-Seq資料下載下傳2、FastQC品質檢查3、使用Bowtie對Reads進行Mapping4、MACS尋找Peak富集區5、IGV對peaks可視化6、ROSE分析結果1、結論2、讨論 圖表 19 summits.bed檔案
MACS_wiggle檔案夾下面分為control檔案夾和treat檔案夾,裡面分别存了control組和treat組每隔50bp,貼上的reads數目。第一列為染色體上的位置;第二列為從第一列對應的位置開始,延伸50bp,總共貼上的标簽(reads)個數。
Chip-seq流程報告1、硬體平台2、系統平台3、軟體平台4、資料庫資源5、研究對象1、Aspera軟體下載下傳及安裝2、Chip-Seq資料下載下傳3、FastQC品質檢查4、使用Bowtie對Reads進行Mapping5、MACS尋找Peak富集區6、IGV可視化7、ROSE鑒定Enhancer1、Chip-Seq資料下載下傳2、FastQC品質檢查3、使用Bowtie對Reads進行Mapping4、MACS尋找Peak富集區5、IGV對peaks可視化6、ROSE分析結果1、結論2、讨論 圖表 20 wiggle檔案夾下afterfiting_all.wig檔案
model.r檔案可以使用R運作,繪制雙峰模型的圖檔PDF
Chip-seq流程報告1、硬體平台2、系統平台3、軟體平台4、資料庫資源5、研究對象1、Aspera軟體下載下傳及安裝2、Chip-Seq資料下載下傳3、FastQC品質檢查4、使用Bowtie對Reads進行Mapping5、MACS尋找Peak富集區6、IGV可視化7、ROSE鑒定Enhancer1、Chip-Seq資料下載下傳2、FastQC品質檢查3、使用Bowtie對Reads進行Mapping4、MACS尋找Peak富集區5、IGV對peaks可視化6、ROSE分析結果1、結論2、讨論 圖表 21 model.r檔案
Chip-seq流程報告1、硬體平台2、系統平台3、軟體平台4、資料庫資源5、研究對象1、Aspera軟體下載下傳及安裝2、Chip-Seq資料下載下傳3、FastQC品質檢查4、使用Bowtie對Reads進行Mapping5、MACS尋找Peak富集區6、IGV可視化7、ROSE鑒定Enhancer1、Chip-Seq資料下載下傳2、FastQC品質檢查3、使用Bowtie對Reads進行Mapping4、MACS尋找Peak富集區5、IGV對peaks可視化6、ROSE分析結果1、結論2、讨論 Chip-seq流程報告1、硬體平台2、系統平台3、軟體平台4、資料庫資源5、研究對象1、Aspera軟體下載下傳及安裝2、Chip-Seq資料下載下傳3、FastQC品質檢查4、使用Bowtie對Reads進行Mapping5、MACS尋找Peak富集區6、IGV可視化7、ROSE鑒定Enhancer1、Chip-Seq資料下載下傳2、FastQC品質檢查3、使用Bowtie對Reads進行Mapping4、MACS尋找Peak富集區5、IGV對peaks可視化6、ROSE分析結果1、結論2、讨論 圖表 22 TE7雙峰模型 圖表 23 KYSE510雙峰模型
5、IGV對peaks可視化 5.1Normalised後,wig檔案與文獻資料比較 Chip-seq流程報告1、硬體平台2、系統平台3、軟體平台4、資料庫資源5、研究對象1、Aspera軟體下載下傳及安裝2、Chip-Seq資料下載下傳3、FastQC品質檢查4、使用Bowtie對Reads進行Mapping5、MACS尋找Peak富集區6、IGV可視化7、ROSE鑒定Enhancer1、Chip-Seq資料下載下傳2、FastQC品質檢查3、使用Bowtie對Reads進行Mapping4、MACS尋找Peak富集區5、IGV對peaks可視化6、ROSE分析結果1、結論2、讨論 圖表 24 peaks整體統計比較
5.2 IGV peaks整體可視化 Chip-seq流程報告1、硬體平台2、系統平台3、軟體平台4、資料庫資源5、研究對象1、Aspera軟體下載下傳及安裝2、Chip-Seq資料下載下傳3、FastQC品質檢查4、使用Bowtie對Reads進行Mapping5、MACS尋找Peak富集區6、IGV可視化7、ROSE鑒定Enhancer1、Chip-Seq資料下載下傳2、FastQC品質檢查3、使用Bowtie對Reads進行Mapping4、MACS尋找Peak富集區5、IGV對peaks可視化6、ROSE分析結果1、結論2、讨論 圖表 25 IGV可視化
6、ROSE分析結果 6.1 資料預處理結果 Samtools将sam檔案轉化為bam檔案,并且排序,再建立索引
Chip-seq流程報告1、硬體平台2、系統平台3、軟體平台4、資料庫資源5、研究對象1、Aspera軟體下載下傳及安裝2、Chip-Seq資料下載下傳3、FastQC品質檢查4、使用Bowtie對Reads進行Mapping5、MACS尋找Peak富集區6、IGV可視化7、ROSE鑒定Enhancer1、Chip-Seq資料下載下傳2、FastQC品質檢查3、使用Bowtie對Reads進行Mapping4、MACS尋找Peak富集區5、IGV對peaks可視化6、ROSE分析結果1、結論2、讨論 圖表 26 bam檔案和bai索引
6.2 ROSE程式Enhancer分類結果 Chip-seq流程報告1、硬體平台2、系統平台3、軟體平台4、資料庫資源5、研究對象1、Aspera軟體下載下傳及安裝2、Chip-Seq資料下載下傳3、FastQC品質檢查4、使用Bowtie對Reads進行Mapping5、MACS尋找Peak富集區6、IGV可視化7、ROSE鑒定Enhancer1、Chip-Seq資料下載下傳2、FastQC品質檢查3、使用Bowtie對Reads進行Mapping4、MACS尋找Peak富集區5、IGV對peaks可視化6、ROSE分析結果1、結論2、讨論 圖表 27 TE7 Enhancer分類結果
Chip-seq流程報告1、硬體平台2、系統平台3、軟體平台4、資料庫資源5、研究對象1、Aspera軟體下載下傳及安裝2、Chip-Seq資料下載下傳3、FastQC品質檢查4、使用Bowtie對Reads進行Mapping5、MACS尋找Peak富集區6、IGV可視化7、ROSE鑒定Enhancer1、Chip-Seq資料下載下傳2、FastQC品質檢查3、使用Bowtie對Reads進行Mapping4、MACS尋找Peak富集區5、IGV對peaks可視化6、ROSE分析結果1、結論2、讨論 圖表 28 KYSE510 Enhancer分類結果
peaks_AllEnhancers.table.txt檔案從左到右分别是,Enhancer區域名稱ID,染色體位置,Enhancer起始位置,結束位置,由多少個Enhancer縫合連接配接而成,Enhancer大小,Treat組峰高度,Control組峰高度,Enhancer大小排名,是否為Super Enhancer
Chip-seq流程報告1、硬體平台2、系統平台3、軟體平台4、資料庫資源5、研究對象1、Aspera軟體下載下傳及安裝2、Chip-Seq資料下載下傳3、FastQC品質檢查4、使用Bowtie對Reads進行Mapping5、MACS尋找Peak富集區6、IGV可視化7、ROSE鑒定Enhancer1、Chip-Seq資料下載下傳2、FastQC品質檢查3、使用Bowtie對Reads進行Mapping4、MACS尋找Peak富集區5、IGV對peaks可視化6、ROSE分析結果1、結論2、讨論 圖表 29 peaks_AllEnhancers.table.txt檔案
peaks_Plot_points.png圖檔,縱坐标為peaks_AllEnhancers.table.txt中G,H列相減結果,及減掉對照組峰後的高度,橫坐标為全部Enhancer的排名,越可能是SuperEnhancer則越靠圖的右邊。
Chip-seq流程報告1、硬體平台2、系統平台3、軟體平台4、資料庫資源5、研究對象1、Aspera軟體下載下傳及安裝2、Chip-Seq資料下載下傳3、FastQC品質檢查4、使用Bowtie對Reads進行Mapping5、MACS尋找Peak富集區6、IGV可視化7、ROSE鑒定Enhancer1、Chip-Seq資料下載下傳2、FastQC品質檢查3、使用Bowtie對Reads進行Mapping4、MACS尋找Peak富集區5、IGV對peaks可視化6、ROSE分析結果1、結論2、讨論 Chip-seq流程報告1、硬體平台2、系統平台3、軟體平台4、資料庫資源5、研究對象1、Aspera軟體下載下傳及安裝2、Chip-Seq資料下載下傳3、FastQC品質檢查4、使用Bowtie對Reads進行Mapping5、MACS尋找Peak富集區6、IGV可視化7、ROSE鑒定Enhancer1、Chip-Seq資料下載下傳2、FastQC品質檢查3、使用Bowtie對Reads進行Mapping4、MACS尋找Peak富集區5、IGV對peaks可視化6、ROSE分析結果1、結論2、讨論 圖表 30 TE7_peaks_Plot_points.png圖表 31 KYSE510_peaks_Plot_points.png
6.3 基因注釋結果 AllEnhancers_ENHANCER_TO_GENE.txt第J列開始為離Enhancer最近的基因名稱
AllEnhancers_GENE_TO_ENHANCER.txt第1列為基因名,後面為鄰近峰的名稱
Chip-seq流程報告1、硬體平台2、系統平台3、軟體平台4、資料庫資源5、研究對象1、Aspera軟體下載下傳及安裝2、Chip-Seq資料下載下傳3、FastQC品質檢查4、使用Bowtie對Reads進行Mapping5、MACS尋找Peak富集區6、IGV可視化7、ROSE鑒定Enhancer1、Chip-Seq資料下載下傳2、FastQC品質檢查3、使用Bowtie對Reads進行Mapping4、MACS尋找Peak富集區5、IGV對peaks可視化6、ROSE分析結果1、結論2、讨論 圖表 32 AllEnhancers_ENHANCER_TO_GENE.txt檔案
Chip-seq流程報告1、硬體平台2、系統平台3、軟體平台4、資料庫資源5、研究對象1、Aspera軟體下載下傳及安裝2、Chip-Seq資料下載下傳3、FastQC品質檢查4、使用Bowtie對Reads進行Mapping5、MACS尋找Peak富集區6、IGV可視化7、ROSE鑒定Enhancer1、Chip-Seq資料下載下傳2、FastQC品質檢查3、使用Bowtie對Reads進行Mapping4、MACS尋找Peak富集區5、IGV對peaks可視化6、ROSE分析結果1、結論2、讨論 圖表 33 AllEnhancers_GENE_TO_ENHANCER.txt
五、讨論和結論
1、結論 1.1 FastQC品質檢查 FastQC 版本和機房小型機不同,為v0.10.1,是以檢測結果略有差別。圖表 8 品質檢查結果顯示,測序品質挺好,Per base sequence content、Per sequence GC content、Kmer Content出現警告更可能是由于測序方法本身存在的固有誤差。
1.2 bowtie整體覆寫度 由圖表 10 Mapping整體結果可以看出,四個fastq檔案Mapping整體覆寫率都在90%以上,從另一方面說明資料品質很好
1.3 ROSE辨識出的Super Enhancer 由圖表 29 TE7_peaks_Plot_points.png圖表 28 KYSE510_peaks_Plot_points.png可以看出,在TE7細胞系中,找出了439個Super Enhancer,在KYSE510細胞系中,找出了823個Super Enhancer。
2、讨論 由IGV可視化圖可以看出,峰的高度和位置基本和文獻相同。
Chip-seq流程報告1、硬體平台2、系統平台3、軟體平台4、資料庫資源5、研究對象1、Aspera軟體下載下傳及安裝2、Chip-Seq資料下載下傳3、FastQC品質檢查4、使用Bowtie對Reads進行Mapping5、MACS尋找Peak富集區6、IGV可視化7、ROSE鑒定Enhancer1、Chip-Seq資料下載下傳2、FastQC品質檢查3、使用Bowtie對Reads進行Mapping4、MACS尋找Peak富集區5、IGV對peaks可視化6、ROSE分析結果1、結論2、讨論 圖表 34 IGV可視化圖
再用R程式根據ROSE程式結果,繪制和文獻相同的圖檔,與文獻的圖檔進行比較,可以看出來,基因的分布是相似的,就是具體位置和文獻不是很一樣。
Chip-seq流程報告1、硬體平台2、系統平台3、軟體平台4、資料庫資源5、研究對象1、Aspera軟體下載下傳及安裝2、Chip-Seq資料下載下傳3、FastQC品質檢查4、使用Bowtie對Reads進行Mapping5、MACS尋找Peak富集區6、IGV可視化7、ROSE鑒定Enhancer1、Chip-Seq資料下載下傳2、FastQC品質檢查3、使用Bowtie對Reads進行Mapping4、MACS尋找Peak富集區5、IGV對peaks可視化6、ROSE分析結果1、結論2、讨論 圖表 35 本流程結果
Chip-seq流程報告1、硬體平台2、系統平台3、軟體平台4、資料庫資源5、研究對象1、Aspera軟體下載下傳及安裝2、Chip-Seq資料下載下傳3、FastQC品質檢查4、使用Bowtie對Reads進行Mapping5、MACS尋找Peak富集區6、IGV可視化7、ROSE鑒定Enhancer1、Chip-Seq資料下載下傳2、FastQC品質檢查3、使用Bowtie對Reads進行Mapping4、MACS尋找Peak富集區5、IGV對peaks可視化6、ROSE分析結果1、結論2、讨論 圖表 36 文獻結果
在MACS結果中,有些很窄的峰高度明顯比文獻要低,這可能是因為bowtie時候,設定的參數使得多條reads比對上僅輸出一次,使得峰高度減小。
在ROSE結果中,MIR205HG沒有标注出來,而文獻中有此基因,經過檢查,在相似位置ROSE程式有找到MIR205基因,這可能是基因注釋檔案和文獻不同導緻的。
參考文獻
[1] Targeting super-enhancer-associated oncogenes in oesophageal squamous cell carcinoma PMID: 27196599