天天看點

轉錄組分析資料準備資料的下載下傳

轉錄組分析資料準備

在這之前,我們要明白,進行轉錄組分析,我們需要那些檔案

  1. 測序資料
  2. 樣本資訊表
  3. 基因組序列(genome.fasta)
  4. 基因注釋檔案(genes.gtf)
  5. 蛋白序列(proteins.fasta)

    其中,測序資料可以自己去公司測序,或在公開的資源網站進行下載下傳。

    樣本資訊表,是自己根據測序資料進行編輯。至于基因組序列,基因注釋檔案和蛋白序列檔案,則需要自己在網上下載下傳,今天我們就介紹怎麼樣從ensembl上面下載下傳這三組資料,選擇ensembl的是因為它更新快,而且資料可靠。

資料的下載下傳

首先,我們打開浏覽器輸入ensembl,進入它的官網

轉錄組分析資料準備資料的下載下傳

可以在search欄裡面查找自己感興趣的物種,或者直接點選用的比較多的人,小鼠或者斑馬魚的資料,我們就以人為例,來進行下載下傳

轉錄組分析資料準備資料的下載下傳

基因組序列檔案

我們先點選Genome assembly: GRCh38.p13下面的dowload sequence(這個時候,千萬千萬不要處于翻牆狀态,不然會打不開ftp網址)

轉錄組分析資料準備資料的下載下傳

可以看到,這裡面有許多基因組序列檔案,而我們做轉錄組需要的是primary_assembly.fa.gz這個序列檔案,直接右鍵複制連結位址,在linux下使用wget下載下傳就行了

基因注釋檔案

傳回剛剛的界面,點選Gene annotation裡面的Download GTF

轉錄組分析資料準備資料的下載下傳

我們使用的是Homo_sapiens/GRCH38.99.gtf.gz

同樣的我們複制下載下傳連結,在linux裡面用wget下載下傳就行了

在這裡我們需要注意的是,在有gtf和gff檔案的時候,我們優先使用gtf檔案,隻有gff檔案時,我們要把gff檔案改成gtf檔案

轉錄組分析資料準備資料的下載下傳

蛋白序列檔案

還是傳回剛才的界面,點選Download FASTA

轉錄組分析資料準備資料的下載下傳

進入之後,我們點選pep/檔案夾,這個檔案是存放蛋白序列的檔案夾

轉錄組分析資料準備資料的下載下傳

然後我們用同樣的方法下載下傳Homo_sapiens/GRCH38.99.pep.all.fa.gz就行了

轉錄組分析資料準備資料的下載下傳

這樣,我們做轉錄組分析所需要的資料就全部準備好啦。

繼續閱讀