天天看点

转录组分析数据准备数据的下载

转录组分析数据准备

在这之前,我们要明白,进行转录组分析,我们需要那些文件

  1. 测序数据
  2. 样本信息表
  3. 基因组序列(genome.fasta)
  4. 基因注释文件(genes.gtf)
  5. 蛋白序列(proteins.fasta)

    其中,测序数据可以自己去公司测序,或在公开的资源网站进行下载。

    样本信息表,是自己根据测序数据进行编辑。至于基因组序列,基因注释文件和蛋白序列文件,则需要自己在网上下载,今天我们就介绍怎么样从ensembl上面下载这三组数据,选择ensembl的是因为它更新快,而且数据可靠。

数据的下载

首先,我们打开浏览器输入ensembl,进入它的官网

转录组分析数据准备数据的下载

可以在search栏里面查找自己感兴趣的物种,或者直接点击用的比较多的人,小鼠或者斑马鱼的数据,我们就以人为例,来进行下载

转录组分析数据准备数据的下载

基因组序列文件

我们先点击Genome assembly: GRCh38.p13下面的dowload sequence(这个时候,千万千万不要处于翻墙状态,不然会打不开ftp网址)

转录组分析数据准备数据的下载

可以看到,这里面有许多基因组序列文件,而我们做转录组需要的是primary_assembly.fa.gz这个序列文件,直接右键复制链接地址,在linux下使用wget下载就行了

基因注释文件

返回刚刚的界面,点击Gene annotation里面的Download GTF

转录组分析数据准备数据的下载

我们使用的是Homo_sapiens/GRCH38.99.gtf.gz

同样的我们复制下载链接,在linux里面用wget下载就行了

在这里我们需要注意的是,在有gtf和gff文件的时候,我们优先使用gtf文件,只有gff文件时,我们要把gff文件改成gtf文件

转录组分析数据准备数据的下载

蛋白序列文件

还是返回刚才的界面,点击Download FASTA

转录组分析数据准备数据的下载

进入之后,我们点击pep/文件夹,这个文件是存放蛋白序列的文件夹

转录组分析数据准备数据的下载

然后我们用同样的方法下载Homo_sapiens/GRCH38.99.pep.all.fa.gz就行了

转录组分析数据准备数据的下载

这样,我们做转录组分析所需要的数据就全部准备好啦。

继续阅读