天天看点

RNA测序数据回贴与组装 (RNA-Seq Mapping& Assembling)

作者:FlowHub

Reads mapping通常是深度测序数据分析的第一步。基于深度测序技术,RNA-Seq产生的reads在长度、数量、质量等方面与基因组重测序产生的DNA reads具有相似的特性。例如,它们都存在长度短、数量多、质量参差不齐、错误率高等问题。

RNA测序数据回贴与组装 (RNA-Seq Mapping& Assembling)

然而,RNA-Seq测序数据也有其自身的特点,因为它来自RNA转录本。具体来说,在从DNA到mRNA的转录过程中,内含子被切掉,外显子在剪接位点连接在一起。对于跨剪接位点的reads,也称为junction reads,如果你不从中间打断它们,它们将无法准确映射到基因组。

RNA测序数据回贴与组装 (RNA-Seq Mapping& Assembling)

这些连接点读数是确定剪接位点的直接证据。它们对于正确重建转录本结构至关重要。例如,在下图中,跨外显子1和外显子3的连接读数直接支持外显子1和外显子3直接连接的转录本的存在,中间不包含外显子2。同样,在下图中,

两种junction reads分别支持外显子1与外显子3直接连接的转录本和外显子3与外显子5直接连接的转录本的存在。因此,我们的映射算法需要考虑连接位点和内含子,以便正确处理这些连接读取。

RNA测序数据回贴与组装 (RNA-Seq Mapping& Assembling)

具体来说,目前针对这个问题主要有两种策略。一个是加入外显子策略(join exon)。该策略的第一步是根据已知转录本中的所有外显子构建所有可能的连接。需要注意的是,这个库中的结点可能是未知的,但包括了所有可能的组合。例如,4个外显子对应六种组合。之后,进行通常的映射,其中非连接读取以类似于那些DNA读取的未拼接方式映射到基因组。对于那些不能直接映射的连接读取,我们将它们与第一步中构建的连接库对齐。事实上,join exon策略可以作为之前DNA reads mapping算法的补丁。该策略可以通过构建所有可能的连接库来发现新的剪接异构体。

RNA测序数据回贴与组装 (RNA-Seq Mapping& Assembling)

然而,它对未知外显子无能为力。我们可以转向拆分读取(split reads)策略来处理这个问题。与之前的DNA reads映射算法类似,split reads策略也将首先以未拼接的方式将非连接reads映射到基因组。对于那些不能直接映射的junction reads,它们将被切成多个长度为k的种子来重试映射,这类似于BLAST方法。换句话说,此策略试图以更细的粒度查找连接站点。最后,将彼此靠近的映射种子组合起来以获得最终的整体读取对齐。与之前的Join exon策略相比,split reads策略速度较慢,因为它需要映射比reads更短的种子。然而,这种策略不依赖于先前的外显子注释,并且可以发现新的外显子甚至新基因。

RNA测序数据回贴与组装 (RNA-Seq Mapping& Assembling)

事实上,目前常见的RNA-Seq工具通常将这两种策略结合在一起,以平衡灵敏度和速度。例如,约翰霍普金斯大学、伯克利大学和哈佛大学共同开发的TopHat2工具试图首先通过Join exon策略快速识别已知的连接位点,然后使用spilt reads策略发现新的连接点。TopHat2的一个值得注意的特点是它针对不同的策略使用不同的索引,这可以进一步提高映射速度。

RNA测序数据回贴与组装 (RNA-Seq Mapping& Assembling)

映射只是RNA-Seq数据分析的第一步。我们仍然需要将这些reads组装成转录本,并估计它们的表达水平。在正确映射所有读取(包括连接读取)后,我们可以将转录本组装问题解释为有向图上的遍历问题。

RNA测序数据回贴与组装 (RNA-Seq Mapping& Assembling)

我们可以使用图论中的寻路算法在不同边被分配不同权重的约束下找到一条或多条最优路径及其对应的转录序列。我们将通过常用工具Cufflinks来说明基本思想。

RNA测序数据回贴与组装 (RNA-Seq Mapping& Assembling)

Cufflinks是一种基于RNA-Seq数据进行转录本组装和表达分析的工具。假设我们只观察reads而不知道有这三种转录本结构。首先,Cufflinks会尝试找出不可能出现在同一笔录中的片段。例如,此处的黄色和蓝色片段不可能存在于同一个转录本中。原因是如果它们存在于同一个转录本中,黄色的会在蓝色的这个位置中断而不是跳过它。同样,红色、黄色和蓝色片段都是相互排斥的,而两个相同颜色的片段是相容的。我们可以将每个片段视为一个节点,并将所有彼此相容的片段连接起来,从而得到重叠图。在简约原则的指导下,Cufflinks将尝试找出“最小成本路径覆盖”作为最佳路径,该路径具有最少数量的路径,可以覆盖所有读取并且没有重叠。这样就获得了三个转录本的最终集合。

RNA测序数据回贴与组装 (RNA-Seq Mapping& Assembling)

原则上,一旦转录本组装正确完成并且这些外显子的表达水平已正确归一化,转录本的表达水平就可以直接从外显子的表达水平推断出来,如上一单元所述。例如,假设我们可以从基因组上的三个外显子推断出两个转录本t1和t2。同时,假设可以确定每个外显子的标准化表达水平:e1=20、e2=40和e3=60。然后我们可以直接从转录本结构推断出转录本表达水平和外显子表达水平之间的关系。例如,外显子1仅存在于转录本1中,因此其所有表达均由转录本1提供。类似地,外显子3同时存在于转录本1和转录本2中,因此其表达由两个转录本提供。因此,我们认为外显子1的表达水平就是转录本1的表达水平,而外显子3的表达水平是转录本1和转录本2的表达水平之和。我们可以推断出转录本1和转录本2的表达水平,分别是20和40。

RNA测序数据回贴与组装 (RNA-Seq Mapping& Assembling)

当然,这个问题在实践中变得更加复杂,因为我们考虑到转录本组装算法决定了reads分布的性质这一事实。例如,在Cufflinks中,reads的分布与其他因素有关,例如长度分布。事实上,转录本组装和表达水平估计通常由EM和其他迭代算法完成,以进一步准确估计表达水平。

继续阅读