
结构变异成为越来越多研究关注的热点,如何检测基因组范围内的结构变异? 目前主要检测方法分为以下几种: ·基于二代短读测序的结构变异检测 ·基于三代长读测序的结构变异检测 ·基因组从头组装结构变异检测 ·基于RNA数据(转录组数据)的结构变异检测 ·基于10x genemics、HiC等新技术的结构变异检测 在不考虑组装的情况下,基于二代测序数据的检测方法主要是RP(read pair),RD(read depth),SR(split read)三种,检测原理这篇文章已经说的很详细(《 一篇文章说清楚基因组结构性变异检测的方法》 作者: 黄树嘉https://zhuanlan.zhihu.com/p/40290546 ),这里简单介绍几个代表软件。 ·BreakDancer : 基于RP方法,根据pair reads在参考基因组上的的映射距离和方向,将每个读取对象分类为normal或SV,然后识别出符合SV类别的读取次数较多的区域,并分配一个置信度得分,然后输出到结果文件中。 它的缺点是可能导致遗漏一些较小的缺失,只要其长度在RP片段的正常可变范围内。 ·DELLY : 基于RP和SR方法提高了断点预测的准确性,并允许检测较小的删除(20+bp); ·LUMPY : 将覆盖信息(覆盖度、深度等)集成为一种输入信号,同时使用RP,SR,RD进行联合分析。 上述软件专门用于检测某些特定类型的变异,但没有一种能够可靠地识别所有SV类型和大小范围。 以MetaSV,Parliament2,SURVIVOR为代表的meta- methods 通过组合来自不同工具的调用并选择由多个方法标识的变体来填补这一空白。 理想情况下,meta-methods可以结合多种方法的优点,同时克服它们各自的缺点; 但实际上这些软件的假阳性率很高,无法可靠地识别大的插入,同时有相当多的复杂变异被忽略。
三代测序的long reads 对SV检测是有优势的,因为可以跨越重复区域或其他有问题的区域。 因此,这些较长的读取(5+kbp)与单独的短读取相比,有可能改进映射并更好地捕获较大的SV。 但与二代数据相比,获得相同覆盖率的成本更高。 其次,三代大部分平台有较高的测序错误率(8–20%)。 BLASR、Minimap2 和NGMLR等是最近发展起来的用于长读序比对的工具,但一般都是基于单独的测序方法—PacBio或者Oxford Nanopore。 对于PacBio测序数据,主要有三种专门的软件。 PBHoney 原理是基于所得到的覆盖率和split reads信息。 PBSV 是PacBio开发的一种在20+bp范围内检测SVs的方法,所有支持某种假定SV的Reads,需要重新与参考基因组比对进行验证。 SMRT-SV 包括从头组装和一个专门的基因分型模块。 reads首先与参考基因组比对,然后将整个基因组划分为多个窗口,每个窗口内部执行序列的局部组装。 组装结果再重新与参考基因组比对,并标识结构变体(插入、删除和反转)。 对于Oxford Nanopore长读序,NanoSV是第一个开发应用的软件。 NanoSV优先使用来自LAST的比对结果作为输入,后者使用自适应种子而不是固定长度种子进行速度优化。 不过NanoSV只报告断点,导致SV类型的解释变得较为困难。 Sniffles 是一个例外,它的输入数据可以是PacBio也可以是Nanopore。通过NGMLR比对器与参考基因组比对,然后根据候选SV的大小、位置、类型、覆盖率和断点一致性来评估候选SV,从而克服了长读排序中的高插入/删除错误率。Sniffles能够报告样本中的极低频SV并允许检测更复杂的SV,例如两侧有缺失的倒位或反向串联重复。此外,它构建了一个统计框架来降低假阳性率。
Sniffles检测流程 总体而言,基于long reads的SV工具通常显示出比基于short reads更好的性能(图2)。 实际上,即使考虑到较高的排序错误率,更长的连续读取也可以更精确地进行比对。 此外,更长的长度能够捕获大多数杂合的SV,而短读则需要将多条信息放在一起才能推断出单个SV。 然而,与de novo组装相比,较大的(5+kbp)插入仍然存在一些性能缺陷。 原因与短读一样,大插入长度比单个测序片段还要长。 局部组装可以提升这方面的性能,但是对于一些特别大的片段插入或者一些较为复杂的SV稍显无力。
基于从头组装的比对软件有很多种,根据原理可以大致分为两类: 一种是构造一个德布鲁因组装图(de Bruijn graph) 。 构造组装图的方法通常速度较慢,但是可以提供更多的细节,因为它们直接利用读取的信息。 代表的软件是cortex和SGVar,由于SGV对于输入数据质量有着较为严格的控制,已经被证明在插入和删除识别方面优于cortex(二者都是基于二代测序的数据)。
用彩色de Bruijn图表示几种变异的示意图(线宽表示coverage) 第二种方法是直接操作已经组装好的序列 ,使用Mummer、BlasR、Minimap2等比对工具将其与参考基因组进行比对。
理论上来讲,de novo assembly 的方法应该要算是基因组结构性变异检测上最有效的方法,它都能够检测所有类型的结构性变异。 然而,杂合子SV常常因为标准从头组装仅代表一个单倍型而被遗漏。 一些工具,如trio sga,Falcon Unzip或Trio Canu可以解决这个问题,但通常需要额外的覆盖范围和家族信息。 它们可以提供基因组的二倍体信息,从而检测杂合子SV。 实际上,De novo方法目前最大的技术困难来自组装本身,毕竟得到一个高质量的组装基因组还是颇为棘手的。 RNA seq 检测基因融合 一般来说,RNA-Seq方法的目的是识别基因融合。 基因融合(gene fusion)是指由于某种机制(如基因组变异)使得两个不同基因的部分序列或全部序列融合到一起,形成了一个新的基因。 利用RNA-Seq,我们可以检测所观察到的变异是否表达,并与其他基因的表达量进行比较。
这些方法的工作原理是将RNA测序所得的pair-end reads定位到参考基因组和/或转录组。 随后,在不同基因之间的reads pair和split read被识别、汇总、过滤和输出。
对于基因融合检测方法,主要的不同点在于他们如何严格地使用现有的基因注释。 FusionCatcher 是一款严格按照Ensemble基因组注释的基因融合鉴定软件。 首先需要对RNA数据进行预处理和过滤,删除与已知rRNA/tRNA/线粒体RNA/细菌或病毒基因组比对上以及一些质量分数比较低的reads,之后用bowtie比对,利用有关外显子/内含子位置或者基因起始和终止位置的信息这两种不同策略来识别和基因融合。
另一方面,不严格依赖对基因组注释的软件可以有更高的敏感性,例如STAR-fusion。 事实上,注释通常是不完整的,即使对于一些特征非常明显的物种,比如人类,更不用说对于非模式物种。 尤其是在处理癌症样本时,对注释的松散依赖更为重要,因为这些样本可能包含复杂的非标准基因融合模式。 SQUID 将参考基因组分成片段重排,是的尽可能多的reads能够正确比对到重排后的参考基因组。 之后构造片段图,该图作为基因融合的候选区域和相邻片段(节点)连接的参考。 这些片段相邻的可信度由支持的reads数量决定。 然后使用线性规划遍历图形并报告基因融合。 之前提到的软件使用的是短读长的RNA-seq,而有的工具则同时支持短读和长读的RNA数据,例如IDP-fusion和Jaffa。 对于IDP-fusion,long reads和short reads缺一不可,而Jaffa是可选的。 长读主要用于识别候选的基因融合,而短读在以后用来提高断点的准确度和精确度。 总的来说,基于RNA-Seq的SV检测具有判断变异基因是否表达的优势。 虽然这不能保证这种变异对表型有影响(蛋白质可能无法翻译或稳定)。 但是,导致基因融合的潜在SV类型是不确定的,这可能会使结果的解释和验证复杂化。
其次,覆盖水平随着基因的表达而变化,低表达基因及其变异很可能被忽略。 第三,影响启动子区、内含子或非转录区的SVs不容易检测到。 第四是检测软件通常会有较高的假阳性率。 最后 这篇综述主要关注利用短读和长读的SV调用方法,此外还有一些其他技术改进了发现SV的能力。 由10x genomics产生的linked reads可以让pair read的长度达到150kb以上,目前已经开发了多种方法来从linked reads中检测SV。 这些方法通常具有特定的目标SV大小分辨率,因为识别每个pair-end reads的barcode不是唯一的,并且单个pair-end read之间的距离是未知的。 该技术的主要检测软件包括LongRanger(删除为50+bp,重排为30+kbp)、GROC-SVs(最小为10 kbp)和NAIBR(1+kbp),前者基于局部组装,后者融合了多个概率模型。 另一种依靠短读排序的技术是Hi-C,它用于识别在染色体3D空间中非常接近的区域,并且提供了比标准短读取更长的范围信息(详见研究长文 | 癌症基因组结构变异的综合检测与分析)。 基于Hi-C数据,提出了几种直接检测SVs的方法。 其中一些,如Hic_breakfinder(1+Mbp),可以潜在地识别所有类型的SVs,而另一些,如HiCnv(>1Mbp)和HiCtrans,仅分别旨在检测拷贝数变异(CNVs)和易位。 更多阅读