
結構變異成為越來越多研究關注的熱點,如何檢測基因組範圍内的結構變異? 目前主要檢測方法分為以下幾種: ·基于二代短讀測序的結構變異檢測 ·基于三代長讀測序的結構變異檢測 ·基因組從頭組裝結構變異檢測 ·基于RNA資料(轉錄組資料)的結構變異檢測 ·基于10x genemics、HiC等新技術的結構變異檢測 在不考慮組裝的情況下,基于二代測序資料的檢測方法主要是RP(read pair),RD(read depth),SR(split read)三種,檢測原理這篇文章已經說的很詳細(《 一篇文章說清楚基因組結構性變異檢測的方法》 作者: 黃樹嘉https://zhuanlan.zhihu.com/p/40290546 ),這裡簡單介紹幾個代表軟體。 ·BreakDancer : 基于RP方法,根據pair reads在參考基因組上的的映射距離和方向,将每個讀取對象分類為normal或SV,然後識别出符合SV類别的讀取次數較多的區域,并配置設定一個置信度得分,然後輸出到結果檔案中。 它的缺點是可能導緻遺漏一些較小的缺失,隻要其長度在RP片段的正常可變範圍内。 ·DELLY : 基于RP和SR方法提高了斷點預測的準确性,并允許檢測較小的删除(20+bp); ·LUMPY : 将覆寫資訊(覆寫度、深度等)內建為一種輸入信号,同時使用RP,SR,RD進行聯合分析。 上述軟體專門用于檢測某些特定類型的變異,但沒有一種能夠可靠地識别所有SV類型和大小範圍。 以MetaSV,Parliament2,SURVIVOR為代表的meta- methods 通過組合來自不同工具的調用并選擇由多個方法辨別的變體來填補這一空白。 理想情況下,meta-methods可以結合多種方法的優點,同時克服它們各自的缺點; 但實際上這些軟體的假陽性率很高,無法可靠地識别大的插入,同時有相當多的複雜變異被忽略。
三代測序的long reads 對SV檢測是有優勢的,因為可以跨越重複區域或其他有問題的區域。 是以,這些較長的讀取(5+kbp)與單獨的短讀取相比,有可能改進映射并更好地捕獲較大的SV。 但與二代資料相比,獲得相同覆寫率的成本更高。 其次,三代大部分平台有較高的測序錯誤率(8–20%)。 BLASR、Minimap2 和NGMLR等是最近發展起來的用于長讀序比對的工具,但一般都是基于單獨的測序方法—PacBio或者Oxford Nanopore。 對于PacBio測序資料,主要有三種專門的軟體。 PBHoney 原理是基于所得到的覆寫率和split reads資訊。 PBSV 是PacBio開發的一種在20+bp範圍内檢測SVs的方法,所有支援某種假定SV的Reads,需要重新與參考基因組比對進行驗證。 SMRT-SV 包括從頭組裝和一個專門的基因分型子產品。 reads首先與參考基因組比對,然後将整個基因組劃分為多個視窗,每個視窗内部執行序列的局部組裝。 組裝結果再重新與參考基因組比對,并辨別結構變體(插入、删除和反轉)。 對于Oxford Nanopore長讀序,NanoSV是第一個開發應用的軟體。 NanoSV優先使用來自LAST的比對結果作為輸入,後者使用自适應種子而不是固定長度種子進行速度優化。 不過NanoSV隻報告斷點,導緻SV類型的解釋變得較為困難。 Sniffles 是一個例外,它的輸入資料可以是PacBio也可以是Nanopore。通過NGMLR比對器與參考基因組比對,然後根據候選SV的大小、位置、類型、覆寫率和斷點一緻性來評估候選SV,進而克服了長讀排序中的高插入/删除錯誤率。Sniffles能夠報告樣本中的極低頻SV并允許檢測更複雜的SV,例如兩側有缺失的倒位或反向串聯重複。此外,它建構了一個統計架構來降低假陽性率。
Sniffles檢測流程 總體而言,基于long reads的SV工具通常顯示出比基于short reads更好的性能(圖2)。 實際上,即使考慮到較高的排序錯誤率,更長的連續讀取也可以更精确地進行比對。 此外,更長的長度能夠捕獲大多數雜合的SV,而短讀則需要将多條資訊放在一起才能推斷出單個SV。 然而,與de novo組裝相比,較大的(5+kbp)插入仍然存在一些性能缺陷。 原因與短讀一樣,大插入長度比單個測序片段還要長。 局部組裝可以提升這方面的性能,但是對于一些特别大的片段插入或者一些較為複雜的SV稍顯無力。
基于從頭組裝的比對軟體有很多種,根據原理可以大緻分為兩類: 一種是構造一個德布魯因組裝圖(de Bruijn graph) 。 構造組裝圖的方法通常速度較慢,但是可以提供更多的細節,因為它們直接利用讀取的資訊。 代表的軟體是cortex和SGVar,由于SGV對于輸入資料品質有着較為嚴格的控制,已經被證明在插入和删除識别方面優于cortex(二者都是基于二代測序的資料)。
用彩色de Bruijn圖表示幾種變異的示意圖(線寬表示coverage) 第二種方法是直接操作已經組裝好的序列 ,使用Mummer、BlasR、Minimap2等比對工具将其與參考基因組進行比對。
理論上來講,de novo assembly 的方法應該要算是基因組結構性變異檢測上最有效的方法,它都能夠檢測所有類型的結構性變異。 然而,雜合子SV常常因為标準從頭組裝僅代表一個單倍型而被遺漏。 一些工具,如trio sga,Falcon Unzip或Trio Canu可以解決這個問題,但通常需要額外的覆寫範圍和家族資訊。 它們可以提供基因組的二倍體資訊,進而檢測雜合子SV。 實際上,De novo方法目前最大的技術困難來自組裝本身,畢竟得到一個高品質的組裝基因組還是頗為棘手的。 RNA seq 檢測基因融合 一般來說,RNA-Seq方法的目的是識别基因融合。 基因融合(gene fusion)是指由于某種機制(如基因組變異)使得兩個不同基因的部分序列或全部序列融合到一起,形成了一個新的基因。 利用RNA-Seq,我們可以檢測所觀察到的變異是否表達,并與其他基因的表達量進行比較。
這些方法的工作原理是将RNA測序所得的pair-end reads定位到參考基因組和/或轉錄組。 随後,在不同基因之間的reads pair和split read被識别、彙總、過濾和輸出。
對于基因融合檢測方法,主要的不同點在于他們如何嚴格地使用現有的基因注釋。 FusionCatcher 是一款嚴格按照Ensemble基因組注釋的基因融合鑒定軟體。 首先需要對RNA資料進行預處理和過濾,删除與已知rRNA/tRNA/線粒體RNA/細菌或病毒基因組比對上以及一些品質分數比較低的reads,之後用bowtie比對,利用有關外顯子/内含子位置或者基因起始和終止位置的資訊這兩種不同政策來識别和基因融合。
另一方面,不嚴格依賴對基因組注釋的軟體可以有更高的敏感性,例如STAR-fusion。 事實上,注釋通常是不完整的,即使對于一些特征非常明顯的物種,比如人類,更不用說對于非模式物種。 尤其是在處理癌症樣本時,對注釋的松散依賴更為重要,因為這些樣本可能包含複雜的非标準基因融合模式。 SQUID 将參考基因組分成片段重排,是的盡可能多的reads能夠正确比對到重排後的參考基因組。 之後構造片段圖,該圖作為基因融合的候選區域和相鄰片段(節點)連接配接的參考。 這些片段相鄰的可信度由支援的reads數量決定。 然後使用線性規劃周遊圖形并報告基因融合。 之前提到的軟體使用的是短讀長的RNA-seq,而有的工具則同時支援短讀和長讀的RNA資料,例如IDP-fusion和Jaffa。 對于IDP-fusion,long reads和short reads缺一不可,而Jaffa是可選的。 長讀主要用于識别候選的基因融合,而短讀在以後用來提高斷點的準确度和精确度。 總的來說,基于RNA-Seq的SV檢測具有判斷變異基因是否表達的優勢。 雖然這不能保證這種變異對表型有影響(蛋白質可能無法翻譯或穩定)。 但是,導緻基因融合的潛在SV類型是不确定的,這可能會使結果的解釋和驗證複雜化。
其次,覆寫水準随着基因的表達而變化,低表達基因及其變異很可能被忽略。 第三,影響啟動子區、内含子或非轉錄區的SVs不容易檢測到。 第四是檢測軟體通常會有較高的假陽性率。 最後 這篇綜述主要關注利用短讀和長讀的SV調用方法,此外還有一些其他技術改進了發現SV的能力。 由10x genomics産生的linked reads可以讓pair read的長度達到150kb以上,目前已經開發了多種方法來從linked reads中檢測SV。 這些方法通常具有特定的目标SV大小分辨率,因為識别每個pair-end reads的barcode不是唯一的,并且單個pair-end read之間的距離是未知的。 該技術的主要檢測軟體包括LongRanger(删除為50+bp,重排為30+kbp)、GROC-SVs(最小為10 kbp)和NAIBR(1+kbp),前者基于局部組裝,後者融合了多個機率模型。 另一種依靠短讀排序的技術是Hi-C,它用于識别在染色體3D空間中非常接近的區域,并且提供了比标準短讀取更長的範圍資訊(詳見研究長文 | 癌症基因組結構變異的綜合檢測與分析)。 基于Hi-C資料,提出了幾種直接檢測SVs的方法。 其中一些,如Hic_breakfinder(1+Mbp),可以潛在地識别所有類型的SVs,而另一些,如HiCnv(>1Mbp)和HiCtrans,僅分别旨在檢測拷貝數變異(CNVs)和易位。 更多閱讀