天天看點

建構一個近乎完整的植物基因組

目錄

  • ​​前言​​
  • ​​1. 單分子長度長測序​​
  • ​​2. 長度長基因組組裝的錯誤傾向​​
  • ​​3. 實體圖譜技術​​
  • ​​4. 解決複雜植物基因組​​
  • ​​5. 利用組裝圖​​
  • ​​挑戰和展望​​

前言

植物基因組大小跨越幾個數量級,倍性和雜合性變化,以及新舊基因組轉座子變化等帶來組裝挑戰。三代和實體圖譜提供了新機會,單倍型定相、結構變異分析、從頭泛基因組研究成為新興組裝熱點。

植物基因組發展:

  • 拟南芥:sanger BAC-by-BAC。
  • shotgun OLC (CELERA assembler):木瓜、大豆、楊樹等早期測序植物。
  • 454/Illumina DBG 短序列高深度帶來植物基因組組裝大爆發,但品質較低。
  • 單分子PacBio長度長帶來接近完整染色體組裝。
  • 輔助技術發展:Hi-C/BioNano(無需昂貴的BAC實體圖譜)
  • ONT納米孔能達上Mb,組裝拟南芥、番茄、高粱、香蕉、甘藍等更連續和完整的版本。

在過去20年種,有400多個植物基因組已發表,包括333個被子植物,15個非被子植物、2個輪藻和44個綠藻。

可查閱:

​​​https://www.plabipd.de/portal/web/guest/sequenced-plant-genomes​​

1. 單分子長度長測序

PacBio通過CCS産生HiFi 15 kb reads的方法準确率高達99.8%,解決了錯誤率問題,但每條read成本高了近5倍。

基因組測序的發展,在基因組完整度上已經有了很大提升。

建構一個近乎完整的植物基因組

2. 長度長基因組組裝的錯誤傾向

新算法的設計目的:correct, overlap, and polish long reads with high error-rates。

算法随計算設計、速度、記憶體使用、複雜基因組利用而變化。

  • 自糾方法self-correction:CANU、Falcon(phase/unzip)、MARVEL、MECAT。利用reads互相比對,需要較高覆寫度。
  • correction-free:基于OLC的minimap2/miniasm、基于DBG的wtdbg2和Flye。要求更高複雜度的基因組。

組裝的草圖有誤差,必須用高覆寫度的長讀長或短讀長polish,一般大于三次可達到>99.6%的準确性。

  • long reads:Quiver/Arrow (PacBio)、Medaka (ONT)、Nanopolish、Racon。
  • short reads:Pilon

PacBio CCS HiFi軟體:Peregrine

3. 實體圖譜技術

  • a.Hi-C
  • b.Optical maps
  • 建構一個近乎完整的植物基因組

4. 解決複雜植物基因組

如下圖,兩條染色體組裝時定相,雜合基因組phasing有如下方法:

  • 右上:嵌合假分子,簡化下遊分析。
  • 右中:原始reads比對到contigs,解決缺失的單倍型區域,建立一個定相的二倍體組裝。
  • 右下:保留部分單倍型,并在基于圖的組裝中加以标記。
  • 建構一個近乎完整的植物基因組

5. 利用組裝圖

組裝經典名額是N50,或者最短序列長度大于組裝的50%,方法過于簡單。

利用組裝圖可以可視化複雜度和鄰接contig的overlap。

  • 純合簡單基因組(左上圖):理想的graph對于每個contig(節點)隻有一條邊和鄰接序列相連。
  • 氣泡圖(左下圖):高雜合性,節點(單倍型)被多條邊連接配接。
  • 複雜重複(右上圖):在圖結構中較模糊,如rRNA,centromeric satellite DNA。
  • 毛團(hairballs,右下圖):多拷貝重複,無清晰路徑,節點互交。
  • 建構一個近乎完整的植物基因組

當參考基因組被泛基因組取代時,基因組圖論将是代表複雜基因組更好的方法。

挑戰和展望

挑戰:

  • 多倍體和雜合度

展望:

  • 基因組完整、少gap、定相。
  • denovo替代重測序,挖掘更多多樣性,用于群體遺傳和泛基因組分析。
  • 基因組注釋将落後于組裝,提高注釋品質需要新技術(如全長cDNA,PacBio Iso-seq等)以及新算法。
參考文獻:​​Todd PMichael. Building near-complete plant genomes. Curr Opin Plant Biol. 2020 Apr;54:26-33.​​

作者:Bioinfarmer,請關注同名微信公衆号:Bioinfarmer。