天天看點

高通量測序是什麼技術,一二三代的差別,測序注意事項

作者:谷禾健康

DNA 測序是測量各種生命形式主要特性的基礎。自20世紀50年代發現DNA雙螺旋結構後,全世界科學家們就開始緻力于确定不同物種基因組的原始序列。這一任務被稱為基因組測序,旨在揭示不同生物的基因組組成和基因的排列順序。

現代基因組研究标志之一是生成大量原始序列資料。這項工作的重要性在于,基因組序列的破譯可以提供關于生物的遺傳資訊,包括基因功能、遺傳變異和進化關系等方面重要線索。

在過去的幾十年裡,随着測序技術的不斷發展和突破,測序的速度和精度都得到了顯著提高。早期的測序方法主要依賴于Sanger測序技術,該技術基于DNA鍊延伸的原理,通過測量DNA鍊延伸反應中釋放的熒光标記物來确定DNA序列。然而,由于其低通量和高成本的限制,Sanger測序逐漸被新一代測序技術(NGS)所取代。

随着新一代測序技術的興起,如Illumina的高通量測序和454 Life Sciences的Roche測序平台以及華大基因(BGI)DNBSEQ-T7等測序平台,基因組測序進入了一個全新的時代。這些技術利用并行測序的原理,可以同時測序數百萬個DNA片段,大大提高了測序的速度和效率。同時,這些技術也在成本和準确性方面取得了顯著的突破,使得大規模基因組測序成為可能。

随着測序技術的不斷進步,越來越多的原核和真核基因組序列被測序出來,并存儲在公共資料庫中,目前四個主要的資料庫是:

  • 美國國家生物技術資訊中心 (NCBI) 的 GenBank
  • 大陸自己的資料庫CNCB(China National Center for Bioinformation,國家生物資訊中心)
  • 日本 DNA 資料庫 (DDBJ)
  • 歐洲分子生物學實驗室 (EMBL)

它們目前擁有豐度的實驗以及樣本核苷酸序列原始資料,此外還有蛋白質序列或大分子結構資料。這些資料庫為科學家們提供了寶貴的資源,可以用于研究和比較不同物種的基因組,進而增進對生物多樣性、進化和基因功能的了解。

除了基因組序列的分析,還需要開發各種生物資訊學工具和資料庫,以幫助解釋和注釋基因組資料。這些工具可以用于預測基因的功能、識别調控元件、比較不同物種之間的基因組差異等。

随着計算機技術的不斷進步,測序資料也逐漸借助人工智能和機器學習等技術。這些技術可以輔助人們更快速、準确地分析和解釋基因組資料,發現隐藏在資料中的模式和關聯。機器學習算法可以用于預測基因的功能、識别基因組中的重要調控區域或精确區分相近物種等。

例如谷禾腸道菌群16S資料庫,是谷禾健康從幾十萬人腸道菌群檢測資料中提取的16S序列庫,通過宏基因組比對資料和模型建構,重新完成到種的物種注釋。進一步通過基因組資料研究和分析,為您提供深度個性化的健康檢測方案。

目前測序技術已經在許多應用領域産生了廣泛的影響。例如,基因組測序為研究人類遺傳疾病的發病機制提供了重要線索,短讀長、高測量通量和低成本為個體化醫學和精準治療奠定了基礎。此外,測序還廣泛應用于農業、環境科學和生物工程等領域,為改良作物、保護環境和生産高效生物工藝提供了有力支援。

是以本文和大家分享DNA測序相關的知識以及測序技術的發展和測序的注意事項等。

高通量測序是什麼技術,一二三代的差別,測序注意事項

01

DNA基礎知識

DNA(脫氧核糖核酸)是遺傳物質,存在于所有生物的細胞中,以雙螺旋結構存在,由核苷酸組成,包括磷酸基團、脫氧核糖和四種氮含基(腺嘌呤A、胸腺嘧啶T、胞嘧啶C和鳥嘌呤G)。DNA負責存儲遺傳資訊,指導蛋白質合成,并在細胞分裂時複制自身,確定遺傳資訊傳遞給子代。

不同物種的DNA在結構上非常相似,但在序列群組織上存在差異

人類DNA包含約30億個堿基對,組成大約2萬到2萬5千個基因,這些基因分布在23對染色體上。人類DNA中的遺傳資訊決定了我們的外貌、生理功能和健康狀況。人類的遺傳多樣性雖然存在,但所有人類的DNA序列大緻相似,約有99.9%的相似度。個體基因組有 3-400 萬個堿基對位置存在差異。這些變異可在單核苷酸多态性(SNP)中捕獲 ,但也存在一些稱為結構變異(SV) 的較大變異。

高通量測序是什麼技術,一二三代的差別,測序注意事項

大多數病毒基因組有 10000 個 bp;某些植物的基因組長達數千億個堿基對。細菌,通常具有較小的基因組,可以從幾百萬到幾千萬堿基對不等。細菌的DNA通常是單個環狀染色體,而不是多條線性染色體。此外,許多細菌還含有質粒,這些是小型的DNA分子,可以在細菌之間進行轉移,促進基因的水準傳播,這是細菌适應環境和抗藥性發展的重要機制。

總之,不同物種的DNA在功能上都是遺傳資訊的載體,但是在大小、形态和序列上存在差異,這些差異導緻了物種之間的多樣性。

不同物種個體基因組差異的産生有兩個原因:

➼ 随機突變,在進化過程中發生,因為自然選擇有利于某些表型。這些主要是由于細胞分裂期間 DNA 複制過程中的“錯誤”造成的。大多數突變都是有害的,會導緻有害的表型變化并導緻細胞死亡。有時,自然選擇有利于某些突變,而這些突變會保留在種群中。

➼ 重組,發生在哺乳動物等高等生物的繁殖過程中。在重組過程中,親本生物體傳遞給子代的遺傳物質是來自親本生物體的遺傳物質的混合物。

DNA雙鍊堿基互補

DNA 是雙鍊的,并以雙螺旋形式建構,其中核苷酸對作為螺旋的“橫檔”(是以稱為“堿基對”)。腺嘌呤總是與胸腺嘧啶發生化學結合,而胞嘧啶總是與鳥嘌呤發生化學結合。換句話說,A 與 T互補,類似地 C 與 G 互補。AT 和 CG 對稱為互補對。

DNA的結構如下所示:

DNA雙螺旋

高通量測序是什麼技術,一二三代的差別,測序注意事項

圖源:medlineplus

DNA序列通常以5'端(頭部)到3'端(尾部)的方向展示或寫入。當我們有一條 DNA 鍊時,由于知道互補對,是以可以推斷出另一條鍊是第一條鍊的反向互補鍊。

為了獲得反向互補,可以反轉原始字元串中核苷酸的順序,然後互補核苷酸(即,将 A 與 T 互換,将 C 與 G 互換)。

下圖顯示了 DNA 片段及其反向互補鍊的示例。

DNA 補體

高通量測序是什麼技術,一二三代的差別,測序注意事項

DNA複制

DNA 是細胞複制的基礎。當細胞進行細胞分裂(也稱為有絲分裂)時,細胞核中的 DNA 會被複制,并通過下圖所示的一系列步驟,一個親代細胞産生兩個相同的子細胞。

有絲分裂的圖

高通量測序是什麼技術,一二三代的差別,測序注意事項

圖源:wikipedia

有絲分裂過程中涉及多種生物分子,我們在這裡對有絲分裂過程進行了高度簡化的解釋。

在圖中,我們從兩條染色體開始:紅色和藍色。

首先,DNA 被複制,産生更熟悉的 X 形染色體。通過生物分子信号的複雜級聯和細胞内重組,(現已複制的)染色體在細胞中部排列。對于每條染色體,兩半被拉開,兩個子細胞中的每一個都會收到原始染色體的副本。這會産生兩個與原始親本細胞在遺傳上相同的子細胞。

DNA 複制是這張圖中最重要的部分;這是用來進行測序的基礎過程。DNA複制如下圖所示:

高通量測序是什麼技術,一二三代的差別,測序注意事項

在 DNA 複制過程中,兩條 DNA 鍊首先被解壓縮,産生兩條單鍊,每條鍊都充當複制的模闆。然後将短 RNA 引物附着到 DNA 上的特定位點;引物中的堿基與位點中的堿基互補。酶促進(或“催化”)化學反應,而DNA 聚合酶是催化新核苷酸與延伸結合引物的模闆 DNA 互補配對的酶。

DNA 聚合酶用來延伸鍊的核苷酸稱為dNTP(脫氧核苷酸三磷酸)。從生物化學角度來看,它們與核苷酸略有不同,因為它們在 DNA 複制過程中更容易使用。對應于A、C、G和T的dNTP分别是dATP、dCTP、dGTP和dTTP。

擷取DNA序列主要依賴于測序技術。常用的測序技術有桑格測序法和下一代測序法。下一章節會詳細介紹。

高通量測序是什麼技術,一二三代的差別,測序注意事項

圖源:praxilabs

桑格測序法準确度高但通量低。下一代測序法代表了高通量測序技術,它實作了并行化操作,大大提高了序列通量,降低了測序成本和時間,是以适合進行整個基因組或transcript組的測序。這些技術使大規模、高精度的DNA測序分析成為可能。

02

DNA測序

DNA 測序方法的發展在 2000 年左右達到頂峰,主要基于四位研究人員的貢獻。

1

Allan Maxam 和 Walter Gilbert 在 70 年代開發了一種 DNA 測序的化學方法,其中末端用放射性磷标記的 DNA 片段經過堿基特異性化學切割,并通過凝膠電泳分離反應産物。

2

1977 年,Frederick Sanger采用另一種方法,通過使用鍊終止雙脫氧核苷酸類似物完善了測序方法,該類似物導緻引物DNA合成的堿基特異性終止。在這種方法中,引物通常用放射性磷标記。

3

Leroy Hood 與他的同僚 Michael Hunkapiller 和 Lloyd Smith 在1986年通過使用熒光标記的雙脫氧核苷酸将 Sanger 方法修改為更高的通量配置。這種方法可避免使用壽命有限的放射性化合物,而是使用穩定的熒光探針。此外,所有核酸堿基的分析可通過僅讀取一個而不是四個電泳泳道來完成,并且讀取過程可以自動化。

這種高通量配置用于第一個人類基因組的測序,該測序于 2003 年通過人類基因組計劃完成,該計劃曆時 13 年。

高通量測序是什麼技術,一二三代的差別,測序注意事項

由于方法的改進和自動化,2008 年,另一個人類基因組在 5 個月的時間内完成了測序。第一份人類基因組草圖的完成隻是現代 DNA 測序時代的開始,它帶來了更多的發明和新的、先進的高通量 DNA 測序政策,即所謂的下一代測序 (NGS)。

NGS 政策的發展正在滿足我們對測序通量和成本的需求,進而在基因組研究中實作多種目前和未來的應用。這些先進方法需要開發新的生物資訊學工具,作為分析過程中産生的大量資料的必要先決條件。

第一代測序——桑格測序

Fred Sanger 及其同僚開發了一種基于放射性标記部分消化片段檢測的相關技術。

著名的桑格測序起源于 20 世紀 70 年代末,當時桑格開發了一種基于凝膠的方法,将 DNA 聚合酶與标準核苷酸和鍊終止核苷酸 (ddNTP) 的混合物結合起來。将 dNTPS 與 ddNTP 混合會導緻 PCR 期間測序反應随機提前終止。四個反應并行進行,每個反應包含一種版本的鍊終止核苷酸。使用凝膠電泳可視化該過程使得能夠逐個堿基讀取序列。在當時,這項技術是革命性的。它能夠對 500-1,000bp 片段進行測序。

高通量測序是什麼技術,一二三代的差別,測序注意事項

圖源:praxilabs

桑格方法的一種變體——加減法,由桑格和艾倫·科爾森開發,于1977年獲得了第一個DNA基因組序列,即噬菌體φX174。

高通量測序是什麼技術,一二三代的差別,測序注意事項

圖源:pixels

兩年後,艾倫·麥克薩姆和沃爾特·吉爾伯特發表了他們的化學裂解技術,該技術成為第一個廣泛采用的 DNA 測序方法。

高通量測序是什麼技術,一二三代的差別,測序注意事項

到了 20 世紀 80 年代,桑格最初的方法已經自動化(毛細管電泳)。大塊凝膠被更細的丙烯酸毛細管取代,結果可以在電泳圖上檢視。這項技術對于 2003 年人類基因組計劃的完成至關重要。盡管如此,即使在人類基因組計劃之後,毛細管電泳的成本仍然過高,無法實作大規模測序項目。

到 2000 年代中期,人們做出了一些努力來降低測序成本。世界各地的實驗室正在測試用于更高通量篩選的新方法和技術。

第二代測序技術

第二代測序,也稱為下一代測序(NGS)。簡單來說,二代測序是依靠PCR文庫建構和雷射探針熒光信号讀取的短讀長測序。

目前最常見的平台有Illumina和華大基因(BGI)。

Illumina測序平台

由 illumina 等公司開發的第二代 NGS 技術可分為兩大類:雜交測序或合成測序。

  • 雜交測序是一種将重疊寡核苷酸序列集合組裝在一起以确定 DNA 序列的方法。
  • 合成測序技術使用聚合酶或連接配接酶将核苷酸與熒光标簽結合,然後對其進行鑒定以确定 DNA 序列。

華大測序平台

華大基因測序化學方法被稱為組合探針錨定合成(cPAS)。它采用Phi 29 DNA聚合酶進行滾動圓環複制,合成一條長的單鍊DNA,自組裝成約300納米大小的納米球。然後進行鑒定以确定 DNA 序列。

随着大規模雙脫氧測序技術的進步,一項新技術的出現奠定了下一代測序(NGS)技術的基礎。這項名為焦磷酸測序的方法,利用DNA合成過程中焦磷酸鹽産生的光信号來确定核苷酸序列。在這個過程中,模闆DNA被固定在一個固相表面上,随着每個核苷酸的加入,通過檢測焦磷酸釋放的光信号來推斷DNA的序列。此技術後續還引入了珠子,以便更有效地附着DNA分子。

焦磷酸測序技術被454 Life Sciences公司所開發,并最終被羅氏公司收購,成為市場上第一個取得重大成功的商業化NGS平台。

乳液PCR

在這一平台中,DNA文庫通過油包水乳液PCR技術附着在微小珠子上。在測序過程中,當較小的珠聯酶和dNTPs被引入到反應闆上時,便可進行焦磷酸測序。這種高度并行化的方法顯著提高了測序的吞吐量,實作了數量級的提升。

橋式放大

繼454測序技術取得成功之後,許多新的并行測序技術相繼出現。其中最顯著的是Solexa測序技術,該技術後來被illumina公司收購。

  • 在illumina測序方法中,待測的DNA分子首先通過接頭與固定在流動池表面的互補寡核苷酸相結合。
  • 接下來,一個稱為橋式PCR擴增的過程允許在流動池表面形成高密度的DNA片段簇。
  • 在随後的合成測序過程中,每次添加一個标記有熒光的dNTP(去氧核苷酸三磷酸),通過檢測熒光信号來确定其加入的順序。
  • 随着時間的推移,可以并行讀取成千上萬個這樣的簇。

Illumina測序平台是以成為了第一個實作商業化的高通量并行測序技術。

高通量測序是什麼技術,一二三代的差別,測序注意事項

其他

随着時間的推移,新技術不斷湧現,其中包括:

  • Ion Torrent,這種技術通過測量DNA聚合過程中的pH值變化來進行測序;
  • SOLiD技術,它采用的是連接配接測序的方法,這種方法不依賴于聚合酶催化的合成過程。
高通量測序是什麼技術,一二三代的差別,測序注意事項

圖源:slideserve

這些創新技術已經成為下一代測序(NGS)技術領域的一部分。NGS平台目前是主流的測序技術,它們可以以相對較低的成本進行高通量的測序工作。然而,這些平台的讀長通常有限,一般産生的讀長在50到500堿基對(bp)之間。

本文我們主要介紹Illumina和華大這兩個平台的測序原理。其他的簡單說明一下。

Illumina測序平台介紹

Illumina 的首個測序平台是通過收購Solexa公司獲得的,被命名為基因組分析儀,并于2007年開始商業化運作。這台裝置能夠在每個測序通道中對600萬個擴增的DNA片段進行測序,最初每個片段的讀取長度大約是30個堿基。Illumina 不久後提升了這一讀取長度,增至100多個堿基對。同時,流動池中擴增片段的數量也得到了提升,使得基因組分析儀的輸出能力達到了80吉位元組的堿基資訊。

注:吉位元組(GigaByte),又稱千兆位元組,是計算機存儲容量機關,簡稱GB。

2010年,Illumina 推出了其第二代NGS裝置——HiSeq。這款裝置配備了兩個流動池:

  • 一個用于執行堿基添加的化學反應
  • 一個用于掃描識别每次擴增中加入的堿基

緊接着,Illumina 又釋出了HiSeq X10,該裝置通過使用圖案化的流動池凹坑(代替了傳統的随機擴增簇),進一步提高了可分析片段的數量。

目前,Illumina 提供了多種測序裝置,包括NextSeq 和 NovaSeq 系列,以及适用于不同規模需求的台式測序儀,如iSeq100和 MiniSeq。

高通量測序是什麼技術,一二三代的差別,測序注意事項

NextSeq

NextSeq 500 于 2014 年推出,采用兩種染料測序技術,而不是其前代産品使用的四種染料測序技術。僅拍攝紅色和綠色圖像,進而顯着縮短周期和資料處理時間。該儀器能夠在大約 30 小時的運作時間内讀取4億個堿基對。

NextSeq 1000 和 2000 機器于2020年釋出,旨在通過提供機載資訊學和基于雲的技術來簡化工作流程。P3 流動池擴充了 NextSeq 2000 儀器的範圍,在單次測序運作中提供 11 億次讀取。

NovaSeq6000

NovaSeq 6000于2017年釋出。它能夠運作三種不同的晶片,并且可以生成100 GB的序列輸出,價格僅為375美元——這個價格僅适用于測序,不包括DNA分離、文庫制備、測序分析或資料貯存。

本質上,該機器每次運作能夠對多達 48 個完整人類基因組進行測序,這可能需要長達 44 小時。其他關鍵應用包括單細胞分析、轉錄組測序和宏基因組分析。

高通量測序是什麼技術,一二三代的差別,測序注意事項

HiSeq X 系列

HiSeq X Ten 測序儀是一種高性能的測序系統,它能夠在單次運作中産生高達16 Tb的序列輸出。使用該系統,可以以不到1000美元的價格對人類基因組進行30倍或更高倍數的測序,并且每年可以提供超過18,000個人類基因組的測序資料。每個流動池可以生成多達520億次的讀取,最長運作時間為48小時。

該系統具有超越人類物種的全基因組測序能力,并且還可以用于全外顯子組測序、轉錄組測序、單細胞分析和多組學研究。

華大測序平台(BGI) 介紹

華大基因集團成立于1999年、參與人類基因組計劃的中國公司。華大基因于2012年收購了Complete Genomics,其産品由子公司(華大智造)銷售。

DNBSEQ-T7

DNBSEQ-T7于2019年推出,旨在支援健康項目和臨床研究的一系列大規模測序應用。據報道,與百萬基因組整體解決方案軟體和硬體一起,DNBSEQ-T7 每年可以對多達 800,000 個樣本進行測序。

高通量測序是什麼技術,一二三代的差別,測序注意事項

硬體解決方案包括自動化文庫制備系統,這意味着測序機可以24小時運作,無需人工幹預,每天可以完成60個人類全基因組測序。其商業化預計将把個人全基因組測序的成本降低至 500 美元以下,進而改變測序格局。

華大基因測序化學

BGI的測序化學方法被稱為組合探針錨定合成(cPAS)。它采用Phi 29 DNA聚合酶進行滾動圓環複制,合成一條長的單鍊DNA,自組裝成約300納米大小的納米球。熒光探針被結合在其中,納米球被連接配接到矽片流動池上,選擇性地與帶正電的材料高度有序地結合。然後,熒光發射被成像和測量,以記錄堿基位置。

與所有短讀取測序方法一樣,BGI平台主要缺點是無法獲得長的DNA序列。然而,基于cPAS的測序的一個重要優勢是Phi 29 DNA聚合酶的高準确性,確定了環狀模闆的準确擴增。此外,由于DNA納米球在流動池上保持不動,它們不會産生光學重複,并且不會幹擾相鄰的DNA。

DNBSEQ-G99(G99)

DNBSEQ-G99(以下簡稱“G99”)基因測序儀采用的是基于聚合酶鍊式反應(PCR)原理的測序技術。測序過程中,首先使用特定的引物引導 DNA 序列進行體外擴增,然後添加一種含有測序所需的四種不同顔色的 dNTP(脫氧核苷酸)和熒光标記物。當引物與待測序列結合後,聚合酶開始合成新的鍊,同時熒光标記物被激活并發出不同顔色的熒光。通過記錄這些熒光信号,并使用計算機進行資料分析和解碼,最終确定每個堿基的序列。

高通量測序是什麼技術,一二三代的差別,測序注意事項

G99突破性地實作了12小時可完成PE150測序,從使用者需求出發,在提供高品質的測序資料的同時,做到快速、簡單、靈活,能為測序工作帶來更好的體驗,應用場景大大擴充了。

而且DNBSEQ-G99獲批國家藥品監督管理局(NMPA)醫療器械注冊證(國械注準20233221289)。此次獲批意味着,中小通量測序儀中的“速度王者”DNBSEQ-G99被準許在國内市場應用于臨床,将能夠充分發揮其快速、靈活的優勢,服務于臨床方向的應用需求。

第三代測序技術

第三代測序技術的原理主要基于單分子測序或合成測序方法,通過直接讀取DNA分子的序列來進行測序。

單分子測序:通過将DNA固定在表面上,并使用熒光染料或其它探針進行測序。

單分子實時測序(SMRT):使用PacBio公司的SMRT技術,通過監測DNA聚合酶在DNA模闆上的熒光信号來進行測序。

納米孔測序(Nanopore):使用Oxford Nanopore Technologies(ONT)的納米孔測序技術,通過将DNA分子通過納米孔,測量通過納米孔的電流變化來進行測序。

高通量測序是什麼技術,一二三代的差別,測序注意事項

合成測序:通過在反應體系中逐漸合成DNA序列,并使用熒光标記的核苷酸來标記每個堿基。第三代測序技術通常具有較長的讀取長度,可以讀取數千到數百萬個堿基。

第三代測序技術的不斷發展和改進,為基因組學研究提供了更多的可能性,可以更好地解析複雜的基因組結構和功能。适用于長片段的測序,如全基因組測序、長讀段轉錄組測序、甲基化測序等。然而,第三代測序技術也面臨一些挑戰,如測序錯誤率、資料處理和分析等方面的問題,需要進一步的研究和改進。

市場上的其他三代測序平台:

MinION:MinION裝置是一種便攜式的納米孔測序儀器,可以實作實時測序,并且具有較小的體積和較低的成本。

GridION:GridION裝置是一種高通量的納米孔測序儀器,可以同時進行多個樣品的測序。

PromethION:PromethION裝置是一種高産量的納米孔測序儀器,可以進行大規模的基因組測序。

此外國内目前也有多家公司已推出或正在開發三代測序儀,包括真邁生物,齊碳科技等。

03

DNA測序的前步驟及注意事項

測序将繼續變得越來越高效和經濟實惠,徹底改變與基因組學相關的多個領域。目前,所有高通量測序(NGS )方法都需要文庫制備。該方案發生在 DNA 片段化之後,其中接頭連接配接到每個片段的末端。接下來通常是 DNA 擴增步驟,以産生一個文庫,然後可以通過 NGS 平台進行測序。

高通量測序是什麼技術,一二三代的差別,測序注意事項

1

樣品制備分步指南

樣品制備的本質是将生物樣品中的核酸混合物轉化為不同類型的文庫,以準備進行NGS技術所需的測序步驟。如果未正确遵循方案,測序将會受到影響。每個準備步驟都是基礎性的,并且根據樣本和NGS平台的類型有不同的考慮因素。是以,在開始實驗之前,考慮如何執行最有效的方案以確定最高品質的結果非常重要。

樣品制備的一般步驟如下:

步驟1:提取遺傳物質

這是每個樣品制備方案的第一步。從各種生物樣品中提取核酸(DNA 或 RNA)。

步驟2:文庫準備

生成文庫需要一系列步驟,最終目标是将提取的核酸轉換成适合所選測序技術的格式。這是通過将目标序列片段化至所需長度,然後将特定的接頭序列連接配接到這些目标片段的末端來完成的。

擴充卡還可以包括條形碼,識别特定樣品并允許多重分析。片段化可以通過實體或酶促方法完成。

步驟3:放大

這是一個可選步驟,但通常也是必需的。這取決于 NGS 的應用和樣本量。擴增對于獲得足夠的覆寫範圍以對含有少量起始材料的樣品進行可靠測序至關重要。聚合酶鍊式反應(PCR) 是增加 DNA 量的常用方法。有關可實作小樣本核酸檢測的 PCR 方法出現的更多資訊。

步驟4:純化和品質控制

此步驟是必要的,以去除可能阻礙測序的任何不需要的材料。一些NGS平台可能對尺寸要求較窄,是以丢棄太大或太小的片段可以提高測序效率。最佳文庫大小由測序應用決定。這種“清理”通常通過基于磁珠的清理或瓊脂糖凝膠來完成。

品質控制是進行測序之前的最後一個過程。确認 DNA 的品質和數量可以提高測序資料的可信度。後續的實驗既耗時又昂貴,是以需要嚴格的品質控制步驟以確定所有樣品都适合其應用。

2

樣品制備中的常見挑戰

挑戰 1

許多樣本是從有限數量的樣本或甚至單個細胞中提取的。它們本身并不能提供足夠的遺傳物質,是以需要進行 PCR。然而,該擴增步驟很容易給樣品引入偏差。PCR 重複是指存在完全相同的 DNA 片段的多個拷貝。太多的 PCR 重複會導緻實驗的測序覆寫率不均勻。

解決方案 1:消除所有偏差來源有些不可能,但了解偏差發生的位置并采取所有實際步驟将其最小化非常重要。高 PCR 重複率表明文庫制備需要進行一些修改,可能需要提高 NGS 文庫的複雜性。

許多程式都可以删除 PCR 重複項,最常用的是 Picard MarkDuplicates 和 SAMTools。此外,特定的PCR 酶已被證明可以最大限度地減少擴增偏差。最終,文庫制備的目标是最大限度地提高樣品的複雜性,并最大限度地減少擴增造成的偏差。

挑戰 2

建庫效率低下是樣品制備過程中面臨的問題。具有正确擴充卡的片段比例較低反映了這一點。其後果是獲得的測序資料量減少,嵌合片段數量增加。嵌合讀數源自基因組中彼此不相鄰的部分,并且是測序期間錯誤的來源。

解決方案 2:據報道,PCR 産物的有效A 加尾可防止嵌合體形成,該程式是通用的,可應用于多種不同的文庫建構技術。此外,鍊分割僞影讀數 (SSAR) 已被建議減少樣本中嵌合僞影的數量,并且嵌合體檢測程式可用于過濾原始序列,以實作僅 1% 的總體嵌合率。

挑戰 3

樣品污染是一個固有的問題,因為單獨的文庫通常是并行制備的。最可能的主要污染源是預擴增,這是一種在 PCR 之前增加核苷酸序列量的方法。

解決方案 3:可以通過質控,陰性對照,設定重複等步驟識别污染,確定在樣品制備過程中使用無菌技術和無菌實驗條件,以防止外源性污染的引入。

此外使用獨特的條碼和标簽對樣品進行辨別(谷禾所有樣本全程唯一條形碼溯源識别管理),以避免混淆和交叉污染。最後,做好定期清潔和消毒:定期清潔和消毒實驗室裝置和工作區域,以減少污染的積累和傳播。

挑戰 4

文庫制備的巨大成本主要歸因于實驗室裝置、需要經過教育訓練的人員和試劑成本。

解決方案 4:通過優化實驗步驟和條件,可以減少試劑的使用量和浪費,進而降低成本。確定實驗室人員接受适當的教育訓練和技術支援,以提高實驗的效率和準确性。與其他實驗室或研究團隊合作,共享裝置和資源,共同承擔成本和實驗負擔。随着自動化技術變得越來越流行,樣品制備的準确性和效率可能會提高。

04

NGS測序過程注意問題

堿基平衡

什麼是堿基平衡?

測序中一個不可忽視的原則就是堿基平衡,是指測序過程中,每個循環中A、C、G和T四種堿基,比較均勻地存在。需要兼顧的平衡度與複雜度。在測序過程中,保持堿基平衡是非常重要的,可以確定測序結果的準确性和可靠性。

什麼是堿基不平衡文庫?

就是擴增子産生的文庫,擴增子的特點是有特定的起始位點的。反應到測序圖像上,就會呈現一張照片特别亮,光點很多,而其他三張照片就特别暗。這時軟體做空間上比對就比較難。結果是判斷的可靠性比較差,導緻對于堿基的判讀就會出現錯誤,進而導緻測序品質值大幅度下降。一般添加諸如基因組DNA文庫,或摻入大量的平衡堿基文庫,包括phix文庫等。同時,也可以盡量多摻入不同類型的擴增子文庫。

此外,堿基平衡還涉及到檢測和糾正測序過程中的堿基偏差。在測序過程中,可能會出現堿基的插入、缺失或錯誤,這些錯誤會影響測序結果的準确性。為了糾正這些錯誤,開發了各種生物資訊學工具和算法,例如品質控制和堿基校正等。

文庫長度

文庫長度含兩側測序接頭和插入目标片段,整個文庫的長度範圍不能過寬,一般建議在250bp-450bp之間比較好,超過600bp以上就會造成一些不利影響。

過長的文庫長度會降低測序效率

在Illumina測序等高通量測序平台上,測序片段長度會影響測序的品質和效率。過長的文庫長度會增加測序過程中的錯誤率,并且會導緻測序片段的讀取長度變短。這會降低測序的可靠性和準确性,影響後續的生物資訊學分析和資料解讀。但是如果文庫片段過短的話,該短片段測序到後期,就是要測接頭序列了,有的時候連接配接頭序列都測完了,那就沒有信号了,後續會讀取一些假信号,降低測序品質值。

過長的文庫長度會降低簇密度

簇密度是基于單次隻測一個堿基的邊合成邊測序原理,要求對各個分子簇的反應時間要求一緻。也就是各個分子簇必須同時進行反應。理想狀态當然是如此,但是實際PCR反應過程中,各個分子的反應時間還是不盡相同的(一般體系和酶要控制好)。是以,會産生有的分子簇内的分子反應的快,有的慢的情況過長的文庫長度會降低簇密度。在Illumina測序中,DNA片段會被固定在測序晶片上的聚合酶鍊反應(PCR)産物中,形成簇。過長的文庫長度會導緻PCR擴增效率降低,進而降低簇密度。低簇密度會減少每個簇中的測序片段數量,進而降低測序的覆寫度和深度,影響後續的資料分析和解讀。

過長的文庫長度可能導緻堿基偏移

在測序過程中,由于DNA聚合酶的滑動等原因,長片段的文庫容易出現堿基偏移的情況。

05

二代測序資料品質評價

資料量(yield)

資料量指一次測序所獲得的PF資料的總量。注意,是PF資料(PF資料是指通過濾波後的有效測序資料,即通過品質控制篩選後的測序片段),而不是原始資料。資料量當然越多越好,實際成績與測序儀型号有關,不同的機器,産量不一樣。

PF資料的總量是衡量測序深度和測序品質的一個重要名額。較高的PF資料總量表示測序過程中得到了更多的有效測序片段,可以提供更高的測序覆寫度和深度,進而提高後續資料分析的可靠性和準确性。

Q30

Q30是指在測序過程中,品質值(Quality Value,QV)大于或等于30的堿基。品質值是根據測序儀器對每個堿基的測量結果和信号峰值計算得出的,用來表示該堿基的品質好壞。Q30值越高,表示測序資料中高品質的堿基比例越高。

高通量測序是什麼技術,一二三代的差別,測序注意事項

by:Alexander William Eastman

需要注意的是,Q30的大小與測序片段(read)的讀長有關。如果讀長較長,即測序片段包含的堿基數較多,那麼要求每個堿基的品質值都達到或超過30就更加困難,是以平均%Q30可能會降低。相反,如果讀長較短,即測序片段包含的堿基數較少,那麼要求每個堿基的品質值達到或超過30就相對容易,平均%Q30可能會提高。

比對率(mappingrate)

将測序資料與參考序列(reference)進行比對,是測序資料分析中的一項重要步驟。比對率是指在比對過程中,測序資料與參考序列完全一緻的堿基占測序資料總堿基數的比例。比對率越高,表示測序資料的準确性和可靠性越高。在細菌16S測序中,可以根據具體的需求選擇适合的比對工具。

常用的比對工具是基于Smith-Waterman算法的BLAST(Basic Local Alignment Search Tool)和基于Burrows-Wheeler變換的Bowtie、BWA等工具。高比對率是測序資料品質好的重要名額之一。它表示測序資料的準确性和可靠性較高,能夠提供更準确的基因組資訊和變異位點等重要資訊(在谷禾16s測序中,尤其糞便樣本約超過 70%能比對到種)。在後續的資料分析和解讀中,高比對率的測序資料更有助于準确地進行變異檢測、基因表達分析、功能分析等。

需要注意的是,比對率受到多種因素的影響,包括測序資料品質、參考序列的準确性、資料庫以及比對算法的選擇等。在進行測序資料分析時,需要綜合考慮比對率、測序資料品質和其他相關名額,以獲得準确可靠的分析結果。

覆寫度(coverage)

由于測序資料的生成過程中存在一些技術和生物學上的随機性,導緻不同區域的測序資料的覆寫深度(coverage depth)是不一樣的。

覆寫深度是指在某個特定位置的測序資料的讀段數目或測序堿基數目。覆寫深度越高,表示該位置的測序資料越豐富,測序結果的準确性和可靠性越高。

需要注意的是,覆寫深度的均勻性和高低受到多種因素的影響,包括測序深度、測序技術、樣本品質等。

重複率(duplicationrate)

在二代測序文庫的建構過程中,除了無PCR流程(PCR-free approach),其他方法都需要進行PCR擴增。PCR擴增會導緻染色體的不同區域放大程度不一緻,有部分序列被過度放大。這是一種人為引入的偏差。重複率與文庫建構試劑的品質有關,對于人類全基因組測序來說,通常<10%。

捕獲率(capturerate)

雜交捕獲建庫是通過探針雜交捕獲來從基因組文庫中富集相應序列的,探針雜交捕獲存在着捕獲效率高低的問題,是以考察、評價這一步驟成敗、好壞的參數就是捕獲率,越高越好。捕獲率與所用的捕獲試劑有關,不同的試劑,捕獲率不同。

06

結 語

高通量測序操作包括樣品準備、文庫建構、PCR擴增、測序儀器運作等。隻有按照标準SOP規範操作,才能保證明驗的準确性和可重複性。新測序儀平台和技術的不斷出現和改進,使得高通量測序無論通量、品質、速度和成本都在快速進步,高通量測序的應用範圍也大大得到拓展,不久的将來有望以低成本随時随地的開展高通量測序應用。