天天看點

生信學習筆記:測序資料質控

文章目錄

    • 測序資料質控
    • 1.原始資料統計
    • 2.質控資料統計

測序資料質控

Illumina 測序屬于第二代測序技術,單次運作能産生數十億級的reads,如此海量的資料無法逐個展示每條read的品質情況;運用統計學的方法,對所測序列進行統計和質控,可以從宏觀上直覺地反映出樣本的文庫建構品質和測序品質。

1.原始資料統計

1)原始資料獲得

Illumina 平台通過将測序圖像信号經CASAVA堿基識别(Base Calling)轉換成文字信号,并将其以 fastq 格式儲存起來作為原始資料。根據index序列區分各個樣本的資料,以便進行後續分析。在fastq檔案中每條序列由4行資料組成,其中第一行和第三行為讀段識别碼(第一行以“@”開頭,第三行以“+”開頭),第二行為堿基序列,而第四行是第二行序列的各堿基所對應的測序品質值。

如下所示:

生信學習筆記:測序資料質控

2)原始資料質控

對每一個樣本的原始測序資料進行測序相關品質評估,包括:① 堿基品質分布統計; ② 堿基錯誤率分布統計;③ A/T/G/C堿基含量分布統計。

使用軟體:fastx_toolkit_0.0.14。

① 堿基品質分布統計

測序的錯誤率與堿基的品質有關,受測序儀本身、測序試劑、樣品等多個因素共同影響。通過公式計算,可以得出一個綜合的值,即品質值(Q),用來評估測序的品質。随着測序的進行,酶的活性及其它物質的靈敏度也會下降,是以到達一定測序長度後,Q值也會随之下降。

② 堿基錯誤率分布統計

測序錯誤率會随着測序序列(Sequenced Reads)長度的增加而升高,這是由測序過程中化學試劑的消耗導緻的,為Illumina高通量測序平台的共有特征;另外,前6個堿基的位置也會發生較高的測序錯誤率,而這個長度也正好等于在RNA-seq建庫過程中反轉錄所需要的随機引物的長度。這部分堿基的測序錯誤率較高可能是由于随機引物與RNA模版的不完全結合導緻。

③ A/T/G/C堿基含量分布統計

堿基含量分布一般用于檢測有無AT、GC分離現象。對于RNA-seq來說,鑒于序列打斷的随機性和G/C、A/T含量分别相等的原則,理論上每個測序循環中的GC含量相等、AT含量相等(如果是鍊特異性建庫,可能會出現AT分離和/或GC分離),且在整個測序過程基本穩定不變,呈水準線。但在現有的高通量測序技術中,反轉錄合成 cDNA 時所用的6bp的随機引物會引起前幾個位置的核苷酸組成存在一定的偏好性,這種波動屬于正常情況。

2.質控資料統計

由于原始測序資料中會包含測序接頭序列、低品質讀段、N(N表示不确定堿基資訊)率較高序列及長度過短序列,這将嚴重影響後續分析的品質。是以,在分析之前會先對原始測序資料進行質控,進而得到高品質的質控資料(clean data)以保證後續分析結果的準确性。

使用軟體: SeqPrep 和 Sickle

具體步驟及順序如下:

  1. 去除reads中的接頭序列,去除由于接頭自連等原因導緻沒有插入片段的reads;
  2. 将序列末端(3’端)低品質(品質值小于20)的堿基修剪掉,如剩餘序列中仍然有品質值小于10的堿基,則将整條序列剔除,否則保留;
  3. 去除含N(子產品堿基)的reads;
  4. 舍棄去adapter及品質修剪後長度小于30bp的序列。

資料質控完成後,對質控後的資料再次進行統計以及品質評估,同樣包括:

① 堿基品質分布統計;

② 堿基錯誤率分布統計;

③ A/T/G/C堿基含量分布統計。

接頭序列為:

5’: AGATCGGAAGAGCACACGTC

3’: AGATCGGAAGAGCGTCGTGT

參考資料:

美吉生物雲