文章目錄
-
- 測序資料質控
- 1.原始資料統計
- 2.質控資料統計
測序資料質控
Illumina 測序屬于第二代測序技術,單次運作能産生數十億級的reads,如此海量的資料無法逐個展示每條read的品質情況;運用統計學的方法,對所測序列進行統計和質控,可以從宏觀上直覺地反映出樣本的文庫建構品質和測序品質。
1.原始資料統計
1)原始資料獲得
Illumina 平台通過将測序圖像信号經CASAVA堿基識别(Base Calling)轉換成文字信号,并将其以 fastq 格式儲存起來作為原始資料。根據index序列區分各個樣本的資料,以便進行後續分析。在fastq檔案中每條序列由4行資料組成,其中第一行和第三行為讀段識别碼(第一行以“@”開頭,第三行以“+”開頭),第二行為堿基序列,而第四行是第二行序列的各堿基所對應的測序品質值。
如下所示:
2)原始資料質控
對每一個樣本的原始測序資料進行測序相關品質評估,包括:① 堿基品質分布統計; ② 堿基錯誤率分布統計;③ A/T/G/C堿基含量分布統計。
使用軟體:fastx_toolkit_0.0.14。
① 堿基品質分布統計
測序的錯誤率與堿基的品質有關,受測序儀本身、測序試劑、樣品等多個因素共同影響。通過公式計算,可以得出一個綜合的值,即品質值(Q),用來評估測序的品質。随着測序的進行,酶的活性及其它物質的靈敏度也會下降,是以到達一定測序長度後,Q值也會随之下降。
② 堿基錯誤率分布統計
測序錯誤率會随着測序序列(Sequenced Reads)長度的增加而升高,這是由測序過程中化學試劑的消耗導緻的,為Illumina高通量測序平台的共有特征;另外,前6個堿基的位置也會發生較高的測序錯誤率,而這個長度也正好等于在RNA-seq建庫過程中反轉錄所需要的随機引物的長度。這部分堿基的測序錯誤率較高可能是由于随機引物與RNA模版的不完全結合導緻。
③ A/T/G/C堿基含量分布統計
堿基含量分布一般用于檢測有無AT、GC分離現象。對于RNA-seq來說,鑒于序列打斷的随機性和G/C、A/T含量分别相等的原則,理論上每個測序循環中的GC含量相等、AT含量相等(如果是鍊特異性建庫,可能會出現AT分離和/或GC分離),且在整個測序過程基本穩定不變,呈水準線。但在現有的高通量測序技術中,反轉錄合成 cDNA 時所用的6bp的随機引物會引起前幾個位置的核苷酸組成存在一定的偏好性,這種波動屬于正常情況。
2.質控資料統計
由于原始測序資料中會包含測序接頭序列、低品質讀段、N(N表示不确定堿基資訊)率較高序列及長度過短序列,這将嚴重影響後續分析的品質。是以,在分析之前會先對原始測序資料進行質控,進而得到高品質的質控資料(clean data)以保證後續分析結果的準确性。
使用軟體: SeqPrep 和 Sickle
具體步驟及順序如下:
- 去除reads中的接頭序列,去除由于接頭自連等原因導緻沒有插入片段的reads;
- 将序列末端(3’端)低品質(品質值小于20)的堿基修剪掉,如剩餘序列中仍然有品質值小于10的堿基,則将整條序列剔除,否則保留;
- 去除含N(子產品堿基)的reads;
- 舍棄去adapter及品質修剪後長度小于30bp的序列。
資料質控完成後,對質控後的資料再次進行統計以及品質評估,同樣包括:
① 堿基品質分布統計;
② 堿基錯誤率分布統計;
③ A/T/G/C堿基含量分布統計。
接頭序列為:
5’: AGATCGGAAGAGCACACGTC
3’: AGATCGGAAGAGCGTCGTGT
參考資料:
美吉生物雲