生信學習筆記：測序資料質控

文章目錄

- 測序資料質控
- 1.原始資料統計
- 2.質控資料統計

測序資料質控

Illumina 測序屬于第二代測序技術，單次運作能産生數十億級的reads，如此海量的資料無法逐個展示每條read的品質情況；運用統計學的方法，對所測序列進行統計和質控，可以從宏觀上直覺地反映出樣本的文庫建構品質和測序品質。

1.原始資料統計

1）原始資料獲得

Illumina 平台通過将測序圖像信号經CASAVA堿基識别(Base Calling)轉換成文字信号，并将其以 fastq 格式儲存起來作為原始資料。根據index序列區分各個樣本的資料，以便進行後續分析。在fastq檔案中每條序列由4行資料組成，其中第一行和第三行為讀段識别碼（第一行以“@”開頭，第三行以“+”開頭），第二行為堿基序列，而第四行是第二行序列的各堿基所對應的測序品質值。

如下所示：

生信學習筆記：測序資料質控

2）原始資料質控

對每一個樣本的原始測序資料進行測序相關品質評估，包括：① 堿基品質分布統計； ② 堿基錯誤率分布統計；③ A/T/G/C堿基含量分布統計。

使用軟體：fastx_toolkit_0.0.14。

① 堿基品質分布統計

測序的錯誤率與堿基的品質有關，受測序儀本身、測序試劑、樣品等多個因素共同影響。通過公式計算，可以得出一個綜合的值，即品質值(Q)，用來評估測序的品質。随着測序的進行，酶的活性及其它物質的靈敏度也會下降，是以到達一定測序長度後，Q值也會随之下降。

② 堿基錯誤率分布統計

測序錯誤率會随着測序序列(Sequenced Reads)長度的增加而升高，這是由測序過程中化學試劑的消耗導緻的，為Illumina高通量測序平台的共有特征；另外，前6個堿基的位置也會發生較高的測序錯誤率，而這個長度也正好等于在RNA-seq建庫過程中反轉錄所需要的随機引物的長度。這部分堿基的測序錯誤率較高可能是由于随機引物與RNA模版的不完全結合導緻。

③ A/T/G/C堿基含量分布統計

堿基含量分布一般用于檢測有無AT、GC分離現象。對于RNA-seq來說，鑒于序列打斷的随機性和G/C、A/T含量分别相等的原則，理論上每個測序循環中的GC含量相等、AT含量相等(如果是鍊特異性建庫，可能會出現AT分離和/或GC分離)，且在整個測序過程基本穩定不變，呈水準線。但在現有的高通量測序技術中，反轉錄合成 cDNA 時所用的6bp的随機引物會引起前幾個位置的核苷酸組成存在一定的偏好性，這種波動屬于正常情況。

2.質控資料統計

由于原始測序資料中會包含測序接頭序列、低品質讀段、N（N表示不确定堿基資訊）率較高序列及長度過短序列，這将嚴重影響後續分析的品質。是以，在分析之前會先對原始測序資料進行質控，進而得到高品質的質控資料（clean data）以保證後續分析結果的準确性。

使用軟體： SeqPrep 和 Sickle

具體步驟及順序如下：

去除reads中的接頭序列，去除由于接頭自連等原因導緻沒有插入片段的reads；
将序列末端（3’端）低品質（品質值小于20）的堿基修剪掉，如剩餘序列中仍然有品質值小于10的堿基，則将整條序列剔除，否則保留；
去除含N（子產品堿基）的reads；
舍棄去adapter及品質修剪後長度小于30bp的序列。

資料質控完成後，對質控後的資料再次進行統計以及品質評估，同樣包括：

① 堿基品質分布統計；

② 堿基錯誤率分布統計；

③ A/T/G/C堿基含量分布統計。

接頭序列為：

5’: AGATCGGAAGAGCACACGTC

3’: AGATCGGAAGAGCGTCGTGT

參考資料：

美吉生物雲

生信學習筆記：測序資料質控

文章目錄

測序資料質控

1.原始資料統計

2.質控資料統計

繼續閱讀

Aspera/FTP下載下傳SRA/fastq檔案後根據樣本資訊進行批量重命名

bam格式轉換為Fastq/Fasta格式bam格式轉換為Fastq/Fasta格式

生信學習筆記：fastp質控處理生成的report結果解讀fastp report

機器學習裡的歐氏距離

SVG與perl SVG學習筆記

TCGA中的癌症名稱、簡寫和中文名稱

惡性良性腫瘤（Oncology）生物資訊學分析簡介

生物資訊學簡介

生物資訊學分析常用網站

轉錄組分析資料準備資料的下載下傳

序列相似度定義

DNA測序技術

關于三代基因測序，你所需要知道的都在這兒！關于三代基因測序，你所需要知道的都在這兒！

＜轉錄組＞對stringtie得到的表達量資料進行整理

miRNA與轉錄組聯合分析

深度學習模型分析人類複雜疾病的準确性