文章目錄

- 前言
- raw data 和 fastq檔案
- reads
- Q20和Q30
- N值
- Adapters
- Duplication
- Insert
fastp report
- summary
- Adapter
- Insert size estimation
- Before filtering

前言

測序出來的資料利用fastp一個指令質控全搞定，無論是SE還是PE，同時會生成.json和.html格式的報告，十分直覺友善，如何生成報告可檢視 Linux下fastp的使用，下面記錄一下如何了解這份報告。

在這之前先整理幾個概念：

raw data 和 fastq檔案

測序得到的原始圖像資料經base calling 轉化為序列資料，我們稱之為raw data或raw reads，結果以fastq 檔案格式存儲，fastq檔案為使用者得到的最原始檔案，裡面存儲 reads的序列以及reads的測序品質。

在fastq 格式檔案中每個read由四行描述：

[email protected] ID
2.TGGCGGAGGGATTTGAACCC
3.+
4.bbbbbbbbabbbbbbbbbbb

每個序列共有4行，第1行和第3行是序列名稱（有的fq檔案為了節省存儲空間會省略第三行“+"後面的序列名稱）；

第2行是序列；

第4行是序列的測序品質，每個字元對應第2行每個堿基，第4行每個字元對應的ASClI值減去64，即為該堿基的測序品質值，比如h對應的ASCIl值為104，那麼其對應的堿基品質值是40。(堿基品質值範圍為0到40)

下表為Solexa 測序錯誤率與測序品質值簡明對應關系：

測序錯誤率	測序品質值	對應字元
5%	13	M
1%	20	T
0.1%	30	^
0.01%	40	h

公式：-10*log10P

fastp就是對.fa.gz格式的檔案進行處理

reads

由于受目前測序水準的限制，基因組測序時需要先将基因組打斷成DNA片段，然後再建庫測序。reads（讀長）指的是測序儀單次測序所得到的堿基序列，也就是一連串的ATCGGGTA之類的，它不是基因組中的組成。不同的測序儀器，reads長度不一樣。對整個基因組進行測序，就會産生成百上千萬的reads。

生信學習筆記：fastp質控處理生成的report結果解讀fastp report

高通量測序時，在晶片上的每個反應，會讀出一條序列，是比較短的，叫read，它們是原始資料；
有很多reads通過片段重疊，能夠組裝成一個更大的片段，稱為contig；多個contigs通過片段重疊，組成一個更長的scaffold；
一個contig被組成出來之後，鑒定發現它是編碼蛋白質的基因，就叫singleton；
多個contigs組裝成scaffold之後，鑒定發現它編碼蛋白質的基因，叫unigene.

Q20和Q30

Q20，Q30它們代表的是某一堿基品質值占全部堿基數的百分比，就類似于産品合格率，不同的品質标準會産生不同的合格率，标準越高，品質越好，達标的就越少；合格率越高，那麼達标的資料就越多。一般來說，對于二代測序，最好是達到Q20的堿基要在95%以上（最差不低于90%），Q30要求大于85%（最差也不要低于80%）。

一個給定堿基的測序品質分值Q定義為下面的等式：

Q = -10log10(e)

其中，e為預計堿基檢出不正确的機率。

Q分值較高表示出錯的機率較小。

Q分值較低可能會導緻相當大一部分的片段不可用，還可能導緻假陽性的變異檢出增加，以緻得出不準确的結論。

測量分值與堿基檢出精度的關系如下：

生信學習筆記：fastp質控處理生成的report結果解讀fastp report

N值

N 代表沒有測定的堿基。（ATCG都有可能）比如在測序過程中出現gap，那麼這一段都用N來代替這些還沒有測序、尚不明确的堿基。

Adapters

adapter

接頭，為一段已知的短核苷酸序列，用于連結未知的目标測序片段

index或barcode

幾個堿基組成的寡核苷酸鍊，用于在混合測序時，區分不同樣本

可根據fastq序列中的資訊擷取

@HWI-ST1276:71:C1162ACXX:1:1101:1208:2458 1:N:0:CGATGT

即第一行最末的 CGATGT 即本次測序所使用的index。

insert

待測序的目标序列，位于兩個adapter之間

生信學習筆記：fastp質控處理生成的report結果解讀fastp report

Duplication

Duplication Rate = 1- Unique reads/Total reads

cluster，是指二代測序所用晶片表面或單個磁珠表面生成的由單個DNA模闆生成的數百至數千個DNA分子的集合，猶如單個細菌在LB培養基表面生成單個菌落。

Duplication Reads，是指多個完全相同的DNA片段形成了多個有效cluster，讀取這些Cluster所獲得reads資訊也是完全相同，被稱之為Duplication reads

RNAseq與16S去duplication問題

1、RNAseq與16s測序的duplication并不是打斷不随機造成的，不能去除duplication

2、去除duplication會造成豐度資訊丢失

常見文庫的Duplication Rate經驗值

WES（全外顯子組測序），~10G，dup rate在10%左右；

WGS（全基因組測序），~90G，dup rate在10%左右；

RNA-seq（轉錄組測序技術），dup rate在40%~50%左右；

WGBS（全基因組甲基化測序），>10G, dup rate > 10%；

多重PCR文庫和Panel，差異很大，跟需要測序的區域以及測序量有關，通常情況下隻要on target部分資料品質足夠好，dup rate不是一個重要的考慮名額。

Insert

插入片段，通俗解釋就是兩個Adapter接頭中間的，被read的片段，即被打斷的目标片段

詳情可見這篇一篇文章說清楚什麼是“插入片段”？，說的很清楚

fastp report

summary

首先是一個總的報告，我處理的是PE

生信學習筆記：fastp質控處理生成的report結果解讀fastp report

General

版本号、序列循環數、質控之前的平均長度、質控之後的平均長度、插入片段的峰值
Before filtering

資料質控之前的（反應測序品質）：總的reads長度、總堿基長度、Q20合格率、Q30合格率、GC含量
After filtering

質控之後的：内容同上
Filtering result

reads的通過率、低品質的reads、含太多N值的reads

Adapter

即剛剛上面介紹的接頭，這裡兩個檔案（兩端的reads）列出了從1到幾十位的adapters的發生次數，以及其他未列出的接頭數

生信學習筆記：fastp質控處理生成的report結果解讀fastp report

Insert size estimation

配對末端重疊分析，不同長度的Insert在reads中占的比例，相當于是DNA被打斷後的長度分布。當插入片段大小<30或> 270，或包含太多錯誤，則不能被read讀取，比如我這裡就有10.074194%的不可讀reads）

生信學習筆記：fastp質控處理生成的report結果解讀fastp report

Before filtering

質控之前的資料品質、堿基含量以及kmer分析等，可直接在網頁上用滑鼠拖動放大縮小以及檢視具體資料細節，或進行圖檔儲存等操作

reads品質

在不同位置上的堿基品質分布，一般來講品質應 >30 且波動較小為不錯的資料

生信學習筆記：fastp質控處理生成的report結果解讀fastp report
堿基品質

read各個位置上堿基比例分布，這個是為了分析堿基的分離程度。何為堿基分離？已知AT配對，CG配對，假如測序過程是比較随機的話（随機意味着好），那麼在每個位置上A和T比例應該差不多，C和G的比例也應該差不多，如上圖所示，兩者之間即使有偏差也不應該太大，最好平均在1%以内，如果過高，除非有合理的原因，比如某些特定的捕獲測序所緻，否則都需要注意是不是測序過程有什麼偏差。

生信學習筆記：fastp質控處理生成的report結果解讀fastp report
KMER計數

fastp對5個堿基長度的所有組合的出現次數進行了統計，然後把它放在了一張表格中，表格的每一個元素為深背景白字，背景越深，則表示重複次數越多。這樣，一眼望去，就可以發現有哪些異常的資訊。滑鼠可停留在某一具體組合上看出現次數和平均占比。

生信學習筆記：fastp質控處理生成的report結果解讀fastp report
剩下一部分After filtering就是質控之後結果，名額和質控之前一緻，不贅述了。

以上就是剛接觸fastp後做的一個學習筆記，基本上自己目前找到和了解的就這些，正在慢慢學習，歡迎一起讨論。

參考資料：

《全基因組測序WGS資料分析——3.資料質控》學習筆記

fastp：極速全能的FASTQ檔案自動質控過濾校正預處理軟體

生信學習筆記：fastp質控處理生成的report結果解讀fastp report

文章目錄

前言

raw data 和 fastq檔案

reads

Q20和Q30

N值

Adapters

Duplication

Insert

fastp report

summary

Adapter

Insert size estimation

Before filtering

繼續閱讀

高通量測序領域常用名詞解釋

Aspera/FTP下載下傳SRA/fastq檔案後根據樣本資訊進行批量重命名

bam格式轉換為Fastq/Fasta格式bam格式轉換為Fastq/Fasta格式

機器學習裡的歐氏距離

SVG與perl SVG學習筆記

TCGA中的癌症名稱、簡寫和中文名稱

惡性良性腫瘤（Oncology）生物資訊學分析簡介

生物資訊學簡介

生物資訊學分析常用網站

轉錄組分析資料準備資料的下載下傳

序列相似度定義

DNA測序技術

關于三代基因測序，你所需要知道的都在這兒！關于三代基因測序，你所需要知道的都在這兒！

＜轉錄組＞對stringtie得到的表達量資料進行整理

miRNA與轉錄組聯合分析

深度學習模型分析人類複雜疾病的準确性