天天看點

生信學習筆記:fastp質控處理生成的report結果解讀fastp report

文章目錄

    • 前言
    • raw data 和 fastq檔案
    • reads
    • Q20和Q30
    • N值
    • Adapters
    • Duplication
    • Insert
  • fastp report
    • summary
    • Adapter
    • Insert size estimation
    • Before filtering

前言

測序出來的資料利用fastp一個指令質控全搞定,無論是SE還是PE,同時會生成.json和.html格式的報告,十分直覺友善,如何生成報告可檢視 Linux下fastp的使用 ,下面記錄一下如何了解這份報告。

在這之前先整理幾個概念:

raw data 和 fastq檔案

測序得到的原始圖像資料經base calling 轉化為序列資料,我們稱之為raw data或raw reads,結果以fastq 檔案格式存儲,fastq檔案為使用者得到的最原始檔案,裡面存儲 reads的序列以及reads的測序品質。

在fastq 格式檔案中每個read由四行描述:

[email protected] ID
2.TGGCGGAGGGATTTGAACCC
3.+
4.bbbbbbbbabbbbbbbbbbb
           

每個序列共有4行,第1行和第3行是序列名稱(有的fq檔案為了節省存儲空間會省略第三行“+"後面的序列名稱);

第2行是序列;

第4行是序列的測序品質,每個字元對應第2行每個堿基,第4行每個字元對應的ASClI值減去64,即為該堿基的測序品質值,比如h對應的ASCIl值為104,那麼其對應的堿基品質值是40。(堿基品質值範圍為0到40)

下表為Solexa 測序錯誤率與測序品質值簡明對應關系:

測序錯誤率 測序品質值 對應字元
5% 13 M
1% 20 T
0.1% 30 ^
0.01% 40 h

公式:-10*log10P

fastp就是對.fa.gz格式的檔案進行處理

reads

由于受目前測序水準的限制,基因組測序時需要先将基因組打斷成DNA片段,然後再建庫測序。reads(讀長)指的是測序儀單次測序所得到的堿基序列,也就是一連串的ATCGGGTA之類的,它不是基因組中的組成。不同的測序儀器,reads長度不一樣。對整個基因組進行測序,就會産生成百上千萬的reads。
生信學習筆記:fastp質控處理生成的report結果解讀fastp report
  • 高通量測序時,在晶片上的每個反應,會讀出一條序列,是比較短的,叫read,它們是原始資料;
  • 有很多reads通過片段重疊,能夠組裝成一個更大的片段,稱為contig;多個contigs通過片段重疊,組成一個更長的scaffold;
  • 一個contig被組成出來之後,鑒定發現它是編碼蛋白質的基因,就叫singleton;
  • 多個contigs組裝成scaffold之後,鑒定發現它編碼蛋白質的基因,叫unigene.

Q20和Q30

Q20,Q30它們代表的是某一堿基品質值占全部堿基數的百分比,就類似于産品合格率,不同的品質标準會産生不同的合格率,标準越高,品質越好,達标的就越少;合格率越高,那麼達标的資料就越多。一般來說,對于二代測序,最好是達到Q20的堿基要在95%以上(最差不低于90%),Q30要求大于85%(最差也不要低于80%)。

一個給定堿基的測序品質分值Q定義為下面的等式:

Q = -10log10(e)

其中,e為預計堿基檢出不正确的機率。

Q分值較高表示出錯的機率較小。

Q分值較低可能會導緻相當大一部分的片段不可用,還可能導緻假陽性的變異檢出增加,以緻得出不準确的結論。

測量分值與堿基檢出精度的關系如下:

生信學習筆記:fastp質控處理生成的report結果解讀fastp report

N值

N 代表沒有測定的堿基。(ATCG都有可能)比如在測序過程中出現gap,那麼這一段都用N來代替這些還沒有測序、尚不明确的堿基。

Adapters

adapter

接頭,為一段已知的短核苷酸序列,用于連結未知的目标測 序片段

index或barcode

幾個堿基組成的寡核苷酸鍊,用于在混合測序時,區分不同樣本

可根據fastq序列中的資訊擷取

@HWI-ST1276:71:C1162ACXX:1:1101:1208:2458 1:N:0:CGATGT

即第一行最末的 CGATGT 即本次測序所使用的index。

insert

待測序的目标序列,位于兩個adapter之間
生信學習筆記:fastp質控處理生成的report結果解讀fastp report

Duplication

Duplication Rate = 1- Unique reads/Total reads

cluster,是指二代測序所用晶片表面或單個磁珠表面生成的由單個DNA模闆生成的數百至數千個DNA分子的集合,猶如單個細菌在LB培養基表面生成單個菌落。

Duplication Reads,是指多個完全相同的DNA片段形成了多個有效cluster,讀取這些Cluster所獲得reads資訊也是完全相同,被稱之為Duplication reads

RNAseq與16S去duplication問題

1、RNAseq與16s測序的duplication并不是打斷不随機造成的,不能去除duplication

2、去除duplication會造成豐度資訊丢失

常見文庫的Duplication Rate經驗值

WES(全外顯子組測序),~10G,dup rate在10%左右;

WGS(全基因組測序),~90G,dup rate在10%左右;

RNA-seq(轉錄組測序技術),dup rate在40%~50%左右;

WGBS(全基因組甲基化測序),>10G, dup rate > 10%;

多重PCR文庫和Panel,差異很大,跟需要測序的區域以及測序量有關,通常情況下隻要on target部分資料品質足夠好,dup rate不是一個重要的考慮名額。

Insert

插入片段,通俗解釋就是兩個Adapter接頭中間的,被read的片段,即被打斷的目标片段

詳情可見這篇一篇文章說清楚什麼是“插入片段”?,說的很清楚

fastp report

summary

首先是一個總的報告,我處理的是PE

生信學習筆記:fastp質控處理生成的report結果解讀fastp report
  • General

    版本号、序列循環數、質控之前的平均長度、質控之後的平均長度、插入片段的峰值

  • Before filtering

    資料質控之前的(反應測序品質):總的reads長度、總堿基長度、Q20合格率、Q30合格率、GC含量

  • After filtering

    質控之後的:内容同上

  • Filtering result

    reads的通過率、低品質的reads、含太多N值的reads

Adapter

即剛剛上面介紹的接頭,這裡兩個檔案(兩端的reads)列出了從1到幾十位的adapters的發生次數,以及其他未列出的接頭數

生信學習筆記:fastp質控處理生成的report結果解讀fastp report

Insert size estimation

配對末端重疊分析,不同長度的Insert在reads中占的比例,相當于是DNA被打斷後的長度分布。當插入片段大小<30或> 270,或包含太多錯誤,則不能被read讀取,比如我這裡就有10.074194%的不可讀reads)

生信學習筆記:fastp質控處理生成的report結果解讀fastp report

Before filtering

質控之前的資料品質、堿基含量以及kmer分析等,可直接在網頁上用滑鼠拖動放大縮小以及檢視具體資料細節,或進行圖檔儲存等操作
           
  • reads品質

    在不同位置上的堿基品質分布,一般來講品質應 >30 且波動較小為不錯的資料

    生信學習筆記:fastp質控處理生成的report結果解讀fastp report
  • 堿基品質

    read各個位置上堿基比例分布,這個是為了分析堿基的分離程度。何為堿基分離?已知AT配對,CG配對,假如測序過程是比較随機的話(随機意味着好),那麼在每個位置上A和T比例應該差不多,C和G的比例也應該差不多,如上圖所示,兩者之間即使有偏差也不應該太大,最好平均在1%以内,如果過高,除非有合理的原因,比如某些特定的捕獲測序所緻,否則都需要注意是不是測序過程有什麼偏差。

    生信學習筆記:fastp質控處理生成的report結果解讀fastp report
  • KMER計數

    fastp對5個堿基長度的所有組合的出現次數進行了統計,然後把它放在了一張表格中,表格的每一個元素為深背景白字,背景越深,則表示重複次數越多。這樣,一眼望去,就可以發現有哪些異常的資訊。滑鼠可停留在某一具體組合上看出現次數和平均占比。

    生信學習筆記:fastp質控處理生成的report結果解讀fastp report
    剩下一部分After filtering就是質控之後結果,名額和質控之前一緻,不贅述了。

以上就是剛接觸fastp後做的一個學習筆記,基本上自己目前找到和了解的就這些,正在慢慢學習,歡迎一起讨論。

參考資料:

《全基因組測序WGS資料分析——3.資料質控》學習筆記

fastp:極速全能的FASTQ檔案自動質控過濾校正預處理軟體