文章目錄
-
- 前言
- raw data 和 fastq檔案
- reads
- Q20和Q30
- N值
- Adapters
- Duplication
- Insert
- fastp report
-
- summary
- Adapter
- Insert size estimation
- Before filtering
前言
測序出來的資料利用fastp一個指令質控全搞定,無論是SE還是PE,同時會生成.json和.html格式的報告,十分直覺友善,如何生成報告可檢視 Linux下fastp的使用 ,下面記錄一下如何了解這份報告。
在這之前先整理幾個概念:
raw data 和 fastq檔案
測序得到的原始圖像資料經base calling 轉化為序列資料,我們稱之為raw data或raw reads,結果以fastq 檔案格式存儲,fastq檔案為使用者得到的最原始檔案,裡面存儲 reads的序列以及reads的測序品質。
在fastq 格式檔案中每個read由四行描述:
[email protected] ID
2.TGGCGGAGGGATTTGAACCC
3.+
4.bbbbbbbbabbbbbbbbbbb
每個序列共有4行,第1行和第3行是序列名稱(有的fq檔案為了節省存儲空間會省略第三行“+"後面的序列名稱);
第2行是序列;
第4行是序列的測序品質,每個字元對應第2行每個堿基,第4行每個字元對應的ASClI值減去64,即為該堿基的測序品質值,比如h對應的ASCIl值為104,那麼其對應的堿基品質值是40。(堿基品質值範圍為0到40)
下表為Solexa 測序錯誤率與測序品質值簡明對應關系:
測序錯誤率 | 測序品質值 | 對應字元 |
---|---|---|
5% | 13 | M |
1% | 20 | T |
0.1% | 30 | ^ |
0.01% | 40 | h |
公式:-10*log10P
fastp就是對.fa.gz格式的檔案進行處理
reads
由于受目前測序水準的限制,基因組測序時需要先将基因組打斷成DNA片段,然後再建庫測序。reads(讀長)指的是測序儀單次測序所得到的堿基序列,也就是一連串的ATCGGGTA之類的,它不是基因組中的組成。不同的測序儀器,reads長度不一樣。對整個基因組進行測序,就會産生成百上千萬的reads。
- 高通量測序時,在晶片上的每個反應,會讀出一條序列,是比較短的,叫read,它們是原始資料;
- 有很多reads通過片段重疊,能夠組裝成一個更大的片段,稱為contig;多個contigs通過片段重疊,組成一個更長的scaffold;
- 一個contig被組成出來之後,鑒定發現它是編碼蛋白質的基因,就叫singleton;
- 多個contigs組裝成scaffold之後,鑒定發現它編碼蛋白質的基因,叫unigene.
Q20和Q30
Q20,Q30它們代表的是某一堿基品質值占全部堿基數的百分比,就類似于産品合格率,不同的品質标準會産生不同的合格率,标準越高,品質越好,達标的就越少;合格率越高,那麼達标的資料就越多。一般來說,對于二代測序,最好是達到Q20的堿基要在95%以上(最差不低于90%),Q30要求大于85%(最差也不要低于80%)。
一個給定堿基的測序品質分值Q定義為下面的等式:
Q = -10log10(e)
其中,e為預計堿基檢出不正确的機率。
Q分值較高表示出錯的機率較小。
Q分值較低可能會導緻相當大一部分的片段不可用,還可能導緻假陽性的變異檢出增加,以緻得出不準确的結論。
測量分值與堿基檢出精度的關系如下:
N值
N 代表沒有測定的堿基。(ATCG都有可能)比如在測序過程中出現gap,那麼這一段都用N來代替這些還沒有測序、尚不明确的堿基。
Adapters
adapter
接頭,為一段已知的短核苷酸序列,用于連結未知的目标測 序片段
index或barcode
幾個堿基組成的寡核苷酸鍊,用于在混合測序時,區分不同樣本
可根據fastq序列中的資訊擷取
@HWI-ST1276:71:C1162ACXX:1:1101:1208:2458 1:N:0:CGATGT
即第一行最末的 CGATGT 即本次測序所使用的index。
insert
待測序的目标序列,位于兩個adapter之間
Duplication
Duplication Rate = 1- Unique reads/Total reads
cluster,是指二代測序所用晶片表面或單個磁珠表面生成的由單個DNA模闆生成的數百至數千個DNA分子的集合,猶如單個細菌在LB培養基表面生成單個菌落。
Duplication Reads,是指多個完全相同的DNA片段形成了多個有效cluster,讀取這些Cluster所獲得reads資訊也是完全相同,被稱之為Duplication reads
RNAseq與16S去duplication問題
1、RNAseq與16s測序的duplication并不是打斷不随機造成的,不能去除duplication
2、去除duplication會造成豐度資訊丢失
常見文庫的Duplication Rate經驗值
WES(全外顯子組測序),~10G,dup rate在10%左右;
WGS(全基因組測序),~90G,dup rate在10%左右;
RNA-seq(轉錄組測序技術),dup rate在40%~50%左右;
WGBS(全基因組甲基化測序),>10G, dup rate > 10%;
多重PCR文庫和Panel,差異很大,跟需要測序的區域以及測序量有關,通常情況下隻要on target部分資料品質足夠好,dup rate不是一個重要的考慮名額。
Insert
插入片段,通俗解釋就是兩個Adapter接頭中間的,被read的片段,即被打斷的目标片段
詳情可見這篇一篇文章說清楚什麼是“插入片段”?,說的很清楚
fastp report
summary
首先是一個總的報告,我處理的是PE
-
General
版本号、序列循環數、質控之前的平均長度、質控之後的平均長度、插入片段的峰值
-
Before filtering
資料質控之前的(反應測序品質):總的reads長度、總堿基長度、Q20合格率、Q30合格率、GC含量
-
After filtering
質控之後的:内容同上
-
Filtering result
reads的通過率、低品質的reads、含太多N值的reads
Adapter
即剛剛上面介紹的接頭,這裡兩個檔案(兩端的reads)列出了從1到幾十位的adapters的發生次數,以及其他未列出的接頭數
Insert size estimation
配對末端重疊分析,不同長度的Insert在reads中占的比例,相當于是DNA被打斷後的長度分布。當插入片段大小<30或> 270,或包含太多錯誤,則不能被read讀取,比如我這裡就有10.074194%的不可讀reads)
Before filtering
質控之前的資料品質、堿基含量以及kmer分析等,可直接在網頁上用滑鼠拖動放大縮小以及檢視具體資料細節,或進行圖檔儲存等操作
-
reads品質
在不同位置上的堿基品質分布,一般來講品質應 >30 且波動較小為不錯的資料
-
堿基品質
read各個位置上堿基比例分布,這個是為了分析堿基的分離程度。何為堿基分離?已知AT配對,CG配對,假如測序過程是比較随機的話(随機意味着好),那麼在每個位置上A和T比例應該差不多,C和G的比例也應該差不多,如上圖所示,兩者之間即使有偏差也不應該太大,最好平均在1%以内,如果過高,除非有合理的原因,比如某些特定的捕獲測序所緻,否則都需要注意是不是測序過程有什麼偏差。
-
KMER計數
fastp對5個堿基長度的所有組合的出現次數進行了統計,然後把它放在了一張表格中,表格的每一個元素為深背景白字,背景越深,則表示重複次數越多。這樣,一眼望去,就可以發現有哪些異常的資訊。滑鼠可停留在某一具體組合上看出現次數和平均占比。
剩下一部分After filtering就是質控之後結果,名額和質控之前一緻,不贅述了。
以上就是剛接觸fastp後做的一個學習筆記,基本上自己目前找到和了解的就這些,正在慢慢學習,歡迎一起讨論。
參考資料:
《全基因組測序WGS資料分析——3.資料質控》學習筆記
fastp:極速全能的FASTQ檔案自動質控過濾校正預處理軟體