2020.12.30丨随機讀取reads使用ncbi線上工具比對nt資料庫

2023-08-07 07:46:04

背景：最近有個項目，客戶讓比對到人的參考基因組，比對率卻隻有70%左右.為了搞清楚測序資料有沒有被污染，我們需要随機讀取一些reads，放到nt資料庫去比對。之前都是一條一條送出，這種批量提取和送出都會遇到一些問題，是以，寫這篇文章進行一個統計。
比對流程：随機提取序列→fastq轉換fasta→送出序列→統計結果
step.1 随機提取序列
- 使用工具：seqtk
- 安裝方式：conda install seqtk
- 使用代碼：
  - seqtk sample -s 100 Carisma_control_ATCACGAT.fastq.gz 1000 > 1000reads_control.fastq #這裡提取1000條
  - # -s 随機種子，預設值11，不清楚可以百度了解一下
- 注意：一般進行随機比對會選擇5000/10000條，不過ncbi線上平台對程序有控制，我試過，一次性跑不了5000條（PE100）。是以可以嘗試跑1000或者2000條。
step.2 格式轉換
- 這個就比較簡單，稍微百度一下，出來的前幾個連結都是同樣的一行代碼可以解決
- 使用代碼：
  - awk '{if(NR%4 == 1){print ">" substr($0, 2)}}{if(NR%4 == 2){print}}' 1000reads_control.fastq > 1000reads_control.fasta
- 注意：awk是個相當強大的指令，很多時候處理文本都可以用它，建議可以認真學習。
- 結果展示：
  - 2020.12.30丨随機讀取reads使用ncbi線上工具比對nt資料庫
step.3 送出序列（線上版）
- 這個就是一個正常操作了，進入ncbi的Blast比對頁面，選擇檔案進行上次，預設選擇nr/nt資料庫，直接送出。
- 網站連結：Nucleotide BLAST: Search nucleotide databases using a nucleotide query (nih.gov)
step.4 統計結果
- 分析時間受當地作息影響，國内的話下午送出（美國是半夜）分析速度會比較快。分析結束後會跳轉到分析界面。在Download All處可以下載下傳到所有序列比對出來的結果，選擇text可以看到比對詳細結果。注意，建議下載下傳資料前先在下方表格處調整展示條目，這樣可以縮小檔案大小，友善查閱。
- 2020.12.30丨随機讀取reads使用ncbi線上工具比對nt資料庫
  - 2020.12.30丨随機讀取reads使用ncbi線上工具比對nt資料庫
- 結果展示
  - 這裡以text文本為例，可以看到序列大部分比對到載體上了，怪不得比對到人的參考基因組時比對率會比較低。
    - 2020.12.30丨随機讀取reads使用ncbi線上工具比對nt資料庫
參考文章：
- 從 fastq 檔案中随機抽取 reads - 知乎 (zhihu.com)
- FASTQ 檔案格式轉換為 FASTA 格式 - 遺世獨立的愚公 - 部落格園 (cnblogs.com)

2020.12.30丨随機讀取reads使用ncbi線上工具比對nt資料庫

繼續閱讀

無需寫代碼的高顔值富集分析神器無需寫代碼的高顔值富集分析神器

生物資訊項目實戰

《全基因組測序WGS資料分析——2.FASTA和FASTQ》學習筆記FASTAFASTQ

生信學習筆記：生物資訊學測序分析基本流程入門筆記

生信學習筆記：用conda安裝bwa、samtools和tophat2以及問題解決

生信學習筆記：測序資料質控

《群體遺傳學》學習筆記群體中的基因和基因型頻率遺傳平衡定律影響遺傳平衡的因素

生物資訊學習——cufflinks一. 簡介二. 安裝三. Cufflinks的使用四. Cuffmerge的使用五. Cuffcompare的使用六. Cuffdiff的使用八 Cuffquant九 Cuffnorm

水稻重要品種與參考基因組存在廣泛差異

線粒體基因組常見縮寫與術語

生信學習筆記：fastp質控處理生成的report結果解讀fastp report

轉錄組分析資料準備資料的下載下傳

序列相似度定義

開篇叙事我為什麼會在這兒

mahout探索之旅---開篇

WEB程式員，界面美化是你心中永遠的痛嗎？