2021.3.20丨Cutadapt資料統計腳本

2023-08-03 14:41:44

摘要
- 在使用sRNAnalyzer分析miRNA時，會調用到Cutadapt進行去接口。該過程的結果也将通過報告被記錄下來。然而，報告作為單個樣品的結果統計，沒有對所有樣品進行彙總，不友善客戶統計檢視。是以，我寫了一個簡單的統計腳本，用于抓取Cutadapt結果報告裡的基本資訊。
- 需要擷取的基本資訊
  - 2021.3.20丨Cutadapt資料統計腳本
材料與方法
- python版本：Python 3.8.5

使用代碼

import re
import os
newfile_name = 'Cutadapt_stat.txt' #生成輸出檔案夾名
newfile = open(newfile_name,'w') #打開輸出檔案夾，準備錄入資訊
for root,dirs,files in os.walk(r"./"): #讀取目前路徑所有檔案
for file in files:
if ".trimmed_Cutadapt.report" in file:
#篩選檔案名并且擷取檔案路徑
#print(os.path.join(root,file))檢視路徑名是否正确
cutadapt_file = open(os.path.join(root,file),'r')#打開檔案
genome_line = cutadapt_file.readlines() #按行讀取檔案，我們需要的資料在8-11行
total_reads = genome_line[7].split(" ") #python第一行為genome_line[0],同時使用.split對注釋和數字進行分割，下同
total_reads = total_reads[-1].replace('\n','') #過濾數值後的換行符
total_adapters = genome_line[8].split(" ")
too_short = genome_line[9].split(" ")
Pass_filters = genome_line[10].split(" ")
file_name = file.replace('.trimmed_Cutadapt.report','')
result_stat = file_name+"\t"+total_reads+"\t"+total_adapters[-2]+"\t"+too_short[-2]+"\t"+Pass_filters[-2]+"\n"
#print(result_stat) ，列印樣品統計結果
newfile.write(result_stat)
newfile.close()
fastp_file.close()

結果展示
- 統計結果
- 2021.3.20丨Cutadapt資料統計腳本
- 然後直接粘貼報告裡面
- 2021.3.20丨Cutadapt資料統計腳本
- 如果樣品少的話一行一行複制粘貼也可以，不過寫一個腳本才算是一勞永逸。另外，這個統計結果沒有加title是因為結題報告裡有表格和title，隻需要把各樣品結果統計粘貼上去即可。當然，如果需要的話可以自行添加。

2021.3.20丨Cutadapt資料統計腳本

繼續閱讀

生物資訊項目實戰

2020.12.30丨随機讀取reads使用ncbi線上工具比對nt資料庫

《全基因組測序WGS資料分析——2.FASTA和FASTQ》學習筆記FASTAFASTQ

生信學習筆記：生物資訊學測序分析基本流程入門筆記

生信學習筆記：用conda安裝bwa、samtools和tophat2以及問題解決

生信學習筆記：測序資料質控

《群體遺傳學》學習筆記群體中的基因和基因型頻率遺傳平衡定律影響遺傳平衡的因素

生物資訊學習——cufflinks一. 簡介二. 安裝三. Cufflinks的使用四. Cuffmerge的使用五. Cuffcompare的使用六. Cuffdiff的使用八 Cuffquant九 Cuffnorm

水稻重要品種與參考基因組存在廣泛差異

線粒體基因組常見縮寫與術語

生信學習筆記：fastp質控處理生成的report結果解讀fastp report

轉錄組分析資料準備資料的下載下傳

序列相似度定義

開篇叙事我為什麼會在這兒

mahout探索之旅---開篇

WEB程式員，界面美化是你心中永遠的痛嗎？