天天看點

宏基因組資料分析專題之展望與資料質控

宏基因組資料分析專題之展望與資料質控

導讀

宏基因組測序(Metagenomics Sequencing)是以特定環境下的微生物群落作為研究對象,對該樣品中所包含的全部微生物總的DNA進行測序

進而使人類可以研究微生物種群結構、物種分類,系統進化,基因功能活性、微生物之間以及微生物與環境之間的互作關系。是以,一定程度上來說,宏基因組測序擺脫了微生物分離純培養的束縛,為環境微生物群落的研究提供了有效工具。然而,宏基因組測序資料的分析仍然存在許多問題,如組裝和參考基因組等。目前,絕大多數的科研學者在宏基因組資料分析這一闆塊都是依賴于測序公司來完成。對于測序公司而言,他們隻負責流程化的資料分析,并未考慮每一個實驗的具體設計和潛在的生物學意義,導緻許多科研實驗結果不理想。是以,科研學者自己掌握宏基因組資料分析會讓你的科研更上一層樓。我們深度基因團隊基于前期的技術攻關,目前基本上已經掌握了宏基因組測序資料的整套分析流程。接下來,我将在宏基因組資料分析專題中為大家逐漸解密宏基因組資料分析。

背景知識

目前,微生物組的研究手段主要是通過16S(16S rRNA Gene Amplicon Sequencing)和宏基因組測序(Metagenomics sequencing)這兩種測序方法。這種測序技術的主要差別在于測序原理的不同:16S測序的技術原理主要是基于16S rDNA基因存在于所有細菌的基因組中,具有高度的保守性。該序列包含9個高變區和10個保守區,通過對某一段高變區序列進行PCR擴增後進行測序,得到對應的序列.宏基因組測序 則是将樣品内的微生物基因組DNA随機打斷成小的片段,然後在片段兩端加入通用引物進行PCR擴增測序,再通過組裝的方式,将小片段拼接成較長的序列。對于測序結果的比較而言,16S測序得到的序列很多注釋不到種水準,而宏基因組測序則能鑒定微生物到種水準甚至菌株水準。是以,在物種鑒定過程中,宏基因組測序具有較高的優勢。當然,我們也建議科研學者可以結合16S和宏基因組測序兩種測序手段,可以更高效、更準确地研究微生物群落組成結構、多樣性以及功能情況。

宏基因組測序資料分析流程

宏基因組資料分析專題之展望與資料質控

此處以MetaWRAP的分析流程為示例。 子產品(紅色), 宏基因組資料(綠色), 中間狀态(橙色)和最終的分箱資料(黃色), 資料報告和圖檔(藍色). 後期,我将以此資料分析流程圖為架構為大家講解宏基因組資料分析。圖檔來自Uritskiy et.al 2018

質控軟體安裝

所需軟體:fastqc,軟體官網:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/。大家需要結合你的電腦作業系統或Cluster來選擇你需要下載下傳的版本。這裡簡單介紹一下在Linux伺服器中的安裝:linux指令:

wget -c http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.8.zip #下載下傳fastqc_v0.11.8.zip

unzip fastqc_v0.11.8.zip #解壓

cd FastQC #進入該目錄

fastqc -h #檢視幫助文檔

chmod 754 fastqc #增加可執行權限

echo ‘export PATH=/home/xxx/FastQC:$PATH’ >> ~/.bashrc #任何路徑下可直接調用

FastQC 正常參數選擇

-o --outdir 生成的報告檔案的路徑

–extract 讓程式不打包(預設會打包成一個壓縮檔案)

–noextract 結果檔案壓縮

-t --threads 程式運作的線程數(與檔案數量一緻就行)

-q --quiet 安靜運作模式(不選這個選項的時候,程式會實時報告運作的狀況)

-f --format 輸入檔案格式.支援bam,sam,fastq檔案格式

-c --contaminants 制定污染序列。檔案格式 Name[Tab]Sequence

-a --adapters 指定接頭序列。檔案格式 Name[Tab]Sequence

軟體運作

fastqc -o./output/ -t 2 ./input/data/A.fq #單個fq檔案的質控

ls $input/data/*.fq | while read id; #多個fq檔案的循環質控

do

$fastqc_dir/fastqc -t 2 $id -o $output;

done

後續

關于資料質控的結果的解析,我将會在下一篇文章中為大家一一講解,敬請期待。

連結:

[1]參考連結: https://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/1 Introduction/1.1 What is FastQC.html

[2]參考連結:https://microbiomejournal.biomedcentral.com/articles/10.1186/s40168-018-0541-1

深度基因小夥伴溫馨提示:

  • 如果我們對文章了解有偏差,非常歡迎大家向我們回報,我們會認真閱讀建議并修改,另外有意願加入我們的小團隊的老師和同學可發送郵件至我們的郵箱:[email protected] 祝大家科研順利,生活開心!
  • 想要了解更多内容請通路我們的深度基因網站:http://deepgener.wordpress.com/

    點選檢視上一篇文章

繼續閱讀