身處這樣一個網際網路時代,應當感恩技術帶來的便利,從在一個地方不遠遊就隻能是井底之蛙,到今天網際網路讓我們不出門知天下事,當然,假消息也有。雖然現在許多事和技能仍然需要項目實踐,但是不得不說,知識已經不再是一種稀缺的資源,需要時間訓練的技能才是。我們應該充分利用好這個時代提供給我們的便利,努力學習和思考。
雖然川普四處設限,但是地球村依然變得越來越“小”,就拿我們生命科學領域來說,ncbi資料庫,讓我們每個人都有機會接觸到測序原始資料,可以進行分析再現和學習。手上雖然沒有“便宜”的納米孔測序儀,但是借助科學研究者的資料,依然可以對其一探究竟。這裡,我在牛津納米孔公司官網看到了幾篇最新發表的采用其技術濃度測序16S的文獻,下載下傳了原始資料,學習一下測16S的可行性和資料分析方法。
令我大跌眼鏡的原始資料
随便拿了幾個資料,fastqc來看一下,好家夥,品質确實有點低,當然,這應該是R9.4,9.5或者更早版本的試劑,相信以後會更好。看來直接測了分析高可變區的16S是不怎麼可行的,當然,如果有特殊方法來解決是可以的,比如Pacbio的循環測序和把一個拷貝多份連在一條上,也實作測多次的效果,當然,依然無法消除那種系統錯誤,比如技術本身缺陷,插入或缺失(後面的NanoApli-seq就是後面一種方法)。還不得不吐槽一下這家公司,隻對有測序儀的使用者開放社群論壇,這樣就讓技術隻局限在了一個小圈子,封閉并不利于該公司的發展。

幾篇文章的略讀
- 1.Cuscó A, Catozzi C, Viñes J et al. Microbiota profiling with long amplicons using Nanopore sequencing: full-length 16S rRNA gene and whole rrn operon 這篇文章采用了比較測16S和rrn序列(16S rRNA–ITS–23S rRNA; 4,500 bp),結果使用EPI2ME的話16S序列中隻有68%的序列能夠比對到正确的分類。我學得這個方法基本上沒有可用性呢。 2.E. Curren, T. Yoshida, V.S. Kuwahara et al. Rapid profiling of tropical marine cyanobacterial communities
- 這篇文章采用9.4版本的試劑,1D的建庫方式,得到的平均Q值為11.7,算了下準确度為91.17%,大概也就這麼高了。這篇文章是采用qiime流程進行後續處理的。這篇文章是測熱帶海洋藍藻的,對于細菌菌落可能不大能說明問題。
- 3.Rapid bacterial identification by direct PCR amplification of 16S rRNA genes using the MinION nanopore sequencer
- 這篇文章的流程如下圖所示:
- 使用 GSTK software suite進行資料分析的(比對和注釋序列)。
- 4.NanoAmpli-Seq: a work ow for amplicon sequencing for mixed microbial communities on the nanopore sequencing platform
- 這篇是我前面提到的采用串聯線性片段進行測序的文章,看它的文庫制備有些複雜,原理圖放在這:
最後一篇文章分析過程學習
面這張圖是關于資料分析的過程圖解,主要包括INC-Seq,ChaoSeq, nanoClust三個過程,後兩個分别對應了兩個腳本檔案chopSEQ.py和nanoCLUST.py。第一個應該是整個過程的預覽。作者公開了兩個資料,能下載下傳的隻有一個,ERR2241540.sra,大小是10M,fasq-dump解壓完隻有4.6M,我感到很意外,壓縮壓大了?查了下,還真有這種情況出現。
看到讨論裡的幾句話,瞬間覺得納米孔不适合做這種16S群落分析,特别是物種組成複雜時。
1.由于序列品質不夠,沒辦法使用vsearch等軟體進行聚類,隻能通過分區序列聚類來基本滿足物種分類要求;
2.150X, 也就是50個長reads(3X),可以實作共識序列精度達到99%+。但是精度仍然低于illumina或者Pacbio的測序準确度(Pacbio不是系統錯誤,是随機錯誤)。而且,即使增加測序深度,精度也不會提高,這說明至少在現階段,這的确是個系統錯誤;
3.産量低,能basecalling的僅僅是原始資料的一小部分,如7%–9%的1D方資料。如果使用1D的建庫方式或許能解決這個問題,但是精度隻有94%,就不适合進行上述的聚類了;
4.一個聚類會産生多個共識序列,可能會導緻物種分類錯誤。
如果有可能的話,後面學習一下它的分析過程指令行,現在卡在了軟體安裝上,晚會續上。