為什麼宏基因組資料分析比較難？

生物資料分析包括很多種類，比如人基因組，植物，動物，微生物，還有RNA，單細胞RNA等等，其中宏基因組資料分析是比較難的部分，為什麼呢？這裡總結了以下10點原因。

樣品采集

由于微生物在地球上廣泛的覆寫，是以，宏基因組樣品來源非常廣泛，從南北極冰川，到海底淤泥，從喜馬拉雅山山脈，到亞馬遜叢林，覆寫高山，大河，冰川，土壤，海洋，大氣，火山，牛胃，包括人體各個部分都可以進行宏基因組研究，采集到合适的樣品，才能開展創新性的研究。

樣品提取

由于微生物宏基因組樣品種類繁多，可以來自人腸道，山川，河流，土壤，糞便等等樣品。是以，很難有統一的樣品提取流程。往往無法提取到高品質的DNA而影響後續分析結果。另外，由于樣品中可能包括多種物種，例如革蘭氏陽性菌和革蘭氏陰性菌，由于二者細胞壁的差别，不同的提取方法都可能造成差異。另外，一些樣品中可能包含宿主污染，去除宿主污染也是一大難題。對于宏轉錄樣品，由于原核生物與真核生物 RNA結構不同，也不能采用同樣的測序。樣品提取一直是宏基因組分析中一項重大難題，需要結合前人經驗，以及具體樣品，不停的摸索經驗。

建庫方案

選擇不同的建庫方案，會對結果造成影響。二代測序需要使用PCR擴增，會帶來PCR的偏向性，比如高GC區域無法很好的擴增出來，測序不到，影響後續分析。宏基因組樣品由于包含多種GC含量微生物，不同的建庫方案會帶來差異。

測序成本

盡管随着測序技術的發展，測序價格越來越低。目前測序成本已經下降很多。人全基因組價格已經突破1000美金。但是因為宏基因組測序量資料量大，比如二代測序，每個樣本要達到6G以上資料，是以，進行大規模研究，成本依然很高。除了測序費用，後續資料存儲，傳輸，計算等都是不小的費用。

測序技術條件限制

雖然現在的測序技術實作了高通量，可以一次測序環境樣品中全部序列。但由于測序讀長短，存在測序錯誤，特異性差，對于物種分類鑒定，基因組拼接都會産生很大的影響。例如，無法完整拼接出樣品中包含的全部，完整微生物基因組序列。

資料分析

目前技術條件下，分析單個細菌或者真菌也具有很大的難度。而宏基因組包含未知種類和數目的微生物，并且由于宏基因組測序資料量較大，分析難度也水漲船高。宏基因組資料分析需要微生物學，計算機，統計學等基礎。宏基因組分析方法，軟體，算法非常多，資料處理過程複雜，分析難度較大。并且很多時候沒有标準作為參考，隻能摸石頭過河。

計算資源

由于宏基因組樣品測序量較大，二代測序單個樣品一般都需要6G資料以上，有些更多。給資料的存儲，傳輸，計算，分享帶來很大困難。物種鑒定，基因組拼接都需要非常大的計算資源，例如多核心CPU（32線程以上），較大的記憶體（256G記憶體以上）。計算資源目前依然是宏基因組分析中的瓶頸，很多實驗室缺乏足夠的計算資源來處理宏基因組資料。另外，由于計算時間較長，不友善反複調整選項參數，得到最優解。

資料庫完整性

宏基因組物種鑒定完全依賴已知資料庫資訊。資料庫的完整性直接影響到最終分析結果。目前技術條件下，隻測序了一小部分微生物。是以，宏基因組物種鑒定中，還會有大量物種無法鑒定，即使鑒定出沒有達到種水準。另外，資料庫中結果的準确性也直接影響到鑒定結果。之前一些物種分類錯誤，這樣的問題得不到修正，會逐漸累積下去。

相似物種的幹擾

宏基因組樣本是一個微生物的混合群落，裡面的物種會有來自同一種或者同一屬及以上水準的物種，這些物種基因組序列具有相似性，比如基因組同源性達到70%。這會給物種鑒定時測序資料配置設定，基因組組裝測序資料連接配接造成幹擾。例如測序資料配置設定錯誤，造成豐度偏差，基因組拼接形成嵌合體序列等，影響分析結果，造成假陽性。

結果可重複性

由于以上宏基因組分析中諸多的影響條件，從樣品采集，儲存，提取，建庫，測序，不同的資料量，選用不同軟體，算法，資料庫等，都會産生幹擾，是以，同樣的樣品，結果不容易重複。