天天看點

為什麼宏基因組資料分析比較難?

為什麼宏基因組資料分析比較難?

生物資料分析包括很多種類,比如人基因組,植物,動物,微生物,還有RNA,單細胞RNA等等,其中宏基因組資料分析是比較難的部分,為什麼呢?這裡總結了以下10點原因。

樣品采集

由于微生物在地球上廣泛的覆寫,是以,宏基因組樣品來源非常廣泛,從南北極冰川,到海底淤泥,從喜馬拉雅山山脈,到亞馬遜叢林,覆寫高山,大河,冰川,土壤,海洋,大氣,火山,牛胃,包括人體各個部分都可以進行宏基因組研究,采集到合适的樣品,才能開展創新性的研究。

樣品提取

由于微生物宏基因組樣品種類繁多,可以來自人腸道,山川,河流,土壤,糞便等等樣品。是以,很難有統一的樣品提取流程。往往無法提取到高品質的DNA而影響後續分析結果。另外,由于樣品中可能包括多種物種,例如革蘭氏陽性菌和革蘭氏陰性菌,由于二者細胞壁的差别,不同的提取方法都可能造成差異。另外,一些樣品中可能包含宿主污染,去除宿主污染也是一大難題。對于宏轉錄樣品,由于原核生物與真核生物 RNA結構不同,也不能采用同樣的測序。樣品提取一直是宏基因組分析中一項重大難題,需要結合前人經驗,以及具體樣品,不停的摸索經驗。

建庫方案

選擇不同的建庫方案,會對結果造成影響。二代測序需要使用PCR擴增,會帶來PCR的偏向性,比如高GC區域無法很好的擴增出來,測序不到,影響後續分析。宏基因組樣品由于包含多種GC含量微生物,不同的建庫方案會帶來差異。

測序成本

盡管随着測序技術的發展,測序價格越來越低。目前測序成本已經下降很多。人全基因組價格已經突破1000美金。但是因為宏基因組測序量資料量大,比如二代測序,每個樣本要達到6G以上資料,是以,進行大規模研究,成本依然很高。除了測序費用,後續資料存儲,傳輸,計算等都是不小的費用。

測序技術條件限制

雖然現在的測序技術實作了高通量,可以一次測序環境樣品中全部序列。但由于測序讀長短,存在測序錯誤,特異性差,對于物種分類鑒定,基因組拼接都會産生很大的影響。例如,無法完整拼接出樣品中包含的全部,完整微生物基因組序列。

資料分析

目前技術條件下,分析單個細菌或者真菌也具有很大的難度。而宏基因組包含未知種類和數目的微生物,并且由于宏基因組測序資料量較大,分析難度也水漲船高。宏基因組資料分析需要微生物學,計算機,統計學等基礎。宏基因組分析方法,軟體,算法非常多,資料處理過程複雜,分析難度較大。并且很多時候沒有标準作為參考,隻能摸石頭過河。

計算資源

由于宏基因組樣品測序量較大,二代測序單個樣品一般都需要6G資料以上,有些更多。給資料的存儲,傳輸,計算,分享帶來很大困難。物種鑒定,基因組拼接都需要非常大的計算資源,例如多核心CPU(32線程以上),較大的記憶體(256G記憶體以上)。計算資源目前依然是宏基因組分析中的瓶頸,很多實驗室缺乏足夠的計算資源來處理宏基因組資料。另外,由于計算時間較長,不友善反複調整選項參數,得到最優解。

資料庫完整性

宏基因組物種鑒定完全依賴已知資料庫資訊。資料庫的完整性直接影響到最終分析結果。目前技術條件下,隻測序了一小部分微生物。是以,宏基因組物種鑒定中,還會有大量物種無法鑒定,即使鑒定出沒有達到種水準。另外,資料庫中結果的準确性也直接影響到鑒定結果。之前一些物種分類錯誤,這樣的問題得不到修正,會逐漸累積下去。

相似物種的幹擾

宏基因組樣本是一個微生物的混合群落,裡面的物種會有來自同一種或者同一屬及以上水準的物種,這些物種基因組序列具有相似性,比如基因組同源性達到70%。這會給物種鑒定時測序資料配置設定,基因組組裝測序資料連接配接造成幹擾。例如測序資料配置設定錯誤,造成豐度偏差,基因組拼接形成嵌合體序列等,影響分析結果,造成假陽性。

結果可重複性

由于以上宏基因組分析中諸多的影響條件,從樣品采集,儲存,提取,建庫,測序,不同的資料量,選用不同軟體,算法,資料庫等,都會産生幹擾,是以,同樣的樣品,結果不容易重複。