天天看點

泛基因組分析方案

目錄

  • 一、研究内容
    • 1.比較基因組分析
    • 2. 核心基因/非必需基因分析
      • 泛基因組大小模拟
      • 核心基因/非必需基因功能富集
      • 核心基因/非必需基因保守性分析
      • 核心基因/非必需基因與重複序列相關性分析
      • 核心基因/非必需基因表達水準分析
    • 3.結構變異分析
      • SVs特征分析
      • 核心/非必需SVs累計分析
      • 圖形結構基因組建構
      • SVs對基因結構的影響
      • SVs對基因表達的影響
  • 二、技術政策
    • 樣本選擇
    • 測序政策

備注:本文主要來源于知乎《全新的泛基因組解決方案》。關于大豆泛基因組文章解讀,請看往期記錄《大豆(Soybean, Glycine max)泛基因組2020Cell》。

泛基因組産品采用從頭組裝的政策進行泛基因組建構,分析内容包括比較基因組分析、核心基因和非必需基因分析、結構變異(SVs)分析和圖形結構基因組的建構。具體内容如下:

泛基因組分析方案

泛基因組包含多個材料的基因組資料,非常适合進行材料間的比較基因組分析,挖掘群體/個體材料的特有基因,進而在全基因組水準上了解不同材料間的共性與特性,進而了解其基因組結構、基因功能,探究特有基因與特殊生物學性狀的關系,推斷物種進化地位及适應性機制。

例如,大豆泛基因組研究[1]中,研究者通過WGD(Whole genome duplication,全基因組複制)分析,發現WGD區域包含較高比例的核心基因和次核心基因,而非WGD區域包含較高比例的非必需基因和特有基因。比較WGD和non-WGD之間的核苷酸多樣性,發現WGD區域基因核苷酸多樣性顯著低于非WGD區域。同時,在非WGD區域發現了更多的SVs,且與非WGD區域相比,WGD區域擁有較少特有SVs。研究結果表明基因組複制可以作為一種重要的遺傳力來影響SVs的進化。

泛基因組分析方案
圖1 大豆WGD與非WGD區域之間的基因和結構變異特征的比較(圖檔引自文獻[1]),A:WGD與非WGD區域之間的基因密度比較。B:WGD和非WGD區域之間重複DNA比例的比較。C:WGD和非WGD區域之間核苷酸多樣性的比較。D:WGD和非WGD區域中的基因組成情況。E:WGD和非WGD區域中的結構變化組成情況。F:WGD和非WGD區域之間PAV驅動的單核苷酸突變率比較。

泛基因組中的基因分為核心基因和非必需基因,不同類型基因在特征和功能上具有明顯差異,通過對不同類型基因集的比較,可以進一步揭示物種的基因組變化和适應性機制。

通過泛基因集的大小模拟(即泛基因和核心基因累計分析),可以預測該物種泛基集的理論大小、挖掘個體特有基因、了解個體基因組成、明确物種核心基因和非必需基因的占比等。

例如,大豆泛基因組研究[1]中,研究者對核心基因和非必需基因數目進行模拟,發現總基因随着新基因組的加入而增加,并在n=25時接近平緩,表明這27份大豆材料非常具有代表性,已包含絕大多數的大豆基因資訊。此外,短柄草[2]和番茄[3]等泛基因組研究也做了類似的分析。

泛基因組分析方案
圖2 大豆核心基因和非必需基因分析 A:泛基因組和核心基因組中基因家族數目随大豆基因組數目增加的變化情況。B:泛基因組和個體基因組的基因家族組成。(圖檔引自文獻[1])

通過功能富集分析,可以直覺了解不同類型基因集的功能,有助于挖掘影響特殊生物學性狀形成的特有基因資源。

例如,大豆泛基因組研究[1]中,Pfam富集分析和GO富集分析顯示,核心基因在與生長、免疫、生殖、細胞發生等相關的生物學過程中富集,而非必需和特有基因在生物和非生物脅迫響應過程中富集。KEGG通路分析表明,核心基因富含與基礎代謝和次生代謝産物生物合成有關的途徑,非必需基因在特定代謝相關的途徑富集。

此外,短柄草[2]、番茄[3]、甘藍[4]等泛基因組研究均有類似發現。

泛基因組分析方案
圖3 大豆核心基因和非必需基因功能富集分析A:核心和非必需基因的Pfam富集。B:核心和非必需基因的GO分析。C:核心和非必需基因的KEGG分析。(圖檔引自文獻[1])

對不同類型基因集進行保守性分析,有助于挖掘适應性進化或馴化中發揮關鍵作用的基因。

例如,大豆泛基因組研究[1]中,對不同類型的基因進行保守性比較,結果表明含有InterPro結構域的核心基因和次核心基因遠遠高于非必需基因和特有基因,非必需基因的核苷酸多樣性(π)和dN / dS (非同義替換率與同義替換率的的比值)均高于核心基因,這些結果表明核心基因比非必需基因在功能上更保守。短柄草泛基因組研究[2]也有類似的發現。

泛基因組分析方案
圖4 大豆核心基因和非必需基因保守性比較左圖:核心基因和非必需基因中具有InterPro結構域的基因比例。中間圖及右圖:核心基因和非必需基因的核苷酸多樣性(π)和dN / dS 比較。(圖檔引自文獻[1])

研究表明,非必需基因更可能在重複序列區域富集。對不同類型基因集所在的重複區域進行統計。

例如,短柄草泛基因組研究[2]中,研究者發現染色體上非必需基因與核心基因的比率與種内TE活性高度相關,在染色體的着絲粒周圍區域,非必需基因與核心基因的比率更高。甘藍泛基因組研究[4]中也有類似的發現,與核心基因相比,非必需基因周圍具有較高TE密度。

泛基因組分析方案
圖5 核心基因和非必需基因與重複序列相關性左圖:短柄草染色體的着絲粒周圍區域,核心基因與非必需基因的分布情況。右圖:甘藍核心和非必需基因TE含量比較。(圖檔引自文獻[2,4])

核心基因與非必需基因功能不同,表達量也有差異。

例如,短柄草泛基因組研究[2]中,研究者發現與非必需基因相比,核心基因通常有更高表達水準,并且在組織中更廣泛地表達。番茄泛基因組研究[3]也做有類似的發現。

泛基因組分析方案
圖6 短柄草核心基因和非必需基因表達比較 左圖:核心基因與Shell基因的表達水準比較。右圖:核心基因在與Shell基因的在多種組織中的表達情況。(圖檔引自文獻[2])

相比于原核生物基因組主要由基因序列組成,真核生物基因組中有超過50%的基因組可能是基因間的,并且基因序列本身還包含内含子。是以,真核生物泛基因組除了要關注基因外,也應該關注序列的變異。根據泛基因組進行結構變異分析,可以深入挖掘重要性狀的調控基因,解析表型多樣性形成的遺傳基礎。

基于基因組序列比對進行基因組SVs的檢測,可以對SVs特征進行分析,如對SVs類型、長度分布、基因組分布、重複含量進行比較等。番茄結構變異研究[5]中,研究者建構了最全面的pan-SV基因組,并對SVs的特征進行詳細分析,結果表明大多數SVs相對較小,SVs通常由轉座子和相關重複序列組成或産生。大豆泛基因組研究[1]也有類似内容。

泛基因組分析方案
圖7 SVs的特征分布左圖:番茄不同大小SVs的檢測頻率分布圖及不同類型SVs的長度分布圖。右圖:番茄不同類型SVs的重複含量分布。(圖檔引自文獻[5])

将所有基因組中整合得到的非備援SVs,同樣基于核心基因和非必須基因類似的政策進行核心和非必需SVs劃分和比較。通過核心和非必需SVs累計曲線,可以預測該物種泛基組的理論大小、挖掘個體特有結構變異。

例如,大豆泛基因組研究[1]中,研究者根據SVs的等位基因頻率,将SVs分為4類:核心SVs、次核心SVs、非必需SVs或特有SVs。與核心基因和非必需基因的累計分布模式相似,非備援SVs集随着樣本的加入而增長,并且趨于平緩。同時,核心SVs集逐漸減少,最終有130個SVs為所有樣本共有。番茄結構變異研究[5]也有類似的SVs累計分布趨勢的發現。

泛基因組分析方案
圖8 核心和非必需SVs累計分析 左圖:大豆核心和非必需SVs累計分析。右圖:番茄核心和非必需SVs累計分析。(圖檔引自文獻[1,5])

在基因組從頭組裝的基礎上,把該物種的所有遺傳變異的資訊都添加到參考基因組中,表示為含有替代路徑的圖形結構,進而進行圖形結構泛基因建構,該泛基因組極大的涵蓋了個體間的差異資訊,為物種研究提供更全面的遺傳資訊。例如,大豆泛基因組研究[1]首次采用了圖形結構的泛基因組建構方法,打破了傳統線性基因組的存儲形式,展示了物種更全面的遺傳資訊,為後續基因組學的其他研究奠定良好的基礎。

泛基因組分析方案
圖9 圖形結構基因組建構(圖檔引自文獻[6])

通過泛基因組序列及基因結構分析,不僅可以檢測到先前報道的等位基因,而且可以發現新的基因結構變異,包括基因融合。

例如,大豆泛基因組研究[1]發現開花基因E3 基因結構變異導緻其自身移碼甚至與其他基因融合,進而影響大豆的開花。

泛基因組分析方案
圖10 E3 在不同大豆材料中的結構變異 A:E3 在基因組中的實體位置。B:不同種質中E3的單倍型。C:13.3 kb的缺失導緻單倍型E3-tr 材料中SoyZH13_19G210500基因丢失和E3 (SoyZH13_19G210400)與其鄰近基因SoyZH13_19G210600的基因融合。(圖檔引自文獻[1])

通過對SVs所在的區域進行分類展示,并結合轉錄組資料對基因表達進行分析,有助于挖掘影響基因表達的關鍵SVs。

例如,番茄結構變異研究[5]通過檢測有和無SVs時相關基因的差異表達程度,來檢測受SVs影響的表達基因。結果發現在21,156個SV-基因對中發現數百個顯著的表達改變。研究表明結構變異通過改變基因劑量效應和表達水準,進而影響果實的風味,大小和産量。

泛基因組分析方案
圖11 番茄SVs對基因表達的影響 左圖:番茄材料中不同基因組特征SVs的百分比。右圖:受不同類型SVs影響的差異表達基因的數量情況。(圖檔引自文獻[5])

為全面捕獲物種所有的基因組資訊,建議基于經驗或群體結構資訊選擇最具代表性的個體進行泛基因組建構,推薦樣本個數≥5個,具體可根據物種基因組大小、複雜度及群體複雜度進行調整。

大豆泛基因組研究[1]中,研究者通過2,898份大豆的重測序和進化樹建構,選擇了26份在系統發育關系和地理分布方面最具代表性的材料進行泛基因組建構。大麥泛基因組研究[7] 中,研究者通過19,778份大麥種質的基因分型資料的PCA(包含不同地理來源、行類型、生長習性等材料)選擇了20份大麥來代表其遺傳多樣性。

泛基因組分析方案
圖12 20份代表性大麥的材料選擇(圖檔引自文獻[7])

推薦采用PacBio HiFi測序,讀長長且準确,測序深度≥15X/樣本。

HiFi組裝作為組裝界的新秀,具有組裝周期短,準确性高,連續性好,簡單基因組和複雜基因組通吃的特點,對于泛基因組這樣的大樣本量基因組組裝尤其合适,大幅縮短組裝周期,提高組裝準确性和連續性。

缺點是貴。目前真正用HiFi來做泛基因組的還是很少,但二代和三代都有,二代組裝相對來說比較碎,可能研究不了太深的問題。

泛基因組分析方案
圖13 HiFi測序深度與組裝連續性的關系(圖檔引自文獻[8])

參考文獻:

1. Liu Yucheng, Du Huilong, Li Pengcheng et al. Pan-Genome of Wild and Cultivated Soybeans[J]. Cell, 2020.

2. Gordon Sean P, Contreras-Moreira Bruno, Woods Daniel P et al. Extensive Gene Content Variation in the Brachypodium distachyon Pan-Genome Correlates with Population Structure[J]. Nature Communications, 2017.

3. Gao Lei, Gonda Itay, Sun Honghe et al. The Tomato Pan-Genome Uncovers New Genes and a Rare Allele Regulating Fruit Flavor[J]. Nature Genetics, 2019.

4. Golicz Agnieszka A, Bayer Philipp E, Barker Guy C et al. The Pangenome of an Agronomically Important Crop Plant Brassica oleracea[J]. Nature Communications, 2016.

5. Alonge Michael, Wang Xingang, Benoit Matthias et al. Major Impacts of Widespread Structural Variation on Gene Expression and Crop Improvement in Tomato[J]. Cell, 2020.