天天看點

Cell | TR-gnomAD:揭示遺傳多樣性中串聯重複的全新視角

作者:生物探索

引言

在人類基因組的研究中,串聯重複(Tandem Repeat, TR)的擴充是一個重要且複雜的領域。串聯重複是指基因組中連續重複的DNA序列,它們在進化和疾病形成中發揮着關鍵作用。盡管它們構成了我們基因組的約6%,但到目前為止,全球性的生物樣本庫(biobank-scale)對這類遺傳變異的參考圖譜仍然非常有限。基因組聚合資料庫(Genome Aggregation Database, gnomAD)雖然被廣泛認為是單核苷酸變異(Single-Nucleotide Variants, SNVs)和結構變異(Structural Variants, SVs)的黃金标準參考圖譜,但對于串聯重複擴充的研究卻相對缺乏。為了彌補這一空白,加州大學歐文分校(University of California, Irvine, UCI)的研究團隊發起了TR-gnomAD項目。這個項目建立了一個涵蓋338,963個人類全基因組測序(Whole-Genome Sequencing, WGS)樣本的串聯重複擴充的參考圖譜,特别關注包含大量非歐洲血統樣本(占39.5%)的多樣性。TR-gnomAD不僅提供了一個關于串聯重複單元數量頻率在不同人種間差異的重要視角,而且還揭示了特定串聯重複擴充在疾病群體中的潛在緻病性。這項工作的重要性在于其對疾病相關串聯重複的識别和解釋能力,為罕見病(rare diseases)診斷和治療提供了新的政策和工具。TR-gnomAD通過使用ExpansionHunter和GangSTR這兩種精确的串聯重複基因型分析工具,能夠在大規模樣本中高效地識别和分類這些遺傳标記。此外,該項目還開發了基于2-Wasserstein距離的串聯重複差異分數(Tandem Repeat Disparity Score, TRDS),這是一個數學工具,用于量化不同人群間串聯重複單元數量分布的差異。通過這一全新的參考圖譜,研究人員和臨床醫生現在可以更準确地評估個體中特定串聯重複的擴充與疾病之間的聯系,進而促進精準醫學(Precision Medicine)的發展。TR-gnomAD的成果不僅提供了一個寶貴的科研資源,也強調了在全球多樣性背景下研究人類基因組變異的重要性。(4月5日 Cell “A genome-wide spectrum of tandem repeat expansions in 338,963 humans”)

Cell | TR-gnomAD:揭示遺傳多樣性中串聯重複的全新視角

Highlights

大規模Biobank參考圖譜:該研究建立了一個包含338,963個全基因組測序樣本的串聯重複(tandem repeats, TR)擴充的參考圖譜。這是一個涵蓋多種祖先背景(其中39.5%為非歐洲樣本)的大規模資料集,為研究串聯重複擴充提供了寶貴的資源。多祖先背景的串聯重複參考地圖:該研究不僅提供了關于TR在不同人群中的分布資料,還能揭示特定祖先群體中TR擴充的疾病相關性。通過比較不同祖先群體間的TR單元數量頻率差異,研究揭示了特定的TR擴充與疾病間的關聯。區分良性與潛在病理性TR擴充:利用生物資訊學工具,TR-gnomAD能夠區分在人群中常見的可能良性的TR擴充和那些在疾病群體中更頻繁出現的潛在病理性TR擴充。這對于臨床上解釋TR擴充在遺傳病中的意義極為重要。高品質的TR分型技術:通過使用兩種準确的TR分型工具——ExpansionHunter和GangSTR——該研究提高了TR分型的覆寫率和準确性。這使得研究者能更好地分析TR的多樣性及其與疾病的關聯。

Cell | TR-gnomAD:揭示遺傳多樣性中串聯重複的全新視角

(Credit:Cell)

Strategies

該研究建構了一個名為TR-gnomAD的基因庫規模的串聯重複擴充(tandem repeat expansions, TRs)參考圖譜,涵蓋了338,963名人類基因組樣本。這些樣本代表了多樣的血統,其中39.5%來自非歐洲樣本。研究中使用了兩種準确且廣泛使用的串聯重複基因分型工具,ExpansionHunter和GangSTR,以提高串聯重複基因型的覆寫率。首先,通過ExpansionHunter和GangSTR對每個樣本中的串聯重複進行基因分型。這些工具能夠準确識别并計數串聯重複單元(TR units)。然後,使用TRTools中的MergeSTR和dumpSTR等工具對基因型資料進行整合和品質控制,以確定資料的可靠性。随後,研究團隊開發了一種基于2-Wasserstein distance的串聯重複差異評分(TR disparity score, TRDS),用于量化不同群體間串聯重複單元數頻率分布的差異。此評分幫助研究者探究特定血統中串聯重複擴充的流行病學特征。此外,TR-gnomAD還可以作為控制隊列,用于解釋已知的臨床病理性串聯重複。通過與疾病組中的串聯重複單元數進行比較,研究人員可以識别出潛在的病理性擴充。總體而言,TR-gnomAD提供了一個寶貴的資源,可用于研究和診斷與串聯重複擴充相關的遺傳疾病,特别是在多種血統中。這項資源的開放擷取性和高覆寫率使其成為解讀人類遺傳多樣性中串聯重複的重要工具。

Behind the Scenes

提高種群代表性作者強調了在未來研究中,将增加更多種群的全基因組測序資料(Whole-Genome Sequencing, WGS),尤其是那些在現有研究中代表性不足的種群。這表明TR-gnomAD項目緻力于提升其資料的多樣性和代表性,進而能更全面地覆寫人類基因組的遺傳變異。增加種群的代表性有助于更準确地了解和解釋跨種族的遺傳差異,特别是在疾病相關的遺傳研究中。

內建長讀測序資料此外,TR-gnomAD項目的下一階段計劃優先整合那些通過長讀測序(Long-Read Sequencing)新識别出的與疾病相關的串聯重複序列(Tandem Repeats, TRs)。長讀測序技術相比傳統的短讀測序(Short-Read Sequencing),能提供更長的讀段,進而大幅提高對大片段串聯重複序列的檢測準确性和分辨率。通過整合這些資料,TR-gnomAD能夠更有效地識别與疾病相關的TR擴張,進一步推動對遺傳疾病的了解和診斷。這一政策是為了填補現有資源在識别疾病相關TR擴張方面的空白,為未來的醫學研究和臨床應用提供支援。

使用TR-gnomAD作為對照組的潛在問題在使用TR-gnomAD資料庫作為遺傳疾病研究中的對照組時,為了確定研究結果的準确性和可靠性,需要格外注意病例-對照不比對和驗證偏見(ascertainment bias)。這些問題可能導緻研究結論的偏差,進而影響疾病的遺傳診斷和研究。

病例-對照不比對(Case-Control Mismatch)這一問題指的是在對照組和病例組的選擇上存在的不一緻性,如年齡、性别、種族和遺傳背景等方面的差異。這些差異可能會影響到串聯重複擴增(Tandem Repeat (TR) Expansions)的頻率和表型,進而導緻誤解或錯誤的關聯分析。

驗證偏見(Ascertainment Bias):驗證偏見通常出現在樣本選擇過程中,特别是當研究的樣本并非随機選擇時。例如,如果某種疾病在特定人群中更常見,而該人群在資料庫中的代表性不足,則可能導緻對這種疾病相關TR的誤解。

為了減少這些潛在問題的影響,研究人員應采取以下措施:確定對照組和病例組的比對:研究者應確定在遺傳背景、年齡、性别等方面,病例組與對照組盡可能一緻,以減少變異的非疾病相關因素的幹擾。增強樣本的多樣性和代表性:在建構和使用TR-gnomAD資料庫時,應增加不同人種和地區的樣本數量,尤其是那些在目前資料庫中代表性不足的群體,以提高研究的普适性和準确性。詳細記錄和分析潛在的偏見來源:在研究報告中詳細記錄所有可能的偏見來源和對研究結果的潛在影響,以便于其他研究者進行合理的解讀和應用。

TR-gnomAD的潛在局限與未來研究方向識别未知疾病風險的重複擴充的局限性TR-gnomAD雖然提供了大規模的串聯重複擴充(tandem repeat expansions, TRs)參考圖譜,但目前還未能有效識别與未知疾病風險相關的新的TR擴充。盡管資料庫覆寫了0.86百萬個TRs,這些資料僅代表了人類基因組中總TRs的一部分,且多數來自已知的、可能與疾病無關的TRs。這表明盡管TR-gnomAD的資料基礎堅實,但其在發現新的與疾病相關的TR擴充方面的能力還有待提高。

确定已知緻病TRs的風險門檻值目前版本的TR-gnomAD在定義已知緻病TRs(pathogenic TRs)的風險門檻值方面存在局限。雖然通過比較疾病組與TR-gnomAD中的比對祖先背景樣本的TR機關數,TR-gnomAD可以作為控制隊列用于解釋已知的緻病TRs,但是這種方法需要更多的臨床資料來建立更精确的風險評估标準。這些風險門檻值對于臨床診斷和疾病預防至關重要。

未來的研究方向為了解決這些問題,TR-gnomAD計劃在未來的研究中分析更多的全基因組測序(whole-genome sequencing, WGS)資料,尤其是來自未充分代表的祖先背景的資料。此外,TR-gnomAD團隊也計劃優先鑒定那些通過長讀測序(long-read sequencing)新識别為與疾病相關的TRs。通過結合受TRs影響的潛在患者隊列進行更深入的分析,期望能夠更全面地了解TRs與疾病的關系,進而提高TR-gnomAD資料庫的臨床應用價值

原文連結

Cui Y, Ye W, Li JS, Li JJ, Vilain E, Sallam T, Li W. A genome-wide spectrum of tandem repeat expansions in 338,963 humans. Cell. 2024 Mar 28:S0092-8674(24)00252-6. Epub ahead of print. PMID: 38582080.

DOI:https://doi.org/10.1016/j.cell.2024.03.004

責編|探索君

排版|探索君

轉載請注明來源于【生物探索】

End