天天看點

人類生命“天書”終于完整!将改變多種疾病治療方式

◎ 采寫:實習記者 張佳欣 策劃:馮衛東 王俊鳴

國際科學團隊端粒到端粒聯盟(T2T)宣告第一個完整的、無間隙的人類基因組序列問世,這本人類生命“天書”終于完整了。其首次揭示了高度相同的節段重複基因組區域及其在人類基因組中的變異,這是對标準人類參考基因組,即2013年釋出的參考基因組序列(GRCh38)的重大更新。

人類的基因組常常被比作生命的“天書”——A、T、G、C四種堿基構成了DNA,卻配對出超過60億種可能,足見其紛繁複雜。

人類生命“天書”終于完整!将改變多種疾病治療方式

研究人員正在檢查DNA測序器的輸出結果。圖源:美聯社

在由中、美、英、法、德、日6國科學家共同參與研究的人類基因組序列草圖正式釋出20多年後,國際科學團隊端粒到端粒聯盟(T2T)宣告第一個完整的、無間隙的人類基因組序列問世,這本人類生命“天書”終于完整了。它首次揭示了高度相同的節段重複基因組區域及其在人類基因組中的變異,這是對标準人類參考基因組,即2013年釋出的參考基因組序列(GRCh38)的重大更新。

人類生命“天書”終于完整!将改變多種疾病治療方式

圖源:《科學》雜志官網

4月1日,《科學》雜志連發6篇論文報道了這一成果。

這一成果将從根本上改變我們治療多種疾病的方式。随着新冠病毒新變種的頻繁出現,科學家們可以使用完整的基因組測序來尋找與該疾病相關的突變,他們還可以更詳細地利用其來研究人類遺傳變異的進化,或将徹底改變人們了解人類進化的方式。

8%的“空白區”不是“垃圾”

2001年2月12日,國際人類基因組計劃首次公布人類基因組圖譜及初步分析結果;2003年4月15日,人類基因組序列草圖正式公布。然而,由于技術條件限制,當初的人類基因組圖譜留下了大約8%的空白間隙。這一很難被測序的部分,由高度重複的DNA序列組成,包含染色體末端的端粒和染色體中心節點的着絲粒。

着絲粒背後的異染色質序列位于染色體的關鍵部位,在人類基因組序列草圖中,它們都被标記為N的長序列,表示“未知的堿基”。13、14、15、21和22号染色體的短臂序列也同樣被忽略。

美國國立衛生研究院下屬的國家人類基因組研究所(NHGRI)所長、醫學博士埃裡克·格林稱,缺少片段的基因組“就像缺少句子的段落”一樣不完整。

華盛頓大學霍華德·休斯醫學研究所研究員埃文·艾希勒說,對DNA進行測序就像解決拼圖遊戲一樣。科學家們必須首先将DNA分解成更小的部分,然後使用測序儀以正确的順序将其拼湊在一起。

現在,新的T2T基因組圖譜補足了拼圖盒圖檔上8%的空白,并更正了此前拼圖中存在的數千個錯誤。大多數新添加的DNA序列位于重複端粒和着絲粒附近。

人類生命“天書”終于完整!将改變多種疾病治療方式

人類基因組解析裝置輸出的圖像。圖源:美聯社

新的無間隙版本被稱為T2T—CHM13,由30.55億個堿基對和19969個蛋白質編碼基因組成,增加了近2億個堿基對的新DNA序列,包括99個可能編碼蛋白質的基因和其中近2000個需要進一步研究的候選基因。這些候選基因大多數是失活的,但其中115個仍然可能表達。研究團隊還在人類基因組中發現了大約200萬個額外的變異,其中622個出現在與醫學相關的基因中。此外,新序列還糾正了GRCh38中的數千個結構錯誤,消除了每個樣本中數以萬計的假陽性變異,包括269個與疾病相關的已知或疑似基因的變異。

根據艾希勒的說法,事實證明,許多研究人員認為是“垃圾或無關緊要”的那些重複序列實際上非常重要。

由于之前的GRCh38模型(稱為參考基因組)是多個個體基因組的組合,基本上将一個人的基因組與另一個人的基因組“縫合在一起”,是以存在一些錯誤和重疊。而新的、完整的版本消除了這些縫隙,更能代表一個人的實際基因組的樣子。

助力破解最後的“黑匣子”

由于重複區域的複雜性,剩下的8%的人類基因組多年來一直困擾着科學家。一方面,它包含具有多次重複的DNA區域,這使得使用以前的測序方法以正确的順序将DNA串在一起具有挑戰性。

早期,被稱為“短讀長”的DNA測序技術一次隻能讀取相對較短的序列,也就是提供數百個DNA堿基序列。這是20年前唯一可用的基因組圖譜技術。例如,假設基因組的一部分由連續重複9次的句子“隻工作不玩耍,聰明孩子也變傻”組成。該技術隻會顯示其中的一部分,例如“隻工作”“聰明”“孩子也”等。研究人員将這些簡短的部分拼湊在一起,組成了這句話,但他們無法知道它被重複了9次。是以,運用該技術仍然會在組裝的基因組序列中留下部分空白。

對于10000塊拼圖,當它們看起來相似時,很難正确排列小塊的區域,就像對重複DNA的小片段進行測序一樣。但是對于500塊拼圖,正确排列大範圍區域,即較長的DNA片段,要容易得多。是以,“長讀長”技術應運而生。技術的巨大進步使得研究人員能夠對那些難以閱讀的重複序列進行排序。

在過去的10年中,出現了兩種新的DNA測序技術——“長讀長”技術,可在不影響準确性的情況下生成更長的DNA序列讀數,甚至可一次閱讀整個“句子”或“段落”。

牛津納米孔(Nanopore)的DNA測序方法(超長讀長)一次可讀取多達100萬個DNA字母,準确度适中;而太平洋生物科學公司(PacBio HiFi)的DNA測序方法(高保真讀長技術)可讀取約20000個字母,準确度近乎完美。這兩種測序的結合使T2T研究人員能夠避開區域的重複,并確定裝配的基因序列高度準确。

還有一種工具是默芬(Merfin),研究人員用它來清理人類基因組中一些最困難的序列。默芬使準确測試序列成為可能,它可以感測可能不正确的代碼并自動糾正錯誤。因為生成現代序列的技術更加準确,是以默芬僅用于最棘手的情況。例如,現有的技術很難評估像AAA這樣的完全相同的堿基對,而默芬糾正了這種序列錯誤。

人類生命“天書”終于完整!将改變多種疾病治療方式

換句話說,科學家們曾經以為,重複區域的拼圖有着幾乎一樣的顔色和形狀,比如看起來都像藍天。但現在,更先進的測序技術使科學家們發現,這些重複的碎片圖案實際不僅僅是藍天,還有草地和太陽。

破解生命“天書”最後“黑匣子”的第二個挑戰是尋找僅包含一個基因組的細胞。标準的人類細胞包含兩組DNA,一組是母系DNA,另一組是父系DNA,但T2T團隊使用的是一組被稱為完全性葡萄胎的細胞的DNA,其中僅包含父系DNA的副本。完全性葡萄胎是一種罕見的妊娠并發症,由來源于胎盤的細胞異常生長引起。

這種方法簡化了基因組,是以科學家隻需對一組DNA進行測序,而不是兩組DNA。

基因組學一個關鍵裡程碑

新序列補齊了人類基因組最後一塊拼圖,标志着基因組學領域的一個關鍵裡程碑。

新序列揭示了關于着絲粒周圍區域的前所未見的細節。這将大大增加人們對染色體的了解,尤其是着絲粒及其作用。因為該區域對于了解人類進化和遺傳多樣性以及對許多疾病的抵抗力或易感性至關重要。

同時,新序列揭示了以前未被發現的節段重複,即在基因組中重複的長DNA片段。在人類基因組中的20000個基因中,大約950個起源于節段重複。這些人類特有的節段重複是新基因的儲存庫,這些基因會在發育中的大腦中驅動更多神經元的形成,并增強額葉皮質突觸的連接配接性——可能與人類特有的進階思維、推理、邏輯和語言功能有關。

而更準确的5條染色體臂圖譜的呈現,或幫助科學家開辟新的研究方向,有助于回答有關染色體如何正确分離和分裂的基本生物學問題。

人類生命“天書”終于完整!将改變多種疾病治療方式

“生成真正完整的人類基因組序列代表了一項令人難以置信的科學成就,提供了人類基因藍圖的第一個全面視圖。”格林說,“這些基礎資訊将推進許多正在進行的努力,幫助我們了解人類基因組的細節,這反過來又将為人類疾病的基因研究提供支援。”

除了完成組裝拼圖的醫學研究意義之外,它還有助于回答:我們的基因組中包含什麼使我們成為了人類?與其他猿類相比,原始基因組中的一些空白基因現在被認為對于幫助人類制造更大的大腦至關重要。着絲粒的變異性也可能為人類祖先如何進化提供新證據。

現在,科學家能夠随時間變化跟蹤這些新的基因組區域,進而能夠對一代又一代、不同起源的人或物種進行更嚴格的比較。

例如,艾希勒實驗室的研究所學生哈維·吉塔特對與人類前額葉皮質擴張相關的基因家族TBC1D3的分析顯示,在靈長類動物進化的不同點上發生了反複和獨立的擴張。最近一次發生在約200萬到260萬年前,大概是人屬出現的時候。令人驚訝的是,人類的TBC1D3基因家族在一部分樣本中顯示出顯著的大規模結構變異。

研究人員在其論文中解釋說,不同的人有着截然不同的TBC1D3基因家族的互補和排列方式。對于一個被認為對大腦功能如此重要的基因來說,這是令人意想不到的。科學家們還發現了LPA基因複雜結構的多樣性,這種脂蛋白基因部分的變異性是血液中血脂水準異常導緻心血管疾病的最重要的遺傳風險因素。

研究人員還研究了SMN基因(一種運動神經元基因),其突變與某些神經肌肉疾病有關。對脊髓性肌萎縮區域(5号染色體上最難完成測序的區域之一)進行更好的序列識别,進而有助于确定疾病風險并進一步治療,因為重複基因SMN2是最有效基因療法之一的靶點。

此外,許多疾病與着絲粒中的結構重複有關,是以,新序列有助于科學家研究與基因相關的疾病。

衆所周知,着絲粒在細胞繁殖時在DNA複制中發揮作用,如果顯著改變它們在染色體中的位置,就可以産生全新的物種。當某些異染色質着絲粒基因過度表達時,癌細胞會瘋狂分裂;細胞分裂和細胞之間遺傳物質配置設定出錯也可能導緻産前發育的異常,如唐氏綜合症或羅伯遜易位,而對着絲粒基因組的全面了解可能為治療這些疾病打開新大門。

基于這些和其他發現,科學家們指出,新的參考基因組“揭示了對神經發育和人類疾病很重要的基因中人類遺傳變異的前所未有的水準”。

這不是結束而是新的開始

此次,T2T團隊使用的葡萄胎細胞隻保留了XX染色體——一組重複的染色體,缺失了Y染色體。而完成單倍體基因組測序并不是“人類基因組計劃”的最終目标和結果,更是一個新的開始。

艾希勒稱:“我們已經完成了一個基因組。在接下來的幾年裡,将會有數百甚至數千個基因組。我認為我們對人類彼此不同的看法将發生轉變,更複雜的遺傳變異不僅對了解什麼使我們成為人類很重要,而且對了解什麼使我們與衆不同也很重要。”

人類生命“天書”終于完整!将改變多種疾病治療方式

下一階段,科學家們将對多個不同個體的基因組進行測序,以充分掌握人類的多樣性、疾病以及人類與其他靈長類動物的關系。

好消息是,研究人員也即将釋出來自不同來源細胞的Y染色體的完整序列。對這一新Y染色體序列的分析将出現在未來的出版物中。

此外,T2T聯盟還有一個新目标——從不同種族或血統的人中提取350個基因組(目前已破譯了70個基因組)。NHGRI基因資訊學部門負責人亞當·菲利普博士說,該項目将總共花費數百萬美元或更多。但與2003年人類基因組計劃完成最終測序所花費的近4.5億美元相比,這隻是一個零頭。随着新技術的出現,測序隻會變得越來越便宜。

就目前而言,對每個人來說,測序自己的基因組仍然過于昂貴和耗時,但使用全新基因組序列來确定某些基因差異是否與特定癌症有關的研究已經在路上。

菲利普博士表示,在未來幾年内,對一個人的整個基因組進行測序應該會變得更便宜、更簡單。

“未來,當某人對其基因組進行測序時,我們将能夠識别他們DNA中的所有變異,并利用這些資訊更好地指導他們的醫療保健。”菲利普說,“真正完成人類基因組序列就像戴上一副新眼鏡,現在我們可以清楚地看到一切,而我們離了解這一切意味着什麼又近了一步。”

相關連結:基因測序計劃知多少

1、國際千人基因組計劃(1KGP)

了解基因型和表型之間的關系是生物學和醫學的核心目标之一。

2008年1月開始的國際千人基因組計劃 (1KGP)是一項旨在建立迄今為止最詳細的人類遺傳變異目錄的國際研究工作,其收集了來自四個不同洲的數千人的遺傳多樣性基因組序列,可幫助解決與疾病相關的遺傳變異。

2010年,該計劃試驗階段已完成,取得豐碩成果。第一是獲得了迄今最詳盡的人類基因多态性圖譜,第二是探索出了研究基因多态性的新技術手段。2012年,該計劃完成1092個基因組的測序。2015年,《自然》雜志的兩篇論文報告了該項計劃的完成情況以及未來研究方向。

通過概述所有人類遺傳變異,該計劃将為生物科學的所有領域,特别是遺傳學、醫學、藥理學、生物化學和生物資訊學等學科提供有價值的工具。

科學家們計劃在接下來的3年内使用新開發的更快、更便宜的技術,對來自多個不同種族的至少1000名匿名參與者的基因組進行測序。

2、萬種脊椎動物基因組計劃(VGP)

大約十年前,科學家們開始開發新的技術來産生更長的序列讀數,填補人類和其他物種基因組的空白。其中一項倡議是由美國霍華德休斯醫學研究所(HHMI)研究員埃裡希·賈維斯上司的萬種脊椎動物基因組計劃(VGP),旨在生成71657種現存脊椎動物物種的近乎無錯誤的參考基因組組合,并使用這些基因組來解決生物學、疾病和生物多樣性保護中的基本問題。

研究人員在2021年4月28日出版的《自然》雜志上宣布,該計劃為25種動物制作了第一個幾乎沒有錯誤和近乎完整的參考基因組。這些物種包括第一批瀕危脊椎動物的高品質基因組,例如大馬蹄蝠、加拿大猞猁、鴨嘴獸和鸮鹦鹉等。

科學家們正利用VGP的新資料研究使蝙蝠對新冠肺炎免疫的基因,并對基礎科學中長期存在的慣例提出了質疑,例如在人類、鳥類、爬行動物和魚類中發現的催産素及其受體之間是否存在顯著差異。

該計劃下一步将對所有1000個脊椎動物屬進行測序,然後是所有10000個脊椎動物科,最後是每一個脊椎動物物種。

3、人類泛基因組參考聯盟(HPRC)

人類參考基因組是人類遺傳學中使用最廣泛的資源。其目前的結構是來自20多個人的合并單倍型的線性組合,單個個體構成了大部分序列。它并不代表全球人類基因組變異,存在一定偏差和錯誤。是以,需要一份具有全球代表性的高品質的參考基因組,包括單核苷酸變體、結構變體和功能元件等常見變體。

人類泛基因組參考聯盟(HPRC)的目标是為代表95%以上人類遺傳多樣性的350人或更多人建立一個更高品質、近乎完整和近乎無錯誤的基因組,以圖形為基礎,以端粒到端粒的方式表示全球基因組多樣性。端粒到端粒聯盟(T2T)現已加入該聯盟。

該聯盟利用技術創新、研究設計和全球合作夥伴關系,建構盡可能高品質的人類基因組參考。其目标是改進資料表示和簡化分析,以實作完整二倍體基因組的正常組裝。随着對倫理架構的關注,HPRC将包含對全球基因組變異的更準确和多樣化的表示,改善跨人群的基因與疾病關聯研究,将基因組研究的範圍擴大到基因組中最重複和最多态的區域,并作為未來生物醫學研究和精确醫學的最終遺傳資源。

文中圖檔除标注外均來自視覺中國

科技日報 深瞳工作室出品

微信編輯丨劉義陽

稽核丨嶽靓

終審丨王婷婷

繼續閱讀