天天看點

最完整的人類基因組序列,今天淩晨公布了!

今天淩晨,《科學》雜志一連上線了6篇論文,第一次公布了人類基因組的完整序列。這項跨越3年的研究成果,填補了20年前測序結果留下的空白,是人類基因組研究的一個重大裡程碑。

這次的完整測序和分析,是114位科學家共同完成的。這些科學家來自不同國家的33個科研機構,他們也被稱為“端粒到端粒聯盟”(Telemere-to-Telomere Consortium, T2T)。

填補8%的空白

對人類基因組的研究,已經有50多年的曆史。其中最有名的研究項目,是1990年啟動的“人類基因組計劃”。2003年4月14日,多國實驗室耗費10多年的時間和30億美元的資金,完成了人類基因組計劃的測序工作,首次繪制出了人類基因組的圖譜。當時的測序工作,大大推動了基因組學的研究,增加了我們對人體和疾病的了解。

但是,當時人類基因組計劃得出的序列中,仍然留下了大約8%的空白,其中包含了很多高度重複的DNA序列,加起來有一條染色體那麼長。

最完整的人類基因組序列,今天淩晨公布了!

人類的1至22号染色體 | Andreas Bolzer et al.

這8%的缺失,源于20年前測序技術的限制。當時使用的測序方法是“短讀長測序”技術(“short-read" technology),一次隻能讀取很短的一段基因序列。打個比方,如果把基因組的一部分想象成段落中的一句話,比如“今天早上小明吃了個包子”,通過短讀長測序,研究者能得到很多簡短的小部件,比如“今天”、“小明”、“明吃”、“包子”;再經過“拼圖”式的分析,他們就可以拼湊出這句完整的話。

最完整的人類基因組序列,今天淩晨公布了!

然而,研究者雖然能知道這段基因裡含有的簡短小序列,卻無法知道這段基因被重複了多少次。也就是說,研究者能夠拼湊出“今天早上小明吃了個包子”這句話,但卻不知道這句話在整個段落裡是否重複出現、重複了多少次。正因缺少這些資訊,在過去的20年裡,重複序列一直是基因組學研究的一大難題。

直到兩種新技術誕生,人類基因組學的研究才迎來了轉折點。這兩種技術都屬于“長讀長測序”技術(“long-read" technology),一種是牛津納米孔測序(Oxford Nanopore DNA sequencing),它可以一次讀取多達100萬個DNA堿基,準确度中等;另一種是PacBio HiFi測序,一次隻能讀取2萬個堿基,但準确度近乎完美。這兩種技術,都可以一次性測出大塊的DNA序列,研究者可以直接看到一整個句子甚至段落,也就能知道某個序列連續重複了多少次。

最完整的人類基因組序列,今天淩晨公布了!

T2T聯盟的聯合主席凱倫·米加(Karen Miga)和亞當·菲利比(Adam Phillippy)| T2T Consortium

從2019年初開始,T2T聯盟的科學家将這兩種新技術結合起來,緻力于攻克這些重複序列,填補缺失的空白。2020年底,他們公布了階段性成果——X染色體和8号染色體的完整組裝。經過之後2年的努力,現在,他們終于揭開了真正完整的人類基因組序列,從端粒到端粒,包含了每一條染色體。

看到全部的基因遺産

2001年,人類基因組計劃公布的參考基因組被稱為GRCh38,之後又在不斷地被完善和修改;這一次,T2T聯盟公布的新參考基因組叫做T2T-CHM13,是GRCh38的更新版。新增加的DNA序列總計近2億個堿基對,不僅填補了之前空缺的5個染色體短臂,還揭曉了基因組中最複雜的區域——在端粒和着絲粒周圍的高度重複的DNA序列。

最完整的人類基因組序列,今天淩晨公布了!

用HiFi測序測出的CHM13基因組的示意圖 | 參考文獻[1]

這次完整測序,還糾正了以前的很多錯誤,比如一些之前沒能被檢測到的片段重複。這些長鍊重複DNA曾被認為是基因組裡的“垃圾區”,沒有什麼實際的作用。但是,近年來,越來越多的研究都表明,這些重複序列對人類的進化和疾病可能是非常重要的。這一次,科學家們找到了基因組的最後一塊拼圖,終于拼湊出了打開寶箱的鑰匙,接下來就可以研究其中尚未為人所知的寶藏了。

參與此次研究的其中一個實驗組,來自美國加州大學聖克魯斯基因組學研究所。研究所所長大衛·豪斯勒(David Haussler)說:“現在我們可以站在山頂,俯瞰下面的所有景色,看到我們人類全部的基因遺産。”

最完整的人類基因組序列,今天淩晨公布了!

完整基因組資料已經在NCBI和GitHub上公開 | NCBI

下一步,研究者們将會重點關注從前難以研究的重要區域,比如着絲粒。這次新增加的基因組序列,90%都來自着絲粒。着絲粒對基因資訊的遺傳極為重要,在減數分裂中,成對染色體就是從着絲粒開始分裂的。科學家認為,很多與疾病相關的基因變異,就藏在着絲粒的長段重複DNA之中。

科學家們還将嘗試測序出更多的完整基因組。T2T會和人類泛基因組參考聯盟(Human Pangenome Reference Consortium)合作,計劃測出350個人的完整基因組序列,建立一個“人類泛基因組參考”,從基因組的角度來呈現和解讀人類種群的多樣性。

T2T 聯盟的聯合主席亞當·菲利比(Adam Phillippy)認為,完整基因組的測序和分析,對每個人都有好處。在不久的将來,對一個人的完整基因組測序會變得更便宜、更簡單,研究者和醫護人員也能從中識别出所有的基因變體,找到與疾病有關的部分,進而為人們的醫療與生活提供建議。

參考文獻

[1]https://www.biorxiv.org/content/10.1101/2021.05.26.445798v1

[2]https://www.eurekalert.org/news-releases/946948?

[3]https://www.eurekalert.org/news-releases/947718

[4]https://www.eurekalert.org/news-releases/947629

[5]https://www.eurekalert.org/news-releases/947636

[6]https://www.eurekalert.org/news-releases/947910

作者:貓吞

編輯:麥麥

最完整的人類基因組序列,今天淩晨公布了!

本文來自果殼,未經授權不得轉載.

繼續閱讀