天天看點

曆時22年,超2億個缺失的人類基因組首次破譯|钛媒體科普

曆時22年,超2億個缺失的人類基因組首次破譯|钛媒體科普

研究完整人類基因組的DNA堿基,以字母A、T、C和G為代表(來源:NHGRI)

曆時22年,研究人員終于從頭到尾破譯了完整的人類基因組序列。

钛媒體App 4月1日消息,據科技日報,全球頂級期刊《Science》(科學)雜志今天淩晨連發6篇論文報告,公布了人類基因組測序的最新進展:國家人類基因組研究中心(NHGRI)組成的端粒到端粒 (T2T) 聯盟科學團隊,通過新的技術研究出全球第一個完整的、無間隙的人類基因組序列,首次揭示了高度相同的節段重複基因組區域及其在人類基因組中的變異。

這是對标準人類參考基因組,即2013年釋出的參考基因組序列(GRCh38)的“重大更新”,增加了之前整條染色體上隐藏的DNA片段,破譯了缺失的大約2億個DNA堿基對以及2000多個新基因——占人類基因組的8%。

這篇研究成果意義重大。科研人員揭示的完整人類基因組序列,是世界上最複雜的謎題之一,這一研究使得人類第一次看到最完整的、無間隙的DNA堿基基因序列,對于人類了解基因組變異的全譜,以及某些疾病的遺傳貢獻至關重要,将會推動與癌症、出生缺陷和衰老相關的研究與科學發展。

同時,這也是《Science》創刊141年來,首次在同一期雜志中連發6篇論文揭示人類基因組研究。

本論文作者,聖路易斯華盛頓大學醫學院遺傳學家Ting Wang(音譯:王庭)表示,此次擁有完整的基因組,一定會改善生物醫學研究。“毫無疑問,這是一項重要的成就。”

“我們看到了以前從未閱讀過的章節,”本論文通訊作者,華盛頓大學霍華德-休斯醫學研究所(HHMI)研究員Evan Eichler(艾希勒)表示,這是全行業的一件大事。

曆時22年,超2億個缺失的人類基因組首次破譯|钛媒體科普

Science論文封面圖

研究人員到底破譯了什麼?

人類基因組由超過60億個獨立的DNA堿基、大約2-3萬個蛋白質編碼基因(整個基因仍未有統一答案)組成,與黑猩猩等其他靈長類動物的數量差不多,分布在23對染色體上。為了讀取數以萬計的基因組,科學家們首先将所有的DNA鍊切成幾百到幾千個機關長度的DNA片段。然後用測序機器讀取每個片段中的各個堿基,科學家們試圖按照正确的順序組裝這些片段,就像拼湊一個複雜的拼圖。

2001年2月12日,由6國科學家共同參與的國際人類基因組計劃首次公布人類基因組圖譜及初步分析結果;2003年4月15日,公布了人類基因組序列草圖。

然而,由于技術限制,當初的人類基因組計劃留下了大約8%的“空白”間隙。這部分很難被測序,由高度重複、複雜的DNA塊組成,其中包含功能基因以及位于染色體中間和末端的着絲粒和端粒。

實際上,核心的挑戰在于,基因組的某些區域反複重複相同的堿基。重複的區域包括着絲粒和核糖體DNA等,過去無法按照正确的順序組裝一些被切碎的片段。這就像擁有相同的拼圖碎片一樣,科學家們不知道哪塊碎片在哪裡,是以基因組圖中留下了很大的空白。

而且大多數細胞包含兩個基因組--一個來自父親,一個來自母親。當研究人員試圖組裝所有的片段時,來自父母雙方的序列可能混合在一起,掩蓋了個體基因組内的實際變異。

如今,研究人員通過新的納米機器裝置與核心技術,實作了新的無間隙版本T2T-CHM13,由30.55億個堿基對和19969個蛋白質編碼基因組成。增加了近2億個堿基對的新DNA序列,包括99個可能編碼蛋白質的基因和其中近2000個需要進一步研究的候選基因。

這些候選基因大多數是失活的,但其中115個仍然可能表達。團隊還在人類基因組中發現了大約200萬個額外的變異,其中622個出現在與醫學相關的基因中。此外,新序列還糾正了GRCh38中的數千個結構錯誤。

曆時22年,超2億個缺失的人類基因組首次破譯|钛媒體科普

近端着絲粒染色體的顯示圖樣(來源:論文)

具體而言,新序列填補的空白包括人類5條染色體的整個短臂,并覆寫了基因組中一些最複雜的區域。其中包括在重要的染色體結構中及其周圍發現的高度重複的DNA序列,如染色體末端的端粒和在細胞分裂過程中協調複制染色體分離的着絲粒。

此外,新序列還揭示了以前未被發現的節段重複,即在基因組中複制的長DNA片段,并揭示了關于着絲粒周圍區域的前所未見的細節。這一區域内的變異性可能為人類祖先如何進化提供新證據。

值得一提的是,本研究成果的關鍵進展,其實是利用了新的技術裝置——英國牛津納米孔技術公司和太平洋生物科學公司制造的快速疊代的基因測序機器。

早在2017年,國家人類基因組研究中心(NHGRI)負責人Adam Phillippy(亞當·菲利皮),以及加州大學聖克魯茲分校(UCSC)的凱倫·米加意識到,新的納米孔機器實作了一次準确讀取100萬個DNA堿基的能力,可以為最終解決基因組難點打開了大門。

大約在同一時間,華盛頓大學霍華德-休斯醫學研究所(HHMI)Evan Eichler(艾希勒)上司的科研團隊已經證明,使用太平洋生物科學公司的裝置技術,可以解決更複雜形式的遺傳變異技術。

是以,三人一起創辦了端粒到端粒(T2T)聯盟,利用全球約100名科學家團隊資源,使其加快了研究佳偶。

随後,該團隊連續六個月不間斷地利用快速疊代的納米孔基因測序機器,并請來幾十位科學家來組裝這些基因片段并分析結果。最終利用裝置、技術等,實作了長讀數測序讀數,并将長讀測序與牛津納米孔的資料相結合,準确率超過了99%,填補了全球基因學研究的空白。

一直到2020年夏天,該團隊已經拼上了兩條染色體。在新冠疫情爆發的期間,團隊通過Slack等通訊工具進行遠端工作,獲得了另外21條染色體,将每個染色體從一端或端粒排序到另一端。而且,科研人員人員還試圖組裝基因組中最難的區域,即着絲粒中高度重複的DNA序列。

最終,通過長時間的研究與團隊合作,該團隊成功實作了對每個染色體進行了測序,包含了編碼用于制造核糖體的RNA的基因的多個拷貝,總共400個。

2021年6月,這份研究成果首次發表在預印版平台bioRxiv上。經過同行評議等,如今一系列論文登上了《Science》(科學)雜志。

研究人員在會後采訪中表示,下一階段的研究将對不同人的基因組進行測序,以充分掌握人類基因的多樣性、作用以及人類與近親、其它靈長類動物的關系。

年增速超20%,中國百億基因市場前景廣闊

随着生物學技術的不斷發展,新的行業層出不窮,本次研究成果所屬的中國基因測序行業是一個百億級市場,擁有廣闊的發展前景。

根據千際投行的研究統計資料顯示,早在2019年,基因測序所在的全球生物制品行業市場規模就達到了3172億元,未來五年有望達到萬億級别。其中,2019年中國基因測序行業市場規模約為149億元,年增速超20%。

近年來,基因測序行業得到迅速發展,吸引了大量資本和企業的進入。從産業上下遊來看,基因測序産業鍊主要包括了上遊儀器、中遊服務提供商以及下遊終端應用三個環節。涉及到的公司包括華大基因、達安基因、藥明康德,以及網際網路巨頭蘋果公司、亞馬遜、谷歌、微軟等。

曆時22年,超2億個缺失的人類基因組首次破譯|钛媒體科普

整個産業看似簡單,但上遊的基因測序儀及配套試劑是整個産業鍊壁壘最高的部分,下遊終端應用還涉及領域覆寫面非常廣,既包括醫療領域的人體基因組、人體微生物基因組以及基礎研究領域,還包括非醫療領域的環境治理、石油存儲探測、農牧業配種等。

實際上,早在幾十年前,醫學界就對此有過嘗試,将狒狒的心髒移植給了一個罹患先天性心髒病的孩子。如今,通過嵌合的方式,通過基因編輯的方式,甚至是通過合成生物學的方式,實作了豬心髒在人類身上的移植。

華大集團CEO尹烨曾表示,其實,今天人類進入了生命時代,我們關心的則是自身的基因和健康,以此就将去整合實體世界、資訊世界和生命世界。

在應用場景不斷拓寬,測序能力進一步加強的共同促進作用下,全球基因測序行業市場規模将不斷增長,中國基因行業市場規模雖然與全球頭部企業差距較大,但是在國内市場中仍然占據較大的優勢,未來要想提高國際市場佔有率,還需進一步加強技術研發,未來發展具有巨大的想象空間。

今天,新的基因組序列研究成果,是科研人員必不可少的第一步,也是實作商業化的重要一步。

Evan Eichler(艾希勒)表示,“現在我們有了一塊羅塞塔石碑(注:一塊制作于公元前196年的花崗閃長岩石碑,解讀出已經失傳千餘年的埃及象形文之意義與結構),可以在未來研究數十萬個其他基因組的完整編譯。”

(本文首發钛媒體App,作者|李佳能,編輯|林志佳)

繼續閱讀