天天看點

從宇宙到生命:為什麼我們需要不斷提高基因測序通量?

探索宇宙:天文學六百年發展脈絡

在牛頓所處在的啟蒙時代,人類通過新工具新方法觀察到新現象,建立新理論,帶來新的生産生活方式方式和新的生态環境。

如今,工具的進步速度讓人驚歎,人類在探索時空和探索生命的道路上,已經進入了大資料的階段。這意味着,撿到幾個石子和貝殼是遠遠不夠的,要精确地觀測新現象,必須依賴大資料來探索、觀察、記錄“整個沙灘和海洋”,才能找到“陽光下的新鮮事”。

我是誰,我從哪裡來,要到哪裡去?——人類的好奇心永無止盡。新工具和新方法讓人類觀察到新現象,帶來新概念和新理論,幫助我們指導新實踐、開創新世界。新的現象,既來自于無窮大和無窮小的宇宙時空和物質世界,也來源于我們自身——千變萬化的生命世界。

對于“無窮大”和”無窮小“代表的未知物質時空,天文學六百多年的發展脈絡清晰可見:

從宇宙到生命:為什麼我們需要不斷提高基因測序通量?

公元前到16世紀,人類通過渾天儀和望遠鏡等儀器對天空持續定點觀測。我國的“甘德-石申星表”記載了121顆恒星,喜恰帕斯星表記載了1022顆恒星。人類對恒星的精确觀測是從發明天文望遠鏡的伽利略開始的,由此開啟了日心說的思潮。第谷的《魯道夫天文表》以分的弧度精度記載了1005顆恒星和五大行星位置,啟發“天空立法者”開普勒發現行星運動三大定律,進而使牛頓得以發現萬有引力定律。

1609到1619年,随着萬有引力定律這枚“美麗的貝殼”的發現,天文學進入通過理論計算指導觀測的時代。利用大型反射式望遠鏡,配合行星攝動理論的指導,人類先後發現了哈雷彗星、天王星、海王星和冥王星,太陽系有了“全家福”。随着地理大發現、全球時區的應用和全球市場的建立,人類觀測的星空也快速擴大,到了1785年,赫歇爾用望遠鏡所作的1083次觀測,通過117600顆恒星的資料,加上若幹假設,得出了天文學史上第一個銀河系模型。

從宇宙到生命:為什麼我們需要不斷提高基因測序通量?
從宇宙到生命:為什麼我們需要不斷提高基因測序通量?

赫歇爾應用的天文望遠鏡和銀河系模型

10-20世紀,偏振光度儀、光譜儀、照相術的應用,讓人類得以開展大規模巡天照相和恒星、星雲的光度、光譜分析。這期間星表規模不斷擴大,丹麥天文學家赫茨普龍和美國天文學家H.N.羅素通過恒星光度和光譜的全面觀察讓提出“主星序”的概念,指出我們的太陽也如其他恒星一樣,會成長、衰老和死亡;對星雲的觀測讓哈勃提出宇宙大爆炸的概念,讓人類得以追溯宇宙的起源;愛因斯坦、愛丁頓、史瓦西、霍金等一批大家提出相對論、宇宙背景輻射、引力波、黑洞等理論把“無窮大”的未知變成可驗證的實體模型,而國際标準時間、GPS等已從概念變成生活中習以為常的應用。

從宇宙到生命:為什麼我們需要不斷提高基因測序通量?

哈勃觀測星雲使用的望遠鏡,是當時最大的天文望遠鏡。通過星系的紅移-距離關系發現的哈勃常數,促使現代宇宙學的誕生。

20世紀後期-至今則是以哈勃太空望遠鏡、旅行者探測器、引力波探測器等大科學裝置為代表的時代。通過大資料擷取、對比、分析、挖掘獲得包括深空星體、地外行星、類星體、暗能量、暗物質等天體的資訊已經是正常操作。人類開始掌握多尺度、實時、全景的宇宙圖像。

“無窮大”的物質世界已經是一片大資料的汪洋大海。我們能夠觀測到的宇宙:銀河系含有(1~4)×1011顆恒星,直徑8.8×1026 米,合93×109光年,目前對宇宙中星系數量估計為2×1011(2000億) - 2×1012(20000億個) ,大多數星雲的大小是 3×103 - 3×105 光年,之間的距離為數百萬光年……

假使沒有大科學裝置的加持,人類隻能在真理之海面前止步不前。以ASKAP(Australian Square Kilometre Array Pathfinder)為例,這是由CSIRO Astronomy and Space Science (CASS),與荷蘭、加拿大、美國和中國合作建成, ASKAP有36個直徑12米的抛物面天線,占地4000平方米,資料産量每秒2.5 GB,每年100PB。無獨有偶,在中國貴州,世界最大單口徑、最靈敏的射電望遠鏡“天眼”也面臨着大資料的考驗。“天眼”峰值資料率每秒可達38GB,配套的資料中心存儲容量達到100PB。

從宇宙到生命:為什麼我們需要不斷提高基因測序通量?
從宇宙到生命:為什麼我們需要不斷提高基因測序通量?
從宇宙到生命:為什麼我們需要不斷提高基因測序通量?

天文學的大資料不但“大”,而且對宇宙的描述正在趨于實時、全景、多元度。2017年8月17日美國東部時間8時41分,人類首次通過全球協同觀測到中子星并合事件——在美國LIGO探測器檢測到引力波信号之後,伽馬射線望遠鏡和INTEGRAL等探測器探測到伽馬射線爆發,随後全球超過70個天文台、超過100台觀測裝置從各個波段投入協作,快速鎖定了中子星并合的“現場“,觀察到了對應天體,開創了“多信使”天文學。

從宇宙到生命:為什麼我們需要不斷提高基因測序通量?
從宇宙到生命:為什麼我們需要不斷提高基因測序通量?

不但在探索“無窮大”的方向上我們需要大資料,在探索“無窮小”的方向上,人類同樣面臨着大資料的産生、存儲、分析的挑戰。《三體》中智子要鎖死人類科技的關鍵裝置,發現“上帝粒子“(希格斯粒子)的大型強子對撞機(Large Hadron Collider, LHC)位于法國和瑞士邊境,直徑達到8.6公裡,每秒産生的資料量達到4GB,每年産生的資料量達到100PB,來自40個國家180個機構的2000名實體學家圍着裝置辛勤工作,就為了從10,000,000,000,000個對撞結果中找到1個符合條件的粒子。

從宇宙到生命:為什麼我們需要不斷提高基因測序通量?
從宇宙到生命:為什麼我們需要不斷提高基因測序通量?

回到生命本身:每個人體都是一個小宇宙

從億萬光年之外的宇宙星辰,到組成世界的基本粒子,科學發現與技術創新越來越離不開功能強大的科研儀器,特别是大科學裝置,這已成為科技界的共識。

天文學的發展脈絡告訴我們,從對客觀現象的觀察到因果性的确定、理論的建構,都基于工具的不斷突破,都構築在在大科學裝置帶來的資料洪流之上。同樣地,要解讀紛繁複雜生命現象,探索生命的微觀世界,同樣需要相應的“生命數字化”核心裝備和更多的資料。對于基因科學而言,擷取足夠多的基因資料量,建構龐大的資料庫,才能進一步探究某個基因的變異所代表的确切含義。

為什麼說人體不亞于一個小宇宙?人體内有1014個細胞,這比宇宙的星雲數多1個數量級,每天都有上千億(~1011)個細胞新生和死去。而每個細胞都是由腺嘌呤(A)、胸腺嘧啶(T)、鳥嘌呤(G)和胞嘧啶(C)四種堿基“字母”編寫成的人類基因組所控制,而每個細胞的基因組有60億個堿基字母,編碼了約2.5萬個基因,每個細胞的基因組都有着不同的基因組修飾、外來基因入侵和基因變異模式,帶來與人體内外環境千姿百态的互動可能。加上人體腸道和表皮上逾千種共生微生物,其基因組大小是人類基因組的10倍以上。這些基因組的變化及其連帶的蛋白質組、代謝組、細胞、組織、器官、系統的變化是人體生老病死諸多現象的根本内因。

了解了這些,就會發現“每個人體都是一個小宇宙”這樣的說法完全不為過,如果要詳盡地描述生命各個階段的狀态,我們需要Gb(~109)、Tb(~1012)、Pb(~1015)級别的大資料才行,對于上百萬到上億人群大樣本的解讀,必然帶來E(~1018)、Z(~1021)、Y(~1024)級别的大資料。

各國目前基因組學的發展已經印證了大資料的重要性。2008到2016年間,全世界基因組資料每隔7個月翻一番,超越了摩爾定律的發展速度。從人類基因組計劃,耗費30億美金13年完成一個人的基因組,到人類單體型圖計劃完成(~270個樣本),到千人基因組計劃完成(~1090個樣本)再到英國、美國、中國、法國、德國、冰島、瑞典、俄羅斯、阿聯酋、沙特阿拉伯、印度等諸多國家正在推進的十萬、百萬乃至千萬人級大人群基因組科研項目,高通量測序技術的飛速疊代發展使得這些生命數字化工程從天方夜譚變成現實。

從宇宙到生命:為什麼我們需要不斷提高基因測序通量?

世界DNA測序資料量增長趨勢

(引自:Stephens Z D, Lee S Y, Faghri F, et al. Big Data: Astronomical or Genomical?[J]. Plos Biology, 2015, 13(7):e1002195.)

回過頭來,我們再去思考為什麼需要将基因測序通量不斷提高?人體所蘊含的資料量是驚人的,基因是根本,亦是解碼生命的基礎,而精準地分析解讀需要龐大資料庫的支撐,這也自然對基因測序通量提出了更高的要求。從技術操作層面而言,基因測序儀的發展日新月異,以華大智造超高通量測序儀DNBSEQ-T7為例,它已将每Gb的測序成本降低至約5美元,技術的突破和成本的不斷降低讓提高測序通量這一要求變得可及。

基因科技要如何造福全人類?除了不斷創造基因科技的應用場景,其基礎是需要以高通量、高精度、高成本效益的工具平台支撐大人群、大樣本、大資料資源的累積,實作基因組從基礎科研到臨床研究到普惠人人的轉化應用,讓精準醫療、精準預防和精準健康更快走進人們的生活。

從宇宙到生命,從天文學到生命科學,曆史如同明鏡,照過來時的路,也照亮遠方的去處。在未探明的真理之海面前,人類正撷取足夠多的石子與貝殼,發現規律,無限地接近真理本身。

本文作者:MGI華大智造

繼續閱讀