以前要24小時的基因組測序，中國團隊隻用了7分鐘。

一到年關，最不缺的就是各種盤點總結了。

這不，中國機構實作了 7 分鐘完成 30X 測序深度人類全基因組測序的成績，時隔 3 個月又被提了起來。

聽不懂沒關系，我們隻需要知道，這個成就意味着基因篩查将有可能進入正常體檢項，遺傳病檢查也可能像咽拭子檢測一樣立等可取了。

比如鐮刀型貧血症、先天性心髒病等所有由于基因異常引起的疾病，都可以通過基因檢測的方式早發現早預防早治療，特别是在生育健康方面意義重大。

但是目前的基因檢查項目大多隻針對常見遺傳病做篩查，一些罕見的遺傳病很難被檢測到。并且檢測機構出具報告一般都需要 20 天以上，檢測項目周期太長。

華大醫學單基因遺傳病檢測的部分項目。▼

中國團隊把人類全基因組測序所需要的時間，直接壓縮到了 7 分鐘，相當于給生物學界開通了一輛和諧号，得到生物的全部遺傳資訊，那都是分分鐘的事。

想知道 7 分鐘的意義有多大，那就先來搞清楚全基因組測序是什麼吧。

基因測序就是把 DNA 資訊轉換成人類可讀取的數字資訊過程，而全基因組測序，就是把生物的所有 DNA 資訊全部轉化為數字資訊。

讀取一整條 DNA 鍊的堿基排列資訊，不僅速度慢，而且很容易出錯。在實際操作過程中，DNA 長鍊會被切割成許許多多的小片段并同時進行測序，這樣可以大大減少測序時間。

雖然小片段序列資訊的擷取更快更容易，但是這也帶來了一個新難題，如何把這些小片段正确拼接還原成完整序列？

玩過拼圖的人都知道，判斷兩塊零片是不是相鄰位置，需要參考它們的圖案有沒有很好地吻合在一起。

拼接 DNA 片段也一樣，兩條片段是不是相鄰位置，要看它們末端的序列能不能完全重疊。

隻要兩條序列首尾兩端分别存在相同的序列，這兩段序列就可以合并成一段。

當然了，這是運氣好的情況，兩段相鄰片段可以順利找得出來。如果運氣不好的話，在某一處斷點就有可能找不到和它吻合的片段。

為了保證測序片段能夠覆寫整個基因序列，常用的手段隻有以量取勝。把十幾倍幾十倍的片段往模版裡填，如果還存在填不上空的情況就該去買彩票了。

但是片段數量的翻倍直接導緻的後果就是拼接工作量的指數增加，畢竟拼 1000 塊拼圖花費的時間可不止是 100 塊拼圖的十倍。

這個工作量有多大呢？我們放在具體的測序案例中計算一下。

對資料讀取次數有了概念，我們再換算一下資料的記憶體占用量。據不準确計算，1bp 堿基大概占用 3B 記憶體，那麼 30X 測序深度的人類全基因組大概需要占用接近 300GB 記憶體。

别說讀取分析資料了，光是存起來就足夠把計算機搞當機了，是以這樣的任務一般都交給專業測序公司強大的伺服器來做。而業界目前的水準，完成人類全基因組的拼接至少需要 24 個小時。

這樣一對比， 7 分鐘能完成 24 小時的海量資料處理工作，确實強得一批。難道是超級 CPU 出現了？

CPU 還是那些 CPU，不過是有新的資料處理方式出現了。

我們把資料讀寫看作是往倉庫裡運包裹，大大小小各種包裹都要往裡裝，無論物件大小全部按順序擺放的方式，不僅搬運效率低，空間使用率也不高。

正确的方法是将小包裹收納打包進大箱子，再和其他大包裹一起順序擺放，不僅提高了整體的空間使用率，也縮減了搬運時間。

這就是 7 分鐘辦完 24 小時工作的原因之一，大資料直接寫入，小檔案聚合成大檔案再寫入，不僅存得快，還存得多。

海量資料秒處理的另一個秘訣就是 “ 天下大同 ” 。

通常情況下，不同類型的資料互相不認識，需要借助單獨的協定進行私密對話，調用上不太友善。

想提高資料的調用效率，那就讓它們都來廣場上喊話好了，露天場地找人總比在小區裡挨家挨戶找人要快得多。

隻要打破不同資料間的加解密邏輯，使用統一的資料通路協定，免去加載過程，就可以實作對磁盤内所有資料的快速調用。

除了這兩項突破性的資料處理方式，一些硬體軟體上的加強也促成了這項 7 分鐘的成就。

比如說壓縮磁盤大小，改造伺服器結構，用相同體積放置更多數量的固态硬碟，實作更大容量的資料存儲功能。

另外該平台還開發出了多線操作的資料讀寫模式，能夠把處理資料的速度再提升一級；并且還改進了資料壓縮算法，能夠以更小的磁盤容量處理更多的資料。

種種創新技術的強強聯合實作了海量資料分析 24 小時到 7 分鐘的飛躍。連天文數字規模的生物資訊都能在幾分鐘時間内進行處理，還有什麼做不到的呢。

這個 7 分鐘的意義不僅僅是快速獲得全部基因資訊，也是資料處理領域中十分重要的一項突破。

類似一些需要精密計算并且資料量龐大的應用領域，用上中國自己的伺服器來處理，又快又安全。

例如衛星遙感，藥物研發，能源勘測等，都需要對海量資料進行分析；而自動駕駛之類的技術則要求了資料的實時回報，資料的高速運算處理能力必不可少。

換句話說，馴服了資料就相當于把握住了科技命脈，得資料者得天下。依附在這個基礎上的所有領域，都得鉚足了勁再卷一波。

說不定，一直以來磕磕絆絆的 AR 眼鏡，很快就可以普及了。

撰文：興坤編輯：面線

圖檔、參考資料來源：

https://e.huawei.com/cn/case-studies/storage/2021/west-china-hospital-sichuan-university

以前要24小時的基因組測序，中國團隊隻用了7分鐘。

繼續閱讀

每30秒就有一個缺陷兒出生基因疾病和先天疾病讓人防不勝防

現存最原始的種子植物基因組大揭秘：NP封面故事，詳解蘇鐵基因組

《自然》：“海選”12000個基因，找到最強T細胞功能增強因子

雙胞胎因“基因偏心”走紅，發量一個随爹一個随媽，差距惹人心疼

女兒長得太漂亮，爸爸保镖，看完爸爸顔值，網友不淡定

Cell專題！華大等機構實作首批生命全景地圖繪制

恢複聽力全新希望：科學家發現聽力細胞新生工具

人類生命“天書”終于完整！将改變多種疾病治療方式

用ARP僞裝廣播探測網絡中的Sniffer

為啥有些人一胖就胖肚子？《自然》子刊發現了寫在基因裡的發胖天賦

季節和晝夜節律，如何影響了人類基因表達？

基因随意發揮就能在嬰兒期預定全球第二美，超越不了母親的她到底差哪了？

什麼是真正的戰鬥？

這個醫生的基因遍布美國，94個孩子絕不是一時興起，而是早有預謀

200年的等待，貝多芬的真實死因終于有了新發現！

心血管頂刊研究：吸煙讓人基因改變，還會遺傳給下一代