天天看點

基因大資料:一面是科技,一面是責任

基因,基因組,大資料

基因是帶有遺傳資訊的DNA片段,儲存着生命的種族、血型、孕育、生長、凋亡等過程的全部資訊。

基因組是細胞内所有的遺傳資訊,這種遺傳資訊以核苷酸序列形式存儲,由30億個堿基對組成的基因組,蘊藏着生命的奧秘。

大資料是資訊時代龐大的資訊資産,以及對這些含有意義的資料進行專業化處理。如果把大資料比作一種産業,那麼這種産業實作盈利的關鍵,在于提高對資料的“加工能力”,通過“加工”實作資料的“增值”。

生命科學遇上資訊科技,基因結合大資料,這一切就在人和未來發生。人和未來生物科技有限公司由一支北美青年科學家團隊始創于聖地亞哥,自2009年開展基因檢測臨床轉化研究,并于2014年正式在北京組建成立,是一家以基因科技為核心的醫療健康解決方案提供商。

不做跟随者,要做冒險家

2009年基因測序的浪潮在美國西海岸日益興盛,美國聖地亞哥某實驗室,一群來自Cornell、Yale、GoldmanSachs、IDG等知名高校及機構的年輕人聚在一起進行二代基因測序技術研究,抱着孤注一擲的勇氣将所有的積蓄投入進去做了啟動資金,希望有朝一日能将這份研究成果帶回國,讓基因科技普惠更多中國老百姓的同時,為國内基因技術趕超國際一流水準貢獻一份力量。

2014年,國内基因檢測行業的轉折點已悄然來臨——國家衛健委啟動了基因檢測的規範管理,行業即将邁入有序發展的快車道。傳統的一切都亟待新的改變和發展,而最終澎湃的心讓這群年輕人做出了歸國創業的決定。同年,人和未來生物科技有限公司成立,基于生物技術和資訊技術(BT+IT)雙輪驅動,專注于基因檢測前沿技術及基因大資料智能基礎設施的開發,緻力于成為精準醫學整體解決方案服務商。

留在美國,意味着有成熟的市場環境和大量從事基因研究的科研人才;歸國創業則必須做好面臨各種市場、非市場問題的準備。“比起在現有的規則裡做一個跟随者,做一個探尋未知市場的冒險家對于我們來說會更有吸引力。”

醫療行業資訊化程度逐漸提升,但基因大資料由于涉及與人類健康相關的各個領域,具有明顯的多元、海量以及多源異構的特點,成為了數字化程度最低的一種資料類型。21世紀,基因資料已成為關系國家人口健康和生物安全

重要戰略資源,“冒險家”們深知,不想被别人“卡脖子”,那就必須研發中國人自己的關鍵技術,讓國産基因大資料技術和産品托起行業的蓬勃發展。

走出一條差異化“大道”

随着科技的進步,醫療健康行業正以搬山造海的勢頭迎來巨變,而變革的源頭正是以基因大資料為代表的行業細分領域崛起。

在同行把業務重點放在基因測序、惡性良性腫瘤靶向藥物用藥指導、惡性良性腫瘤複發監測等主賽道之時,人和未來借助以BT(生物技術)+IT(資訊技術)為基礎的資料處理和分析能力,走上了一條差異化的“大道”。

測序技術不斷更新,測序成本直線下降,測序通量越來越高……當下,基因測序已廣泛應用在科研、臨床、遺傳優生、健康管理等多個領域。DNA資料正在激增,

孤立的、單個的資料分析形式越來越不能滿足科研的需要,生物基因大資料的價值需要被更深入地挖掘。

在多方探索之下,人和未來技術團隊研發出了GTX基因大資料智能基礎設施。

1、GTX.ZIP能将FASTQ檔案壓縮到原來大小的2%,資料解壓還要100%一緻還原,在這樣的極高倍率壓縮技術的支援下,使用百兆網絡,就能達到以千兆速度上傳資料的效果,使得大規模測序資料上雲及各科研機構間的互動成為可能。

2、GTX.FPGA能在18多分鐘内完成人類全基因組資料分析,将全基因組計算帶入百元時代。對比單台标準伺服器,資料分析速度提高了90倍。

3、GTX.Digest則可以根據患者的基因型資料與表型資訊,結合文本挖掘和人工智能技術進行基因解讀,進而協助臨床遺傳專家快速發現和篩選緻病突變。

“以前,想要在海量的資料中找到緻病原因難度不異于海底撈針,而現在,通過技術的革新,人和未來将基因資料從下機到資料壓縮、存儲、傳輸、計算、分析、解讀、挖掘等全流程,都串起來了。”

雲上的健康守護

基因資料對算力的需求會随着樣本量的增減而變化,本地伺服器的部署難度較大。多了則會造成很大的成本浪費,少了則會影響業務開展。整合不同規格的計算資源,打通線上線下計算叢集成為了基因企業最行之有效的方案。從創業初期到現在,阿裡雲伴随客戶一起成長,人和借助阿裡雲FPGA雲伺服器算力更高、成本更低的優勢,實作了将海量曆史資料遷移上雲,大大降低了本地高性能NAS的容量和性能壓力。

基因資料從測序儀下機後,樣本資料通過閃電立方或專線上傳到雲端的OSS對象存儲中,再通過批量計算配合ECS計算叢集完成基因測序與分析任務,阿裡雲強大的雲計算與大資料能力為人和未來的業務發展保駕護航,卓越的計算能力随時為人和未來提供數百萬核時的計算能力。人和未來已成功将公司的核心技術GTX.ZIP基因資料壓縮以及GTX.FPGA基因資料加速計算部署在阿裡雲端上 。針對基因計算資料吞吐量大的情況,提供高IO的本地SSD規格執行個體提升性能,同時提供針對基因測序分析優化過的批量計算服務,通過緩存技術,排程優化,競價執行個體等進一步降低計算成本。“批量計算”直面大計算挑戰,幫助人和未來輕松完成海量資料并行計算任務。支援基于有向無環圖輕松建構複雜工作流,結合批量計算獨有的分布式緩存技術和OSS挂載功能,無需特别程式設計就可以實作穩定高效的大規模基因資料樣本分析。“閃電立方”快速搞定網絡傳輸! 以1PB(約100萬GB)資料為例,普通的辦公網絡下全部上傳需要10000多天,在1Gbps的專線下也需要100多天,借助“閃電立方”,僅需24小時就能完成1PB的資料遷移,大大提升了任何未來資料上雲的效率。

未來,基因大資料将成為基因企業的核心資産。基于基因大資料智能基礎設施GTX,為精準醫療在醫療機構的落地提供實驗室管理、樣本管理、科研支援、臨床輔助決策等全棧式解決方案,将快速擷取“資料、算力、知識”的能力賦予合作夥伴,是我們不懈的追求。

繼續閱讀