基因測序有着廣泛的行業應用,在預防出生缺陷、檢測遺傳性疾病與惡性良性腫瘤用藥指導等領域,能提供極大幫助。近年來基因組學研究進展飛速,華大基因也憑借強大的研發實力,成為全球最大的基因組學研究中心,其研究成果在全球都有廣泛的影響力。
在基因組學行業迅速發展的當下,基因測序成本已實作快速下降,從過去的天價一躍進入大衆也能輕松負擔的“千元”時代。同時,多項殺手級臨床應用均引入基因測序,拉動覆寫使用者數量成倍攀升。随着高通量測序儀的發展,需要存儲計算的基因資料量,呈指數級增長。基因測序已進入爆發式的階段,使用者和應用量級的爆發,帶來了資料計算的爆發。
随着生命科學領域資料爆炸式的增長,如何及時擷取、快速分析、安全儲存這些龐大的資料是研究者們急需解決的問題,包括華大基因都面臨的挑戰。2017年11月22日的廣州雲栖大會服務專場上,華大基因 BGI Online 産品總監黃澤輝,分享了華大基因在這個問題上面臨的挑戰與解決方案。

24小時,完成千人基因資料分析?
人一生的基因資料的管理和存儲資料量相當龐大,而華大基因提供的基因快速檢索和查詢,涉及到基因資料在資料分析中的降維過程。過程中資料密集型和CPU密集型的計算分析任務,計算能力要求高,結果檔案種類繁多,資料非結構化,不利于資料挖掘和可視化。目前使用了多地測序中心,使用者分布廣泛,資料共享和傳輸困難。
傳統方案是基于大型計算裝置和儲存設備購買來解決,出于成本和伺服器跟進速度的考量,華大基因 BGI Online 則搬到了雲上,并且在分析層面上給使用者定制化和個性化體驗。不僅降低了資料分析門檻,使用者也可直接線上上簡單操作即可完成啟動分析。
全面擁抱雲計算,解決資料存儲、傳輸、分析、安全問題
BGI Online作為大規模生物資訊的分析平台,堪稱基因行業的“應用市場”。依托部署在阿裡雲計算平台的服務,BGI Online更輕松地擁有了處理大規模基因組資料分析的能力。
基于BGI Online的基因資料分析需求,華大基因在阿裡雲平台上,設計了計算資源彈性伸縮、多級存儲、海量存儲計算與資料安全的雲平台架構。
通過專線接入,來傳輸測序中心幾十TB/day的資料;通過平台多資料中心部署,計算能力放至資料所在地,為美國、歐洲與中國等提供測序;混合使用阿裡雲的多種計算服務,資料通過OSS來互通。通過ECS線上上高靈活度地輸出基因測序、利用批量計算測序可大規模降低成本、MaxCompute實作MapReduce小時級測序。
合作過程中,阿裡雲為華大基因提供了企業級支援服務和專家服務,保障華大基因的雲上業務搭建與運轉。包括指導産品選型與使用技術、提供APM報告及相應性能的分析優化;排查整改系統安全隐患、對生産高峰的任務支援進行專門保障。從曾經三四天才能輸出一人基因分析,到如今實作了22小時内達成千人基因組分析的人類夢想。
生命的價值值得我們為之努力
基因組學資料是“天然”的大資料,計算分析的價值會超過測序本身,與雲計算和大資料技術的結合是行業的需要。華大基因股份有限公司CEO尹烨說過,“基因測序為生物技術帶來的改變,為生命創造的價值,值得我們為之努力。”
多年來,華大基因積累了來自制藥、科研、臨床和個人等多樣且豐富的客戶,對市場需求有了更深的了解。未來,華大基因将利用積累的技術與經驗,繼續研發不同層次結構組成,專注于生物資訊分析流程開發和基因資料的挖掘的平台。未來應用應該可跨平台共享,由雲計算服務持續提供底層資料存儲、壓縮的優化。 如此,勢必能為中國在未來數十年在生命科學、生物産業提供持續增長的強勁動力。
了解更多請微網誌關注阿裡雲客戶滿意中心