天天看點

雲場景實踐研究第80期:華大基因

作為全球最大的基因組學研究中心,華大基因在阿裡雲的幫助下,實作了海量資料的及時擷取、快速分析、安全儲存。本文将帶領大家一同了解華大基因的基于大資料分析的雲計算實踐之路。

“基因組學資料是“天然”的大資料,計算分析的價值會超過測序本身,與雲計算和大資料技術的結合是行業的需要。”

——黃澤輝

華大基因 BGI Online 産品總監

<b>采用的阿裡雲産品</b>

阿裡雲雲伺服器 ECS

阿裡雲對象存儲 OSS

阿裡雲歸檔存儲 OAS

阿裡雲專有網絡 VPC

阿裡雲DDoS高防IP (雲盾)

阿裡雲大資料計算服務 MaxCompute

阿裡雲 E-MapReduce

阿裡雲批量計算服務 BatchCompute

<b>為什麼使用阿裡雲</b>

通過使用阿裡雲平台,不僅降低了資料分析門檻,使用者也可直接線上上簡單操作即可完成啟動分析。

借助阿裡雲雲計算,解決資料存儲、傳輸、分析、安全問題。

<b>關于華大基因</b>

華大成立于1999年,是全球最大的基因組學研發機構。華大以“産學研”一體化的創新發展模式引領基因組學的發展,通過遍布全球的分支機構與産業鍊各方建立廣泛的合作,将前沿的多組學科研成果應用于醫學健康、農業育種、資源儲存等領域,推動基因科技成果轉化,實作基因科技造福人類。

<b>華大基因痛點</b>

随着生命科學領域資料爆炸式的增長,如何及時擷取、快速分析、安全儲存這些龐大的資料是華大基因急需解決的問題。

<b>為什麼選擇阿裡雲?</b>

<b>通過阿裡雲平台降低資料分析門檻、簡化使用者操作</b>

人一生的基因資料的管理和存儲資料量相當龐大,而華大基因提供的基因快速檢索和查詢,涉及到基因資料在資料分析中的降維過程。過程中資料密集型和CPU密集型的計算分析任務,計算能力要求高,結果檔案種類繁多,資料非結構化,不利于資料挖掘和可視化。目前使用了多地測序中心,使用者分布廣泛,資料共享和傳輸困難。

傳統方案是基于大型計算裝置和儲存設備購買來解決,出于成本和伺服器跟進速度的考量,華大基因 BGI Online 則搬到了雲上,并且在分析層面上給使用者定制化和個性化體驗。不僅降低了資料分析門檻,使用者也可直接線上上簡單操作即可完成啟動分析。

<b>借助阿裡雲雲計算,解決資料存儲、傳輸、分析、安全問題</b>

BGI Online作為大規模生物資訊的分析平台,堪稱基因行業的“應用市場”。依托部署在阿裡雲計算平台的服務,BGI Online更輕松地擁有了處理大規模基因組資料分析的能力。

雲場景實踐研究第80期:華大基因

基于BGI Online的基因資料分析需求,華大基因在阿裡雲平台上,設計了計算資源彈性伸縮、多級存儲、海量存儲計算與資料安全的雲平台架構。

通過專線接入,來傳輸測序中心幾十TB/day的資料;通過平台多資料中心部署,計算能力放至資料所在地,為美國、歐洲與中國等提供測序;混合使用阿裡雲的多種計算服務,資料通過OSS來互通。通過ECS線上上高靈活度地輸出基因測序、利用批量計算測序可大規模降低成本、MaxCompute實作MapReduce小時級測序。

雲場景實踐研究第80期:華大基因

合作過程中,阿裡雲為華大基因提供了企業級支援服務和專家服務,保障華大基因的雲上業務搭建與運轉。包括指導産品選型與使用技術、提供APM報告及相應性能的分析優化;排查整改系統安全隐患、對生産高峰的任務支援進行專門保障。從曾經三四天才能輸出一人基因分析,到如今實作了22小時内達成千人基因組分析的人類夢想。

華大基因通過阿裡雲為BGI Online(安全、⾼效、易⽤的⽣物資訊服務雲平台,為⽣物資訊領域的各類科研工作者和工具開發者提供便利)注入彈性,同時也釋放了每個資料中心部署耗費的大量人力、财力和物力,其總體架構如下:

雲場景實踐研究第80期:華大基因

<b>前端</b>通過WEB服務呈現系統業務和提供使用者操作,WEB請求通過SLB做負載均衡,并在阿裡雲提供的VPC和雲盾的防護下提供高可用的服務。

<b>後端管理系統</b>的業務資料和處理業務邏輯,後端服務部署在多台ECS上,并采用RDS服務存儲業務資料。

<b>任務管理引擎</b>接受前端請求,管理計算資源實作生物資訊資料的分析,阿裡雲提供了海量的ECS節點,并對每個ECS節點提供了完整、詳細的API文檔,通過對接ECS節點實作了計算資源的彈性伸縮和強大的分布式計算能力。

<b>存儲管理</b>負責基因資料的存儲和管理,運用OSS和OAS實作了基因資料的冷熱存儲,除了OSS和OAS本身提供的加密存儲外,還對接OSS服務實作資料的去身份化,提高了平台的安全性。

<b>檔案傳輸</b>通過部署在ECS上的服務提供,龐大的基因資料上雲是資料流的起始端和瓶頸,阿裡雲通過鋪設阿裡機房到華大叢集的專線,提升了資料傳輸的速度。

<b>遷移上阿裡雲後的成效</b>

實作了使用者定制化和個性化體驗,不僅降低了資料分析門檻,使用者也可直接線上上簡單操作即可完成啟動分析。雲上業務搭建與運轉獲得了保障,包括指導産品選型與使用技術、提供APM報告及相應性能的分析優化。在2016年,基于華大基因開發的新一代基因雲計算平台BGI Online,華大基因、阿裡雲和安徽醫科大學三方共同協作在21小時47分12秒内完成了1000例人類全外顯子組資料的分析,創造了基因資料分析的“深圳速度”。

<a href="https://yq.aliyun.com/articles/264839" target="_blank"></a>

原文釋出日期:2018-1-10

雲栖社群場景研究小組成員:董普慶,仲浩。

繼續閱讀