阿裡雲攜手華大基因推出極速、低成本、高精度的個人全基因組測序(WGS, Whole Genome Sequencing)雲傳遞方案,隻需要15分鐘即可完成一個30X WGS的基因比對、排序、去重、變異檢測全流程,相比經典流程可達120倍加速,比目前全球最快的FPGA/GPU方案仍能提速2-4倍。
[小科普:什麼是全基因組測序?]
全基因組測序,不再依賴捕獲試劑的差異,同時獲得均一性較好的mtDNA,通過分析個體基因序列的突變機制,可為遺傳病檢測、惡性良性腫瘤篩查等提供有力支撐,未來将在臨床醫學和基因診斷方面。一個人類全基因組有30億堿基,一個30X的WGS測序資料量大約在100G。
此方案由華大基因自主測序儀、BGI Online混合雲架構、阿裡雲容器服務ACK/AGS基因服務,以及賽樂基因GPU加速算法的深度融合而成。方案無縫銜接測序平台和基因雲平台,全面支援包括MGISEQ系列測序儀在内的多種測序平台,可按需定制分析流程,傳遞靈活性極高。
這套端到端解決方案,相比同類産品,在計算速度、精準度、成本、易用性、與上遊測序儀的整合度上具有極大優勢,在2020年裡,新的WGS傳遞方案将會助力基因科研與臨床檢測再上一個新台階。
其具備以下特點:
- 極速、精準:經過實際測試,整套方案在15分鐘内完成了 8組30X WGS 樣本二級分析處理。在保證精度的前提下,實作15分鐘對7200億堿基拼裝、排序、去重、變異檢測,完成基因檢測全流程120倍加速。且經過NA12878測試資料集與金标準VCF比較,二級分析的精度高于或等于BWA-0.7.17/GATK 4.1.3的資料産出,SNP 精度到達99.80%。

- 成本大幅優化:阿裡雲ACK/AGS提供雲上PaaS加速能力AGS,以混合雲方式協助華大基因完成自主測序儀大批量下機資料二級分析的近實時傳遞,理想情況下可降低二級分析計算成本1/2,縮短傳遞周期95%。
雲時代的基因科技,全面優化
基因計算所面臨的挑戰不同于正常計算,中大型基因測序公司平均每日會産生 10TB 到 100TB 的下機資料,大資料生信分析平台需要具備 PB 級的資料處理能力:存儲與壓縮、清理及管理、低成本儲存的能力;快速、安全的雲端分發共享;大規模資料挖掘、按需排程和彈性擴容;基因資料的安全隐私保護等等。
阿裡雲與華大基因的聯合方案如上圖所示,海量下機資料過濾後通過專線上載到華大基因BGI Online平台,BGI Online是一款強大且安全的基因雲平台,它具備全流程自動化、全球雲端快速部署、覆寫全球網絡資料傳遞的能力。随後,BGI Online調用阿裡雲的容器服務ACK、基因計算服務AGS 和對象存儲服務 OSS 發起WGS任務,開始一系列的生信流程分析,如引入GPU加速比對,去重,單體變異檢測等流程進行全基因組二級分析,并輸出BAM/VCF資料到BGI Online平台,BGI Online完成三級分析,以及品質檢測後,輸出符合使用者設定的定制化分析報告及資料。
方案在保證分析通量的同時滿足靈活性需求,可根據不同平台和資料定制分析流程。為各大測序服務商、研究機構等提供更簡單更高效的存儲、自動化分析、資料傳輸、項目協作以及生物資訊工具開發等方面的解決方案。
華大基因聯合阿裡雲的整體技術架構為雲原生容器混合雲,實作雲上雲下資源一體,跨地域叢集統一管理。憑借雲端的自動伸縮特性,實作大規模彈性排程計算。在使用上,該方案使用者無需關心基因資料處理過程中的計算資源、處理邏輯、資料緩存等細節,隻需将下機資料(FASTQ檔案)上傳至OSS,以及授權Bucket給AGS服務,即可高效、快速完成整個資料分析流程,并将結果資料上傳到使用者期望的存儲空間。
除了上述所提及的,極速、精準、簡便等特點,華大基因與阿裡雲的聯合方案,還成功解決了海量資料存儲、遷移與傳輸、安全合規等行業痛點問題。詳見AGS全基因組
GPU加速服務, 基因
工作流分析,
AGS基因服務指南。
解碼未知,丈量生命。科技的每一小步,都會成為人類前行的一大步。華大基因與阿裡雲願攜起手來,共同為基因事業貢獻一份力量。