天天看點

基因組計算加速平台調研

目錄

  • ​​騰訊雲:雙螺旋​​
  • ​​華為雲: Falcon​​
  • ​​華大智造: MegaBOLT​​
  • ​​Illumina: DRAGEN​​
  • ​​NVIDIA: Clara Parabricks​​
  • ​​Sentieon​​
  • ​​聚道科技:GeneDock HG​​
  • ​​極道科技: Achelous​​
  • ​​賽樂基因:BaseNumber​​
  • ​​人和未來:GTX.CAT​​
  • ​​MGI+Sentieon:Zieon​​

最近調研,總結了一些公司推出的基因組計算加速産品和方案。簡單羅列下幾個平台,主要針對GATK流程加速。

騰訊雲:雙螺旋

2017年釋出,一體化的資料管理PaaS平台,可進行傳、存、算、管等工作。

加速原理:FPGA極光異構系統。

30x WGS運作時間:2.8h。

​​http://www.baiemai.com/product/helix.htm#featuresV2​​

​​https://cloud.tencent.com/developer/article/1023419​​

華為雲: Falcon

2018年釋出。

加速原理:FPGA

30x WGS運作時間:5~6h。

​​https://zhuanlan.zhihu.com/p/38967028​​

華大智造: MegaBOLT

2018年釋出,web端設計,在網頁上送出任務并檢視結果報告。

加速原理:與Intel合作,借助 CPU+FPGA 異構計算架構與深度算法優化的組合。

30x WGS運作時間:2h。

​​https://www.mgi-tech.com/resource/webinars_info/23/​​

​​https://www.intel.cn/content/www/cn/zh/high-performance-computing/accelerating-genetic-decoding.html​​

Illumina: DRAGEN

2018年Illumina收購的NGS資料分析加速解決方案供應商Edico Genome,繼承了DRAGEN。已部署AWS。

DRAGEN™ Bio-IT平台加速原理:FPGA+軟體算法。

運作模式:本地、雲端、混合。

​​https://www.illumina.com.cn/products/by-type/informatics-products/dragen-bio-it-platform.html​​

NVIDIA: Clara Parabricks

英偉達推出的整套 Clara Parabricks Pipeline 分析軟體是一種加速計算架構,支援使用新一代測序 (NGS) 資料的人口、癌症和 RNA 應用。Parabricks Pipelines 是建立在 NVIDIA 的 GPU 架構之上,支援一系列基因分析工具來處理從測序讀取到變異調用的NGS 資料。

加速原理:GPU。

30x WGS運作時間:<1h。

​​https://www.nvidia.cn/clara/genomics/​​

​​https://www.jiemian.com/article/2579993.html​​

​​https://docs.nvidia.com/clara/parabricks/v3.5/text/software_overview.html​​

Sentieon

Sentieon 緻力于解決生物資訊資料分析中的速度與準确度瓶頸,通過算法的深度優化和企業級的軟體工程,大幅度提升NGS資料處理的效率、準确度和可靠性。與GATK對應的流程DNAseq,已部署在阿裡雲和AWS等。

加速原理:X86和arm架構計算,軟體優化(C++重寫GATK)。

​​https://www.insvast.com/sentieon​​

聚道科技:GeneDock HG

加速主要利用了Sentieon。

​​https://www.genedock.com/article/docs/seqflow/developer/workflow/public-workflow/hg-germline-wgs/HG%20Germline%20WGS/​​

​​https://www.36kr.com/p/1721398804481​​

極道科技: Achelous

2016年發起,分布式排程器和執行引擎,支援超大規模科學計算和生信分析。支援GPU,FPGA等專業硬體加速。可部署私有雲或AWS等公有雲。

​​http://www.achelous.org/​​

賽樂基因:BaseNumber

BaseNumber DNA測序資料分析系統通過執行基于“CUDA+GPU”計算環境開發的高并行算法,将DNA測序資料二級分析速度提升百倍,内置多種分析流程。已部署阿裡雲。

加速原理:CPU+GPU異構計算。

30x WGS運作時間:12min。

​​http://www.sailegene.com.cn/product.html​​

​​https://www.36kr.com/p/1724698247169​​

人和未來:GTX.CAT

GTX.CAT是一組計算高效、性能卓越、與工業标準高度一緻的生物資訊二級分析軟體工具集,內建了DNA序列比對、BAM預處理、BAM資料質控、變異檢測等功能子產品,完全遵循行業接受度最高的BWA-GATK最佳實踐流程,提供了一套基因組資料分析全流程的完整解決方案。已部署阿裡雲。

加速原理:之前推的是FPGA加速,現在推CPU加速。

30x WGS運作時間:30min。

​​http://www.genetalks.com/gtxlab.html#clin-gtx-heal4​​

​​https://www.sohu.com/a/544692299_121349423​​

MGI+Sentieon:Zieon

2021年華大智造與Sentieon合作推出的高通量測序資料分析一體機Zieon。雙方團隊詳細讨論并測試了華大智造MegaBOLT和Sentieon軟體子產品的性能,采用合适的子產品組合推出了Zieon資料分析一體機。資料顯示,Zieon在準确率提升的同時可加速46倍左右。

加速原理:上遊比對FPGA加速,下遊CPU,軟體優化子產品及多任務排程系統。

30x WGS運作時間:52min。

準确性:SNP超過99.9%,Indel超過99.5%。

​​https://www.seqchina.cn/14444.html​​

以上大部分平台隻對二代測序資料甚至僅人類的GATK 加速,對于三代資料,鮮有專門的解決方案。個人認為,除标準的GATK流程外,目前最認可的産品應該是Sentieon,在提速的同時,保證和GATK标準結果一緻。

大部分雲平台并沒有提供自己獨特的優化算法,隻是借硬體加速。幾年前FPGA很流行,如今好像不行了,是什麼原因呢?我不懂,也許是錯覺。

作者:Bioinfarmer,請關注同名微信公衆号:Bioinfarmer。