目錄
- 騰訊雲:雙螺旋
- 華為雲: Falcon
- 華大智造: MegaBOLT
- Illumina: DRAGEN
- NVIDIA: Clara Parabricks
- Sentieon
- 聚道科技:GeneDock HG
- 極道科技: Achelous
- 賽樂基因:BaseNumber
- 人和未來:GTX.CAT
- MGI+Sentieon:Zieon
最近調研,總結了一些公司推出的基因組計算加速産品和方案。簡單羅列下幾個平台,主要針對GATK流程加速。
騰訊雲:雙螺旋
2017年釋出,一體化的資料管理PaaS平台,可進行傳、存、算、管等工作。
加速原理:FPGA極光異構系統。
30x WGS運作時間:2.8h。
http://www.baiemai.com/product/helix.htm#featuresV2
https://cloud.tencent.com/developer/article/1023419
華為雲: Falcon
2018年釋出。
加速原理:FPGA
30x WGS運作時間:5~6h。
https://zhuanlan.zhihu.com/p/38967028
華大智造: MegaBOLT
2018年釋出,web端設計,在網頁上送出任務并檢視結果報告。
加速原理:與Intel合作,借助 CPU+FPGA 異構計算架構與深度算法優化的組合。
30x WGS運作時間:2h。
https://www.mgi-tech.com/resource/webinars_info/23/
https://www.intel.cn/content/www/cn/zh/high-performance-computing/accelerating-genetic-decoding.html
Illumina: DRAGEN
2018年Illumina收購的NGS資料分析加速解決方案供應商Edico Genome,繼承了DRAGEN。已部署AWS。
DRAGEN™ Bio-IT平台加速原理:FPGA+軟體算法。
運作模式:本地、雲端、混合。
https://www.illumina.com.cn/products/by-type/informatics-products/dragen-bio-it-platform.html
NVIDIA: Clara Parabricks
英偉達推出的整套 Clara Parabricks Pipeline 分析軟體是一種加速計算架構,支援使用新一代測序 (NGS) 資料的人口、癌症和 RNA 應用。Parabricks Pipelines 是建立在 NVIDIA 的 GPU 架構之上,支援一系列基因分析工具來處理從測序讀取到變異調用的NGS 資料。
加速原理:GPU。
30x WGS運作時間:<1h。
https://www.nvidia.cn/clara/genomics/
https://www.jiemian.com/article/2579993.html
https://docs.nvidia.com/clara/parabricks/v3.5/text/software_overview.html
Sentieon
Sentieon 緻力于解決生物資訊資料分析中的速度與準确度瓶頸,通過算法的深度優化和企業級的軟體工程,大幅度提升NGS資料處理的效率、準确度和可靠性。與GATK對應的流程DNAseq,已部署在阿裡雲和AWS等。
加速原理:X86和arm架構計算,軟體優化(C++重寫GATK)。
https://www.insvast.com/sentieon
聚道科技:GeneDock HG
加速主要利用了Sentieon。
https://www.genedock.com/article/docs/seqflow/developer/workflow/public-workflow/hg-germline-wgs/HG%20Germline%20WGS/
https://www.36kr.com/p/1721398804481
極道科技: Achelous
2016年發起,分布式排程器和執行引擎,支援超大規模科學計算和生信分析。支援GPU,FPGA等專業硬體加速。可部署私有雲或AWS等公有雲。
http://www.achelous.org/
賽樂基因:BaseNumber
BaseNumber DNA測序資料分析系統通過執行基于“CUDA+GPU”計算環境開發的高并行算法,将DNA測序資料二級分析速度提升百倍,内置多種分析流程。已部署阿裡雲。
加速原理:CPU+GPU異構計算。
30x WGS運作時間:12min。
http://www.sailegene.com.cn/product.html
https://www.36kr.com/p/1724698247169
人和未來:GTX.CAT
GTX.CAT是一組計算高效、性能卓越、與工業标準高度一緻的生物資訊二級分析軟體工具集,內建了DNA序列比對、BAM預處理、BAM資料質控、變異檢測等功能子產品,完全遵循行業接受度最高的BWA-GATK最佳實踐流程,提供了一套基因組資料分析全流程的完整解決方案。已部署阿裡雲。
加速原理:之前推的是FPGA加速,現在推CPU加速。
30x WGS運作時間:30min。
http://www.genetalks.com/gtxlab.html#clin-gtx-heal4
https://www.sohu.com/a/544692299_121349423
MGI+Sentieon:Zieon
2021年華大智造與Sentieon合作推出的高通量測序資料分析一體機Zieon。雙方團隊詳細讨論并測試了華大智造MegaBOLT和Sentieon軟體子產品的性能,采用合适的子產品組合推出了Zieon資料分析一體機。資料顯示,Zieon在準确率提升的同時可加速46倍左右。
加速原理:上遊比對FPGA加速,下遊CPU,軟體優化子產品及多任務排程系統。
30x WGS運作時間:52min。
準确性:SNP超過99.9%,Indel超過99.5%。
https://www.seqchina.cn/14444.html
以上大部分平台隻對二代測序資料甚至僅人類的GATK 加速,對于三代資料,鮮有專門的解決方案。個人認為,除标準的GATK流程外,目前最認可的産品應該是Sentieon,在提速的同時,保證和GATK标準結果一緻。
大部分雲平台并沒有提供自己獨特的優化算法,隻是借硬體加速。幾年前FPGA很流行,如今好像不行了,是什麼原因呢?我不懂,也許是錯覺。
作者:Bioinfarmer,請關注同名微信公衆号:Bioinfarmer。