天天看點

YRCloudFile 分布式存儲加速基因測序 解鎖生命密碼

作者:焱融科技

生物資訊學(Bioin formatics)是在生命科學的研究中,以計算機為工具對生物資訊進行儲存、檢索和分析的科學。它是當今生命科學和自然科學的重大前沿領域之一,同時也将是21世紀自然科學的核心領域之一。其研究重點主要展現在基因組學(Genomics)和蛋白質組學(Proteomics)兩方面,具體說就是從核酸和蛋白質序列出發,分析序列中表達的結構功能的生物資訊。生信研究主要是圍繞 DNA 展開的,主要内容涉及:基因組裝、基因預測和功能分析、比較基因組和進化、轉錄組和表達分析、全基因組關聯分析、生物資訊學工具開發等。

YRCloudFile 分布式存儲加速基因測序 解鎖生命密碼

随着目前科學技術的發展和人們科學認知水準的提高,基因測序技術逐漸拓展,至今已發展到第三代,基因檢測技術已經可以通過基因組資訊以及相關資料系統,預測罹患多種疾病的可能性。這個過程中,資訊技術的推動起到了至關重要的作用。基因測試的分析過程,本質上是大量樣本資料進行交換和比對的過程,而樣本庫的資料量直接影響了基因測序的分析品質。現在阻滞生物技術進一步普及的瓶頸已然不是生物技術本身,而是資訊技術的發展。

基因測序是一個典型的巨量資料驅動的行業,資料的收集、存儲、分析成為生命科學的中心主題。基因測序産生的巨大資料量,對資料存儲提出了嚴苛的挑戰,基因測序行業亟需大規模的高性能存儲系統,系統的易用性、資料的安全性以及資料讀取的性能顯得至關重要,唯有如此才能滿足其業務需求,基因測序才能最大程度為人類發揮作用。

基因測序全鍊路場景資料特征分析

基因測序全鍊路資料流分為樣本采集、樣本處理、高通量測序、下機資料拆分、拆分資料生物學分析和可視化報告這幾個場景。資料從測序儀下機開始到資料拆分再到拆分資料做生物學分析,不同階段業務場景所面臨的資料規模和存儲需求存在差異,具體如下:

  • 測序儀下機資料通常以海量的大檔案為主,資料規模在幾百兆到幾個 GB 之間;随着高通量測序儀的廣泛使用,單台測序儀的下機資料可達 10TB 以上;在海量資料規模場景下,對資料存儲的擴充性要求很高,在不影響業務的前提下需要迅速擴容;
  • 下機資料往往以圖檔的形式存放,為了便于後續的生物學分析階段可讀,往往需要采用大量的算力來對資料進行拆分整理,拆分後的資料分為兩大部分,以樣本拆分資料和解釋說明檔案兩類為主,即以大小混合檔案為主的資料形式;
  • 拆分後的資料在基因測序行業是一個半成品的産品,不具有可讀性,在後續的流程中,客戶通常會選擇搭建一套高性能的并行檔案存儲 +高速的網絡環境(IB 或者 roce)以及強大的算力平台來組建生物學分析平台來作為做資料分析的支撐 ;

海量基因資料存儲和處理難題

基因測序行業正以前所未有的狀态生産、存儲與管理着資料資訊,海量原始基因資料通過分析和解讀才能轉化為有價值資源,這使得基因測序行業面臨着嚴峻的存儲挑戰,資料存儲難點主要是以下幾點:

  • 存儲并發 IO 性能瓶頸

基因測序研究中心需要全力提升資料的處理速度,如果前期分析研究階段花費太多時間,就會相應地縮短後期臨床實踐的過程。是以,提升基因資料處理和分析的速度是目前最重要的課題。在加速資料處理的同時,客戶IT 團隊需要滿足研究團隊高效并行通路海量基因資料的需求。強勁的 CPU 算力和高效的算法固然可以保障平台的計算性能,但普通傳統的存儲系統卻難以滿足基因測序、基因分析等高頻和高效的資料通路和處理需求。

  • 可靠性需求

海量資料管理應用的可靠性需求也是一個不可忽視的需求,基于基因資料分析,裝置會持續運作很久的時間,是以長時間大并發的 IO 讀寫性能和穩定性就顯得尤為重要。生物學分析往往會通過對比源生物資訊産生大量的結果資料,存儲需要對海量的資料妥善儲存,且提供高性能的并行檔案存儲保持上層生物資料分析計算,底層的存儲系統在資料的管理上需要更加便捷。

  • 對 GPU 高并發性能的需求

生物學分析涉及大量 GPU 的業務需求存儲提供極高的帶寬和 IOPS 能力,測序儀下機資料在有限的帶寬能力和支援的并發能力難以承載大量的下機資料,拆分資料階段涉及大量的 GPU 算力,面臨高并發的資料通路對海量的混合檔案進行讀寫操作。即在對基因資料進行分析的時候,GPU 算力的加持能大大縮短疾病風險檢測或确定治療方案的時間。海量的資料規模,大量的算力需求,對于支援算力業務發展的存儲提出了更高的要求,高吞吐、高 IOPS、低延時的需求很明确。

某客戶是一家專注于分子診斷項目及健康管理的高新技術企業,緻力于為醫療機構、行業合作夥伴及大衆提供全方位、個體化、精準化的基因檢測服務和健康管了解決方案。安全存儲大規模基因資料,妥善管理海量資料,高效進行基因資料分析、處理和計算,快速調用有效資料進行應用分析等成為該客戶最為關注及重視的問題。

焱融海量資料高性能存儲方案

為生信基因測序加速

焱融科技作為一家資料存儲服務的高新技術企業,采用分布式存儲架構為使用者及應用提供高效的資料存儲和管理服務,為該客戶提供了在 AI+大資料時代下生物醫學領域在海量資料場景下的高性能存儲方案。

YRCloudFile 分布式存儲加速基因測序 解鎖生命密碼

方案拓撲圖

海量資料支援

  • YRCloudFile 提供标準的檔案接口和通路協定及私有用戶端,私有用戶端采用獨特的 IO 流程優化和并發 IO 處理,通過更簡化的 IO 流程,更高效的通信方式來應對高并發的 IO 讀寫。在大規模高并發業務場景下,能提供海量資料并發通路的存儲讀寫需求。
  • YRCloudFile 分布式檔案系統采用分布式架構,資料及中繼資料節點可按需擴充,達到容量與性能均線性增長的能力。滿足生信行業龐大且複雜的所有業務發展帶來的資料擴充問題。正常業務情況下,幾台乃至十幾台存儲即可滿足一個大規模項目的存儲要求,幾百 TB 到幾十 PB 乃至是數百 PB 的資料存儲量。

極緻性能

  • YRCloudFile 可相容高性能網絡,能夠支援最高 400Gb 的 IB 網絡,提供超高的帶寬能力;叢集内單存儲節點性能可達 200 萬 IOPS 性能,40GB/s 帶寬。
  • 國内首家支援 NVIDIA GPUDirect Storage(GDS)功能,實作以直接記憶體的存取方式将資料傳輸至 GPU,顯著降低 I/O 延遲,提升資料帶寬,充分釋放 GPU 算力,将性能發揮到極緻。
  • 相容不同的網絡環境,支援不同的網絡平面,特别是對 IB 網絡和以太 roce 的支援,有效地滿足了海量的非結構化混合檔案資料讀寫性能,提高 GPU 讀寫拆分資料的效率。
  • 在海量小檔案場景下, YRCloudFile 分布式檔案存儲依托于分布式中繼資料橫向擴充架構、虛拟目錄、靜态子樹和目錄 Hash 等技術,在 0~100 億級别的海量檔案背景下,檔案操作性能以及檔案的讀寫性能平穩。

管理便捷

  • 焱融科技開發的 智能資料加載 Dataload、冷熱資料分層等功能可實作冷熱資料自動分離,差別于傳統備份系統,YRCloudFile 實作無人值守,資料分流采用 YRCloudFile 自主管理,對業務透明,随時可通路。
  • YRCloudFile 采用“軟體定義”架構,将以往存儲系統依賴硬體實作的功能通過軟體實作,将存儲系統與存儲硬體解耦,實作存儲硬體通用性,硬體不再使用定制化,而是采用市場主流的通用 X86 伺服器亦或是 ARM 國産化硬體,讓客戶具有硬體選擇權,硬體維護簡單。

通過焱融高性能分布式檔案存儲系統的高靈活和高可擴充性滿足了基因測序行業客戶不斷增長的業務需求,實作了計算資源和資料資源的完全透明無縫擴充,提供高效的存儲效率和并行能力,為基因測序平台提供了高效、穩定、可靠的支撐,讓客戶更多地關注業務能力,發揮資料的價值,讓其更好地通過基因測序服務社會,以技術驅動“精準醫療”的發展。

繼續閱讀