天天看點

使用大資料閃存打造融合資料平台

随着企業、服務提供商和超大型資料中心從描述性分析向預測性和規範性分析演進,結合了融合營運和分析資料管道的融合資料平台變得日益重要。大資料閃存可讓資料處理平台快速通路曆史資料和實時資料流,進而以較低成本建立有效的預測模型。

随着大資料從描述性分析(批量)向預測性(互動)和規範性(實時)分析演進,企業正在越來越多地使用串流資料源和曆史批量資料,以提高機器的學習能力并建立預測模型。簡而言之,描述性分析是為了了解事态,預測性分析是為了建立一個假設場景模型,而規範性分析是為了通過采取資料驅動型行動來影響結果。新型分析應用能夠在交易發生時實時捕獲它,并能影響其結果,進而帶來直接的商業效益。這方面的用例包括:

反洗錢

欺詐分析

定向營銷

工業網際網路(iot/ioe)

實時生産制造

醫療領域的患者資料情報

sandisk閃迪利用新型分析應用對半導體制造資料進行實時分析。

lambda架構因其融合實時分析和批量分析的能力而深受喜愛。lambda架構使用hdfs、scalding和hbase作為融合實時分析和批量資料管道的構模組化塊。但是,該架構帶來的多管道複制代碼和資料的開銷,使得其難以大規模部署。

為了克服lambda架構的局限性,必需配備一個能夠有效處理批量和實時串流的大資料管道。全新的smack堆棧——scala及其spark、mesos、akka、cassandra和kafka生态系統便旨在實作這一點。smack串流已成為一個用于處理批量和串流資料的有效大型平台。

配備smack(spark、mesos、akka、cassandra和kafka)堆棧的串流架構

以下是smark堆棧的簡要介紹:

為了建立有效的預測模型,融合堆棧系統需要快速通路曆史資料和實時資料流。基于閃存的資料網格可為這些新的資料驅動型架構帶來巨大效益。

事實上,infiniflash系統之是以能成為融合資料平台架構的構模組化塊,其架構和性能起着至關重要的作用:

每秒可捕獲數百萬個事件,且無事件丢失

更快的批量攝取

便于擴充

使用avro或protobuf格式存儲資料,無需etl(提取、轉換、加載)過程

通過支援kafka等分布式消息系統消除負載

能夠有效處理實時事件和批量資料

輸入存儲處理,以秒和亞秒級實作時延傳遞

面向資料密集型工作負載的軟體定義資料構造,提供靈活性和可擴充性

可長時間存儲數個tb的資料

支援高吞吐量的批量資料存儲,且滿足低延遲時間實時查詢

可處理分離的資料源和“突發性”工作負載

采用無模式方式存儲資料

支援hdfs和nosql資料庫(如cassandra、couchdb、memsql、hbase等)

可借助rackscale架構擴充至pb級

極低的年故障率(afr)

可使用解聚/共享存儲提供企業就緒度、沿襲(審計日志)、合規(依法保留等)和版本控制(維護不同的時間點副本)

專為來自hdfs/s3的故障、備份和更新檔而設計

支援亞秒級時延的實時查詢

支援批量/聚集查詢

支援針對hdfs和nosql的查詢

使用infiniflash“大資料閃存”打造資料密集型融合資料平台的三大原因

無論您是企業還是服務提供商,以下是您應該考慮使用infiniflash打造融合資料平台的三大原因:

1.       滿足捕獲、處理、存儲和查詢資料管道的所有要求

傳統的直接附加型存儲解決方案和純hdd解決方案無法提供融合資料平台所需的大規模性能和吞吐量。此外,它們也不具備可擴充性所帶來的資本支出和營運支出效益,也不具備這些平台所要求的靈活性和企業就緒程度。

2.       全球支援

infiniflash在全球各地得到了sandisk閃迪及其合作夥伴的支援。infiniflash是tsa net support community的一部分,可確定滿足嚴格的sla協定要求。與此同時,我們的flashstart™功能可確定其安裝順利,并提供卓越的客戶體驗。

3.       同類最佳的生态系統

結語

搭建融合資料平台是為了滿足融合營運和分析管道的要求,以及随後的捕獲、處理、存儲和查詢階段的存儲要求,一個基于大資料閃存的資料構造是融合平台理想的存儲層構模組化塊,可讓資料管道的每個階段都受益。

原文釋出時間為:2016年2月17日

本文來自雲栖社群合作夥伴至頂網,了解相關資訊可以關注至頂網。

繼續閱讀