天天看點

大資料平台解決方案,Hadoop + HDFS+Hive+Hbase大資料開發整體架構設計

波若大資料平台Hadoop + HDFS+Hive+Hbase大資料開發工具剖析:

大資料平台解決方案,Hadoop + HDFS+Hive+Hbase大資料開發整體架構設計

HDFS:分布式、高度容錯性檔案系統,能提供高吞吐量的資料通路,非常适合大規模資料集上的應用,大規模的波若大資料平台(BR-odp)使用者部署上1000台的HDFS叢集。資料規模高達50PB以上

HDFS和MR共同組成Hadoop分布式系統體系結構的核心。HDFS在叢集上實作了分布式檔案系統,MR在叢集上實作了分布式計算和任務處理。HDFS在MR任務處理過程中提供了檔案操作和存儲等支援,MR在HDFS的基礎上實作了任務的分發、跟蹤、執行等工作,并收集結果,二者互相作用,完成分布式叢集的主要任務。

Hive:基于Hadoop的一個資料倉庫工具,Hive建構在HDFS之上,它提供了一系列的工具,用來進行資料提取、轉換、加載,這是一種可以存儲、查詢和分析存儲在Hadoop中的大規模資料機制可以将結構化的資料檔案映射為一張資料庫表,并提供類sql查詢功能,可以将sql語句轉換為MapReduce/Tez任務進行運作。其優點是學習成本低,可以通過類SQL語句快速實作簡單的資料統計,不必開發專門的MapReduce應用,十分适合資料倉庫離線的統計分析。

大資料平台解決方案,Hadoop + HDFS+Hive+Hbase大資料開發整體架構設計

HBase:分布式的、面向列的開源資料庫,HBase不同于一般的關系資料庫,它是一個适合于非結構化資料存儲的資料庫。另一個不同的是HBase基于列的而不是基于行的模式。HBase對上百億條,上百萬列的資料表能夠提供實時的通路。

波若大資料平台,Hadoop分布式計算平台的分布式檔案系統HDFS、MapReduce處理過程,以及資料倉庫工具Hive和分布式資料庫Hbase等核心技術的應用,實作對大規模海量資料的高效、便捷的資料計算、存儲、分析等實用價值。