HDFS與Hive、HBase之間到底是什麼關系

2023-08-05 16:42:13

一、概念

HDFS

The Hadoop Distribute File System 分布式檔案系統是一個被設計在運作商用硬體的一個分布式檔案系統。它與現有的分布式檔案系統有許多相似之處，但是與其他分布式檔案系統差別是顯著的。HDFS具有高度容錯性，設計用于部署在低成本硬體上。HDFS提供對應用程式資料的高吞吐量通路，适合具有大資料集的應用程式。HDFS放寬了一些POSIX要求，以實作對檔案系統的流式通路。

Hive

Hive是一個基于Apache Hadoop的資料倉庫基礎設施。Hadoop為在商用硬體上的資料存儲和處理提供了大規模的擴充和高容錯能力。

Hive的設計是為了友善資料彙總、特定查詢和分析大量資料。它提供SQL語句能讓使用者更容易地做特定查詢，彙總和資料分析。同時，Hive的SQL給使用者很多地方去內建他們自己自定義的功能做自定義分析，例如使用者定義函數UDFs(User Defined Functions).

Hive不是為了聯機事物處理而設計的，最适合是用于處理傳統資料倉庫任務。

HBase

HBase是一個Hadoop database，是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統，利用HBase技術可在廉價PC Server上搭建起大規模結構化存儲叢集。

當你需要随機，實時讀寫通路大資料時，請使用Apache HBase。這個工程的目的是在商用硬體叢集上托管一個非常大的tables（數十億行數百萬列）。

HBase是Google Bigtable的開源實作，但是也有很多不同之處。比如：Google Bigtable利用GFS作為其檔案存儲系統，HBase利用Hadoop HDFS作為其檔案存儲系統；Google運作MAPREDUCE來處理Bigtable中的海量資料，HBASE同樣利用Hadoop MapReduce來處理HBase中的海量資料；Google Bigtable利用Chubby作為協同服務，HBASE利用Zookeeper作為對應。

HBase是Apache的Hadoop項目的子項目。HBase不同于一般的關系資料庫，它是一個适合于非結構化資料存儲的資料庫。另一個不同的是HBase基于列的而不是基于行的模式。

二、三者之間的關系：

HDFS是Hadoop的一個子產品，主要負責資料存儲，而Hadoop另一個模式是MapReduce，用于離線資料計算。

Hive依賴于Hadoop，實際存儲是依賴于Hadoop的HDFS子產品，計算依賴于Hadoop的Mapreduce子產品。

HBase則隻是依賴于Hadoop的HDFS子產品，是基于Hdfs實作對分布式資料檔案的管理，但是跟Mapreduce沒有關系，HBase的優勢在于實時計算，通過API直接通路HBase，實作實時計算，由于使用的是nosql模式（列式結構），進而提高了查找性能，使其能運用于大資料場景，這是它跟MapReduce的差別。

Hive的資料源既可以來自HDFS，也可以來自于HBase。

HDFS與Hive、HBase之間到底是什麼關系

一、概念

HDFS

Hive

HBase

二、三者之間的關系：

繼續閱讀

《Hive權威指南》第八章：HiveQL索引8 HiveQL：索引

Windows下Cygwin環境的Hadoop安裝（3）- 運作hadoop中的wordcount執行個體遇到的問題和解決方法

MapReduce運作Wordcount時一直卡在INFO mapreduce.Job: Running job，web檢視一直處于accepted階段

ubuntu hadoop2.6.1，terminal下運作wordcount

MapReduce(一)：入門級程式wordcount及其分析

HiveQl語句應用執行個體：WordCount具體步驟如下：

hadoop操作遇到的問題問題一：輸出檔案已存在

Hadoop之運作wordcount

jdk1.7+Eclipse+Maven3.5+Hadoop2.7.3建構hadoop項目

Eclipse運作WordCount（詳細版）相關連接配接Eclipse運作WordCount

hadoop 用MR實作join操作

Centos7 下 Hadoop 2.6.4 分布式叢集環境搭建摘要叢集準備安裝JDK 安裝 Hadoop 2.6.4 部署 slaver1-slaver4 啟動 hadoop 叢集成功了

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

ubuntu14.04下安裝hbse1.0.1.1

User Defined Hadoop DataType

Ambari介紹和架構原理