Hive和HBase的差別

Hive是什麼？

Apache Hive是一個建構于Hadoop(分布式系統基礎架構)頂層的資料倉庫，注意這裡不是資料庫。Hive可以看作是使用者程式設計接口，它本身不存儲和計算資料；它依賴于HDFS(Hadoop分布式檔案系統)和MapReduce(一種程式設計模型，映射與化簡；用于大資料并行運算)。其對HDFS的操作類似于SQL—名為HQL，它提供了豐富的SQL查詢方式來分析存儲在HDFS中的資料；HQL經過編譯轉為MapReduce作業後通過自己的SQL 去查詢分析需要的内容；這樣一來，即使不熟悉MapReduce 的使用者也可以很友善地利用SQL 語言查詢、彙總、分析資料。而MapReduce開發人員可以把己寫的mapper 和reducer 作為插件來支援Hive 做更複雜的資料分析。

HBase是什麼？

Apache HBase是運作于HDFS頂層的NoSQL(=Not Only SQL，泛指非關系型的資料庫)資料庫系統。差別于Hive，HBase具備随即讀寫功能，是一種面向列的資料庫。HBase以表的形式存儲資料，表由行和列組成，列劃分為若幹個列簇(row family)。例如：一個消息列簇包含了發送者、接受者、發送日期、消息标題以及消息内容。每一對鍵值在HBase會被定義為一個Cell，其中，鍵由row-key(行鍵)，列簇，列，時間戳構成。而在HBase中每一行代表由行鍵辨別的鍵值映射組合。Hbase目标主要依靠橫向擴充，通過不斷增加廉價的商用伺服器，來增加計算和存儲能力。

特性

遵從JDBC的Hive不但可以讓具SQL知識的使用者來間接執行MapReduce作業，同時裡面也整合了目前基于SQL的操作工具。不過，由于預設的資料讀取是全表周遊的，其時間的耗費也不可避免地相對較大。盡管如此，不盡相同的Hive分區方法，其周遊讀取的資料量也是能夠有所限制的。Hive分區允許對存儲在獨立檔案上的資料進行篩選查詢，傳回的是篩選後的資料。例如針對日期的日志檔案通路，前提是該類檔案的檔案名包含日期資訊。

HBase以鍵值對的形式儲存資料。其包含了4種主要的資料操作方式:

添加或更新資料行

掃描擷取某範圍内的cells

為某一具體資料行傳回對應的cells

從資料表中删除資料行/列，或列的描述資訊

列資訊可用于擷取資料變動前的取值（透過HBase壓縮政策可以删除列資訊曆史記錄來釋放存儲空間）。

限制

Hive不支援正常的SQL更新語句，如：資料插入，更新，删除。因為其對資料的操作是針對整個資料表的。同時該特點也使得資料查詢用時以數分鐘甚至數小時來進行計算。此外，其MapReduce轉換過程必須遵從預定義的轉換規則。

HBase的資料查詢是有一套屬于自己類似SQL的操作語言的，這個需要一定的學習來掌握。此外，要運作HBase，ZooKeeper是需要配備的。ZooKeeper是一個針對大型分布式系統的可靠協調系統，提供的功能包括：配置維護、名字服務、分布式同步、組服務等。

應用舉例

Hive适用于網絡日志等資料量大、靜态的資料查詢。例如：使用者消費行為記錄，網站通路足迹等。但是不适用于聯機實時線上查詢的場合。

HBase能在大資料聯機實時查詢場合大展身手。例如：Fackbook就利用其對使用者間的傳送的消息進行聯機實時分析。

Hive和HBase的差別

繼續閱讀

MapReduce(一)：入門級程式wordcount及其分析

HiveQl語句應用執行個體：WordCount具體步驟如下：

用mapreduce計算wordCount和手機流量統計程式運作過程WordCount統計手機流量統計

Hadoop之運作wordcount

Eclipse運作WordCount（詳細版）相關連接配接Eclipse運作WordCount

Oracle的基本操作

專家訪談：搜尋開源力量：Lucene技術前景

SQL優化SQL語句優化的目的

JAVA高效程式設計指南

關于SQL語言

SQL語言基礎：常用的資料查詢語句

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

ubuntu14.04下安裝hbse1.0.1.1

neo4j之cypher使用文檔

詳解STM32單片機的堆棧

sqlServer根據經緯查距離