Hive是什麼?
Apache Hive是一個建構于Hadoop(分布式系統基礎架構)頂層的資料倉庫,注意這裡不是資料庫。Hive可以看作是使用者程式設計接口,它本身不存儲和計算資料;它依賴于HDFS(Hadoop分布式檔案系統)和MapReduce(一種程式設計模型,映射與化簡;用于大資料并行運算)。其對HDFS的操作類似于SQL—名為HQL,它提供了豐富的SQL查詢方式來分析存儲在HDFS中的資料;HQL經過編譯轉為MapReduce作業後通過自己的SQL 去查詢分析需要的内容;這樣一來,即使不熟悉MapReduce 的使用者也可以很友善地利用SQL 語言查詢、彙總、分析資料。而MapReduce開發人員可以把己寫的mapper 和reducer 作為插件來支援Hive 做更複雜的資料分析。
HBase是什麼?
Apache HBase是運作于HDFS頂層的NoSQL(=Not Only SQL,泛指非關系型的資料庫)資料庫系統。差別于Hive,HBase具備随即讀寫功能,是一種面向列的資料庫。HBase以表的形式存儲資料,表由行和列組成,列劃分為若幹個列簇(row family)。例如:一個消息列簇包含了發送者、接受者、發送日期、消息标題以及消息内容。每一對鍵值在HBase會被定義為一個Cell,其中,鍵由row-key(行鍵),列簇,列,時間戳構成。而在HBase中每一行代表由行鍵辨別的鍵值映射組合。Hbase目标主要依靠橫向擴充,通過不斷增加廉價的商用伺服器,來增加計算和存儲能力。
特性
遵從JDBC的Hive不但可以讓具SQL知識的使用者來間接執行MapReduce作業,同時裡面也整合了目前基于SQL的操作工具。不過,由于預設的資料讀取是全表周遊的,其時間的耗費也不可避免地相對較大。盡管如此,不盡相同的Hive分區方法,其周遊讀取的資料量也是能夠有所限制的。Hive分區允許對存儲在獨立檔案上的資料進行篩選查詢,傳回的是篩選後的資料。例如針對日期的日志檔案通路,前提是該類檔案的檔案名包含日期資訊。
HBase以鍵值對的形式儲存資料。其包含了4種主要的資料操作方式:
添加或更新資料行
掃描擷取某範圍内的cells
為某一具體資料行傳回對應的cells
從資料表中删除資料行/列,或列的描述資訊
列資訊可用于擷取資料變動前的取值(透過HBase壓縮政策可以删除列資訊曆史記錄來釋放存儲空間)。
限制
Hive不支援正常的SQL更新語句,如:資料插入,更新,删除。因為其對資料的操作是針對整個資料表的。同時該特點也使得資料查詢用時以數分鐘甚至數小時來進行計算。此外,其MapReduce轉換過程必須遵從預定義的轉換規則。
HBase的資料查詢是有一套屬于自己類似SQL的操作語言的,這個需要一定的學習來掌握。此外,要運作HBase,ZooKeeper是需要配備的。ZooKeeper是一個針對大型分布式系統的可靠協調系統,提供的功能包括:配置維護、名字服務、分布式同步、組服務等。
應用舉例
Hive适用于網絡日志等資料量大、靜态的資料查詢。例如:使用者消費行為記錄,網站通路足迹等。但是不适用于聯機實時線上查詢的場合。
HBase能在大資料聯機實時查詢場合大展身手。例如:Fackbook就利用其對使用者間的傳送的消息進行聯機實時分析。