天天看點

好程式員大資料紀實:HBase知識點集中總結

好程式員大資料紀實: HBase知識點集中總結, HBase – Hadoop Database,是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統,利用HBase技術可在廉價PC Server上搭建起大規模結構化存儲叢集。

   與 FUJITSU Cliq等商用大資料産品不同,HBase是Google Bigtable的開源實作,類似Google Bigtable利用GFS作為其檔案存儲系統,HBase利用Hadoop HDFS作為其檔案存儲系統;Google運作MapReduce來處理Bigtable中的海量資料,HBase同樣利用Hadoop MapReduce來處理HBase中的海量資料;Google Bigtable利用 Chubby作為協同服務,HBase利用Zookeeper作為對應。

一、 hbase的特性

  1、hbase資料的終持久化存儲是基于hsfs檔案系統,存儲容量幾乎無限,可以随時線上擴容。

  2、hbase的資料增删改查功能子產品是分布式系統。

  3、nosql資料庫,表結構。

二、 HBase的存儲

  HBase中的所有資料檔案都存儲在Hadoop HDFS檔案系統上。

  1. HFile, HBase中KeyValue資料的存儲格式,HFile是Hadoop的二進制格式檔案,實際上StoreFile就是對HFile做了輕量級包裝,即StoreFile底層就是HFile。

   2. HLog File,HBase中WAL(Write Ahead Log) 的存儲格式,

QQ号碼購買平台

實體上是Hadoop的Sequence File。

三、 HBase工作機制

hbase工作機制詳細解析:

   1、hbase的整體工作機制是接受用戶端發來的請求指令,從hdfs中讀取表檔案資訊傳回給用戶端;

   2、每個hbase伺服器負責表檔案中對應region區域,hdfs上表檔案的存儲也是分為每個region單獨存儲,每個region中又分為多個列族存儲;

   3、hbase叢集中有兩種角色,regionserver和master,regionserver負責響應用戶端請求,讀取表檔案;

  master負責監控regionserver的狀态,以便及時處理掉線的regionserver,保證hbase叢集正常運作;當一個region挂掉時,master會及時監控到,這裡利用了zookeeper管理regionserver狀态資訊。

  當一個 master挂掉時,不會影響用戶端查資料,但如果此時regionserver挂掉,master又不能及時監控到,便會影響資料查詢;解決方法就是再設定一台master,一台active狀态,一台standby狀态用作備用,當active的master挂掉,standby的master将會變為active狀态,監控regionserver。

   4、master和zookeeper就組成了高可用。

   大資料開發之路不易,大家且行且珍惜。好程式員為大家的學習保駕護航。