Spark 讀取 Hbase 優化 --手動劃分 region 提高并行數

2018-12-14 23:50:00

一. Hbase 的 region

我們先簡單介紹下 Hbase 的架構和 region ：

從實體叢集的角度看，Hbase 叢集中，由一個 Hmaster 管理多個 HRegionServer，其中每個 HRegionServer 都對應一台實體機器，一台 HRegionServer 伺服器上又可以有多個 Hregion（以下簡稱 region）。要讀取一個資料的時候，首先要先找到存放這個資料的 region。而 Spark 在讀取 Hbase 的時候，讀取的 Rdd 會根據 Hbase 的 region 數量劃分 stage。是以當 region 存儲設定得比較大導緻 region 比較少，而 spark 的 cpu core 又比較多的時候，就會出現無法充分利用 spark 叢集所有 cpu core 的情況。

我們再從邏輯表結構的角度看看 Hbase 表和 region 的關系。

Hbase是通過把資料配置設定到一定數量的region來達到負載均衡的。一個table會被配置設定到一個或多個region中，這些region會被配置設定到一個或者多個regionServer中。在自動split政策中，當一個region達到一定的大小就會自動split成兩個region。
Region由一個或者多個Store組成，每個store儲存一個columns family，每個Strore又由一個memStore和0至多個StoreFile 組成。memStore存儲在記憶體中， StoreFile存儲在HDFS上。
region是HBase中分布式存儲和負載均衡的最小單元。不同Region分布到不同RegionServer上，但并不是存儲的最小單元。

二. Spark 讀取 Hbase 優化及 region 手動拆分

在用spark的時候，spark正是根據hbase有多少個region來劃分stage。也就是說region劃分得太少會導緻spark讀取時的并發度太低，浪費性能。但如果region數目太多就會造成讀寫性能下降，也會增加ZooKeeper的負擔。是以設定每個region的大小就很關鍵了。

自0.94.0版本以來，split還有三種政策可以選擇，不過一般使用預設的分區政策就可以滿足需求，我們要修改的是會觸發 region 分區的存儲容量大小。

而在0.94.0版本中，預設的 region 大小為10G，就是說當存儲的資料達到 10 G 的時候，就會觸發 region 分區操作。有時候這個值可能太大，這時候就需要修改配置了。我們可以在 HBASE_HOME/conf/hbase-site.xml 檔案中，增加如下配置：

<property> 
<name>hbase.hregion.max.filesize</name> 
<value>536870912</value>
</property>

其中的 value 值就是你要修改的觸發 region 分區的大小，要注意這個值是以 bit 為機關的，這裡是将region檔案的大小改為512m。

修改之後我們就可以手動 split region了，手動分區會自動根據這個新的配置值大小，将 region 已經存儲起來的資料進行再次進行拆分。

我們可以在 hbase shell 中使用 split 來進行操作，有以下幾種方式可以進行手動拆分。

split ‘tableName’ 
split ‘namespace:tableName’ 
split ‘regionName’ # format: ‘tableName,startKey,id’ 
split ‘tableName’, ‘splitKey’ 
split ‘regionName’, ‘splitKey’

這裡使用的是 split ‘namespace:tableName’ 這種方式。其中 tableName 自不必多說，就是要拆分的表名，namespace可以在hbase的web界面中檢視，一般會是default。

使用指令之後稍等一會，hbase會根據新的region檔案大小去split，最終結果可以在web-ui的"table Details"一欄，點選具體table檢視。

以上~

Spark 讀取 Hbase 優化 --手動劃分 region 提高并行數

一. Hbase 的 region

二. Spark 讀取 Hbase 優化及 region 手動拆分

繼續閱讀

1.Linux指令行使用技巧

spec檔案詳解

BMP檔案結構及圖像每行位元組計算方法

磁盤結構及在Linux中的命名

HK-2000資料采集儀資料庫操作說明

終端環境之tmux

查找檔案中的字元串

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

拒絕使用者登入:/bin/false和/usr/sbin/nologin

Shell程式設計——sort排序、uniq忽略重複、tr替換壓縮删除、cut指定删除字段、正規表達式元字元sort 指令uniq 指令tr 指令cut 指令正規表達式

ubuntu14.04下安裝hbse1.0.1.1

Linxu常用指令技巧彙總

《Linux指令行與Shell腳本程式設計大全第2版.布盧姆》pdf

nginx location中斜線的位置的重要性

ACS基本配置-權限等級管理

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結