天天看點

E-MapReduce叢集搭建HAWQ實踐

hawq是一種基于hdfs的mpp(massively parallel processing) sql引擎,支援标準sql/事務處理,性能比原生hive快幾百倍。

hawq有多種部署模式

非ha

standalone

yarn

ha

本文以ha-yarn模式為例,其它部署模式配置方面相對簡單點,可以參考文檔。

在e-mapreduce産品頁建立叢集,本例使用ha叢集。

5台機器:

在叢集的所有機器上面操作:

master節點

安裝hawq

打通ssh

修改系統參數

安裝其它節點hawq

建立hawq相關檔案夾

修改yarn為capacity-scheduler排程模式

修改hawq配置

屬性名

說明

hawq_master_address_host

emr-header-1

hawq_standby_address_host

emr-header-2

hawq_dfs_url

emr-cluster/hawq_default

hawq_master_directory

/mnt/disk1/hawq/data/master

hawq_segment_directory

/mnt/disk1/hawq/data/segment

hawq_master_temp_directory

/mnt/disk1/hawq/tmp,/mnt/disk2/hawq/tmp,/mnt/disk3/hawq/tmp,/mnt/disk4/hawq/tmp

hawq_segment_temp_directory

hawq_global_rm_type

hawq_rm_yarn_address

emr-header-1:8032,emr-header-2:8032

hawq_rm_yarn_scheduler_address

emr-header-1:8030,emr-header-2:8030

dfs.nameservices

emr-cluster

dfs.ha.namenodes.emr-cluster

nn1,nn2

dfs.namenode.rpc-address.emr-cluster.nn1

emr-header-1:8020

dfs.namenode.rpc-address.emr-cluster.nn2

emr-header-2:8020

dfs.namenode.http-address.emr-cluster.nn1

emr-header-1:50070

dfs.namenode.http-address.emr-cluster.nn2

emr-header-2:50070

yarn.resourcemanager.ha

yarn.resourcemanager.scheduler.ha

emr-heaer-1:8030,emr-header-2:8030

綜上修改完master節點的hawq配置之後,需要同步到其它所有節點

繼續閱讀