天天看点

E-MapReduce集群搭建HAWQ实践

hawq是一种基于hdfs的mpp(massively parallel processing) sql引擎,支持标准sql/事务处理,性能比原生hive快几百倍。

hawq有多种部署模式

非ha

standalone

yarn

ha

本文以ha-yarn模式为例,其它部署模式配置方面相对简单点,可以参考文档。

在e-mapreduce产品页创建集群,本例使用ha集群。

5台机器:

在集群的所有机器上面操作:

master节点

安装hawq

打通ssh

修改系统参数

安装其它节点hawq

创建hawq相关文件夹

修改yarn为capacity-scheduler调度模式

修改hawq配置

属性名

说明

hawq_master_address_host

emr-header-1

hawq_standby_address_host

emr-header-2

hawq_dfs_url

emr-cluster/hawq_default

hawq_master_directory

/mnt/disk1/hawq/data/master

hawq_segment_directory

/mnt/disk1/hawq/data/segment

hawq_master_temp_directory

/mnt/disk1/hawq/tmp,/mnt/disk2/hawq/tmp,/mnt/disk3/hawq/tmp,/mnt/disk4/hawq/tmp

hawq_segment_temp_directory

hawq_global_rm_type

hawq_rm_yarn_address

emr-header-1:8032,emr-header-2:8032

hawq_rm_yarn_scheduler_address

emr-header-1:8030,emr-header-2:8030

dfs.nameservices

emr-cluster

dfs.ha.namenodes.emr-cluster

nn1,nn2

dfs.namenode.rpc-address.emr-cluster.nn1

emr-header-1:8020

dfs.namenode.rpc-address.emr-cluster.nn2

emr-header-2:8020

dfs.namenode.http-address.emr-cluster.nn1

emr-header-1:50070

dfs.namenode.http-address.emr-cluster.nn2

emr-header-2:50070

yarn.resourcemanager.ha

yarn.resourcemanager.scheduler.ha

emr-heaer-1:8030,emr-header-2:8030

综上修改完master节点的hawq配置之后,需要同步到其它所有节点

继续阅读