hawq是一种基于hdfs的mpp(massively parallel processing) sql引擎,支持标准sql/事务处理,性能比原生hive快几百倍。
hawq有多种部署模式
非ha
standalone
yarn
ha
本文以ha-yarn模式为例,其它部署模式配置方面相对简单点,可以参考文档。
在e-mapreduce产品页创建集群,本例使用ha集群。
5台机器:
在集群的所有机器上面操作:
master节点
安装hawq
打通ssh
修改系统参数
安装其它节点hawq
创建hawq相关文件夹
修改yarn为capacity-scheduler调度模式
修改hawq配置
属性名
值
说明
hawq_master_address_host
emr-header-1
hawq_standby_address_host
emr-header-2
hawq_dfs_url
emr-cluster/hawq_default
hawq_master_directory
/mnt/disk1/hawq/data/master
hawq_segment_directory
/mnt/disk1/hawq/data/segment
hawq_master_temp_directory
/mnt/disk1/hawq/tmp,/mnt/disk2/hawq/tmp,/mnt/disk3/hawq/tmp,/mnt/disk4/hawq/tmp
hawq_segment_temp_directory
hawq_global_rm_type
hawq_rm_yarn_address
emr-header-1:8032,emr-header-2:8032
hawq_rm_yarn_scheduler_address
emr-header-1:8030,emr-header-2:8030
dfs.nameservices
emr-cluster
dfs.ha.namenodes.emr-cluster
nn1,nn2
dfs.namenode.rpc-address.emr-cluster.nn1
emr-header-1:8020
dfs.namenode.rpc-address.emr-cluster.nn2
emr-header-2:8020
dfs.namenode.http-address.emr-cluster.nn1
emr-header-1:50070
dfs.namenode.http-address.emr-cluster.nn2
emr-header-2:50070
yarn.resourcemanager.ha
yarn.resourcemanager.scheduler.ha
emr-heaer-1:8030,emr-header-2:8030
综上修改完master节点的hawq配置之后,需要同步到其它所有节点