hawq是一種基于hdfs的mpp(massively parallel processing) sql引擎,支援标準sql/事務處理,性能比原生hive快幾百倍。
hawq有多種部署模式
非ha
standalone
yarn
ha
本文以ha-yarn模式為例,其它部署模式配置方面相對簡單點,可以參考文檔。
在e-mapreduce産品頁建立叢集,本例使用ha叢集。
5台機器:
在叢集的所有機器上面操作:
master節點
安裝hawq
打通ssh
修改系統參數
安裝其它節點hawq
建立hawq相關檔案夾
修改yarn為capacity-scheduler排程模式
修改hawq配置
屬性名
值
說明
hawq_master_address_host
emr-header-1
hawq_standby_address_host
emr-header-2
hawq_dfs_url
emr-cluster/hawq_default
hawq_master_directory
/mnt/disk1/hawq/data/master
hawq_segment_directory
/mnt/disk1/hawq/data/segment
hawq_master_temp_directory
/mnt/disk1/hawq/tmp,/mnt/disk2/hawq/tmp,/mnt/disk3/hawq/tmp,/mnt/disk4/hawq/tmp
hawq_segment_temp_directory
hawq_global_rm_type
hawq_rm_yarn_address
emr-header-1:8032,emr-header-2:8032
hawq_rm_yarn_scheduler_address
emr-header-1:8030,emr-header-2:8030
dfs.nameservices
emr-cluster
dfs.ha.namenodes.emr-cluster
nn1,nn2
dfs.namenode.rpc-address.emr-cluster.nn1
emr-header-1:8020
dfs.namenode.rpc-address.emr-cluster.nn2
emr-header-2:8020
dfs.namenode.http-address.emr-cluster.nn1
emr-header-1:50070
dfs.namenode.http-address.emr-cluster.nn2
emr-header-2:50070
yarn.resourcemanager.ha
yarn.resourcemanager.scheduler.ha
emr-heaer-1:8030,emr-header-2:8030
綜上修改完master節點的hawq配置之後,需要同步到其它所有節點