天天看點

[喵咪大資料]HUE大資料管理工具

日常的大資料使用中經常是在伺服器命名行中進行操作,可視化功能僅僅依靠着各個元件自帶的網頁進行,那麼有沒有一個可以結合大家能在一個網頁上的管理工具呢?答案是肯定的,今天就和大家一起來探索大資料管理工具HUE的廬山真面目.

附上:

喵了個咪的部落格:

w-blog.cn

1.環境準備

編譯依賴

wget http://repos.fedorapeople.org/repos/dchen/apache-maven/epel-apache-maven.repo -O /etc/yum.repos.d/epel-apache-maven.repo
sudo yum install apache-maven ant asciidoc cyrus-sasl-devel cyrus-sasl-gssapi gcc gcc-c++ krb5-devel libxml2-devel libxslt-devel make mysql mysql-devel openldap-devel python-devel sqlite-devel gmp-devel libffi libffi-devel           
ca /app/install
wget http://archive-primary.cloudera.com/cdh5/cdh/5/hue-3.7.0-cdh5.4.2.tar.gz
> chown -R root:root hue-3.7.0-cdh5.4.4
> chmod -R 777 hue-3.7.0-cdh5.4.4
# 啟動方式
/app/install/hue-3.7.0-cdh5.4.4/build/env/bin/python2.7 /app/install/hue-3.7.0-cdh5.4.4/build/env/bin/hue runcherrypyserver           

2.配置檔案修改

修改配置檔案

vim /app/install/hue-3.7.0-cdh5.4.4/desktop/conf/hue.ini           
  • http_host = 0.0.0.0 (Hue Web Server所在主機/IP)
  • http_port = 8000 (Hue Web Server服務端口)
  • server_user = hadoop (運作Hue Web Server的程序使用者)
  • server_group = hadoop (運作Hue Web Server的程序使用者組)
  • default_user = hadoop (Hue管理者)
  • default_hdfs_superuser = hadoop (HDFS管理使用者)
  • fs_defaultfs = hdfs://hadoop-1:8020 (對應core-site.xml配置項fs.defaultFS)
  • webhdfs_url = http://hadoop-1:50070/webhdfs/v1 (webhdfs通路位址)
  • hadoop_conf_dir = /usr/local/hadoop-2.7.3/etc/hadoop (Hadoop配置檔案目錄)
  • resourcemanager_host = hadoop (對應yarn-site.xml配置項yarn.resourcemanager.hostname)
  • resourcemanager_api_url = http://hadoop-1:8088 (對應于yarn-site.xml配置項yarn.resourcemanager.webapp.address)
  • proxy_api_url = (對應yarn-site.xml配置項yarn.web-proxy.address)
  • history_server_api_url = http://hadoo-1:19888 (對應mapred-site.xml配置項mapreduce.jobhistory.webapp.address)
  • hive_server_host = hadoop-1 (Hive所在節點主機名/IP)
  • hive_server_port = 10000 (HiveServer2服務端口号)
  • hive_conf_dir = /usr/local/hive-2.3.0/conf (Hive配置檔案目錄)

一定要增加一個hue使用者

useradd hue           

發現是webhdfs都是可以

curl –i "http://dev-hadoop:50070/webhdfs/v1/user?user.name=hadoop&op=GETFILESTATUS"           

需要配置Hadoop通路權限

vim /usr/local/hadoop-2.7.3/etc/hadoop/core-site.xml

<property>
    <name>hadoop.proxyuser.hadoop.hosts</name>
    <value>*</value>
</property>

<property>
    <name>hadoop.proxyuser.hadoop.groups</name>
    <value>*</value>
</property>           
vim /usr/local/hadoop-2.7.3/etc/hadoop/hdfs-site.xml
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>           

重新開機hadoop如果不行重新開機伺服器

3.使用HUE

可以線上執行Hive語句(這裡注意如果是Hbase關聯表是無法在HUE平台使用的解決方法可以導出到Hive中的一個表在進查詢)

直接檢視hdfs檔案系統

管理 hadoop 作業

管理zookeeper狀态

關于hbase 不支援 thrift2 需要使用 hive使用thrift1 的版本才能結合使用 啟動之後就可以看到如下結果

4 總結

在各種各樣的元件下HUE無疑是最好的web工具的選擇,HUE還有很多其他的功能包括我們後面要說到的spark,sqoop等相關的元件都可以通過HUE進行線上管理.

注:筆者能力有限有說的不對的地方希望大家能夠指出,也希望多多交流!

繼續閱讀