centos7+hadoop完全分布式集群搭建

Hadoop集群部署，就是以Cluster mode方式进行部署。本文是基于JDK1.7.0_79，hadoop2.7.5。

1.Hadoop的节点构成如下：

HDFS daemon： NameNode, SecondaryNameNode, DataNode

YARN damones： ResourceManager, NodeManager, WebAppProxy

MapReduce Job History Server

本次测试的分布式环境为：Master 1台 (test166)，Slave 1台(test167)

2.1 安装JDK及下载解压hadoop

JDK安装可参考：https://www.cnblogs.com/Dylansuns/p/6974272.html 或者简单安装：https://www.cnblogs.com/shihaiming/p/5809553.html

从官网下载Hadoop最新版2.7.5

[[email protected] ~]$ su - hadoop
[[email protected] ~]$ cd /usr/hadoop/
[[email protected] ~]$ wget http://mirrors.shu.edu.cn/apache/hadoop/common/hadoop-2.7.5/hadoop-2.7.5.tar.gz

将hadoop解压到/usr/hadoop/下

[[email protected] ~]$ tar zxvf /root/hadoop-2.7.5.tar.gz

结果：

[[email protected] ~]$ ll
total 211852
drwxr-xr-x.  2 hadoop hadoop         6 Jan 31 23:41 Desktop
drwxr-xr-x.  2 hadoop hadoop         6 Jan 31 23:41 Documents
drwxr-xr-x.  2 hadoop hadoop         6 Jan 31 23:41 Downloads
drwxr-xr-x. 10 hadoop hadoop      4096 Feb 22 01:36 hadoop-2.7.5
-rw-rw-r--.  1 hadoop hadoop 216929574 Dec 16 12:03 hadoop-2.7.5.tar.gz
drwxr-xr-x.  2 hadoop hadoop         6 Jan 31 23:41 Music
drwxr-xr-x.  2 hadoop hadoop         6 Jan 31 23:41 Pictures
drwxr-xr-x.  2 hadoop hadoop         6 Jan 31 23:41 Public
drwxr-xr-x.  2 hadoop hadoop         6 Jan 31 23:41 Templates
drwxr-xr-x.  2 hadoop hadoop         6 Jan 31 23:41 Videos
[[email protected]-master ~]$

2.2 在各节点上设置主机名及创建hadoop组和用户

所有节点（master,slave）

1 [[email protected] ~]#  su - root
2 [[email protected] ~]#  vi /etc/hosts
3 10.86.255.166 hadoop-master
4 10.86.255.167 slave1
5 注意：修改hosts中，是立即生效的，无需source或者. 。

先使用

建立hadoop用户组

新建用户，useradd -d /usr/hadoop -g hadoop -m hadoop （新建用户hadoop指定用户主目录/usr/hadoop 及所属组hadoop）

passwd hadoop 设置hadoop密码（这里设置密码为hadoop）

[[email protected] ~]# groupadd hadoop 
[[email protected] ~]# useradd -d /usr/hadoop -g hadoop -m hadoop
[[email protected] ~]# passwd hadoop

2.3 在各节点上设置SSH无密码登录

最终达到目的：即在master:节点执行 ssh [email protected]不需要密码，此处只需配置master访问slave1免密。

su - hadoop

进入~/.ssh目录

执行：ssh-keygen -t rsa，一路回车

生成两个文件，一个私钥，一个公钥，在master1中执行：cp id_rsa.pub authorized_keys

[[email protected] ~]$ su - hadoop
[[email protected] ~]$ pwd
/usr/hadoop
[[email protected]-master ~]$ cd .ssh
[[email protected]-master .ssh]$ ssh-keygen -t rsa
Generating public/private rsa key pair.
Enter file in which to save the key (/usr/hadoop/.ssh/id_rsa): 
Enter passphrase (empty for no passphrase): 
Enter same passphrase again: 
Your identification has been saved in /usr/hadoop/.ssh/id_rsa.
Your public key has been saved in /usr/hadoop/.ssh/id_rsa.pub.
The key fingerprint is:
11:b2:23:8c:e7:32:1d:4c:2f:00:32:1a:15:43:bb:de [email protected]master
The key's randomart image is:
+--[ RSA 2048]----+
|=+*.. . .        |
|oo O . o .       |
|. o B + .        |
|   = + . .       |
|  + o   S        |
| . +             |
|  . E            |
|                 |
|                 |
+-----------------+
[[email protected]-master .ssh]$ 
[[email protected] .ssh]$ cp id_rsa.pub authorized_keys
[[email protected] .ssh]$ ll
total 16
-rwx------. 1 hadoop hadoop 1230 Jan 31 23:27 authorized_keys
-rwx------. 1 hadoop hadoop 1675 Feb 23 19:07 id_rsa
-rwx------. 1 hadoop hadoop  402 Feb 23 19:07 id_rsa.pub
-rwx------. 1 hadoop hadoop  874 Feb 13 19:40 known_hosts
[[email protected] .ssh]$

2.3.1：本机无密钥登录

[[email protected] ~]$ pwd
/usr/hadoop
[[email protected] ~]$ chmod -R 700 .ssh
[[email protected] ~]$ cd .ssh
[[email protected] .ssh]$ chmod 600 authorized_keys
[[email protected] .ssh]$ ll
total 16
-rwx------. 1 hadoop hadoop 1230 Jan 31 23:27 authorized_keys
-rwx------. 1 hadoop hadoop 1679 Jan 31 23:26 id_rsa
-rwx------. 1 hadoop hadoop  410 Jan 31 23:26 id_rsa.pub
-rwx------. 1 hadoop hadoop  874 Feb 13 19:40 known_hosts

验证：

没有提示输入密码则表示本机无密钥登录成功，如果此步不成功，后续启动hdfs脚本会要求输入密码

[[email protected] ~]$ ssh [email protected]master
Last login: Fri Feb 23 18:54:59 2018 from hadoop-master
[[email protected]-master ~]$

2.3.2：master与其他节点无密钥登录

( 若已有authorized_keys，则执行ssh-copy-id ssh-copy-id -i ~/.ssh/id_rsa.pub [email protected] 上面命令的功能ssh-copy-id将pub值写入远程机器的~/.ssh/authorized_key中

)

从master中把authorized_keys分发到各个结点上(会提示输入密码，输入slave1相应的密码即可)：

scp /usr/hadoop/.ssh/authorized_keys [email protected]:/home/master/.ssh
/usr/bin/ssh-copy-id: INFO: attempting to log in with the new key(s), to filter out any that are already installed
/usr/bin/ssh-copy-id: INFO: 1 key(s) remain to be installed -- if you are prompted now it is to install the new keys
[email protected]'s password:

Number of key(s) added: 1

Now try logging into the machine, with: "ssh '[email protected]'" and check to make sure that only the key(s) you wanted were added.

[[email protected] .ssh]$

然后在各个节点对authorized_keys执行(一定要执行该步，否则会报错)：chmod 600 authorized_keys

保证.ssh 700，.ssh/authorized_keys 600权限

测试如下（第一次ssh时会提示输入yes/no，输入yes即可）：

[[email protected] ~]$ ssh [email protected]
Last login: Fri Feb 23 18:40:10 2018
[[email protected] ~]$ 
[[email protected] ~]$ exit
logout
Connection to slave1 closed.
[[email protected] ~]$

2.4 设置Hadoop的环境变量

Master及slave1都需操作

[[email protected] ~]#  su - root

[[email protected] ~]#  vi /etc/profile  末尾添加，保证任何路径下可执行hadoop命令

JAVA_HOME=/usr/java/jdk1.7.0_79

CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

PATH=/usr/hadoop/hadoop-2.7.5/bin:$JAVA_HOME/bin:$PATH

让设置生效

[[email protected] ~]# source /etc/profile

或者

[[email protected] ~]# . /etc/profile

Master设置hadoop环境

su - hadoop
1 # vi etc/hadoop/hadoop-env.sh   新增以下内容
2 export   JAVA_HOME=/usr/java/jdk1.7.0_79
3 export   HADOOP_HOME=/usr/hadoop/hadoop-2.7.5

此时hadoop安装已完成，可执行hadoop命令，后续步骤为集群部署

[[email protected] ~]$ hadoop
Usage: hadoop [--config confdir] [COMMAND | CLASSNAME]
  CLASSNAME            run the class named CLASSNAME
 or
  where COMMAND is one of:
  fs                   run a generic filesystem user client
  version              print the version
  jar <jar>            run a jar file
                       note: please use "yarn jar" to launch
                             YARN applications, not this command.
  checknative [-a|-h]  check native hadoop and compression libraries availability
  distcp <srcurl> <desturl> copy file or directories recursively
  archive -archiveName NAME -p <parent path> <src>* <dest> create a hadoop archive
  classpath            prints the class path needed to get the
  credential           interact with credential providers
                       Hadoop jar and the required libraries
  daemonlog            get/set the log level for each daemon
  trace                view and modify Hadoop tracing settings

Most commands print help when invoked w/o parameters.
[[email protected]-master ~]$

2.5 Hadoop设定

2.5.0 开放端口50070

注：centos7版本对防火墙进行加强,不再使用原来的iptables,启用firewall

Master节点:

su - root

firewall-cmd --state 查看状态（若关闭，则先开启systemctl start firewalld）

firewall-cmd --list-ports 查看已开放的端口

开启8000端口：firewall-cmd --zone=public(作用域) --add-port=8000/tcp(端口和访问类型) --permanent(永久生效)

firewall-cmd --zone=public --add-port=1521/tcp --permanent

firewall-cmd --zone=public --add-port=3306/tcp --permanent

firewall-cmd --zone=public --add-port=50070/tcp --permanent

firewall-cmd --zone=public --add-port=8088/tcp --permanent

firewall-cmd --zone=public --add-port=19888/tcp --permanent

firewall-cmd --zone=public --add-port=9000/tcp --permanent

firewall-cmd --zone=public --add-port=9001/tcp --permanent

firewall-cmd --reload -重启防火墙

firewall-cmd --list-ports 查看已开放的端口

systemctl stop firewalld.service停止防火墙

systemctl disable firewalld.service禁止防火墙开机启动

 

关闭端口：firewall-cmd --zone= public --remove-port=8000/tcp --permanent

Slave1节点：

su - root
systemctl stop firewalld.service停止防火墙

systemctl disable firewalld.service禁止防火墙开机启动

2.5.1 在Master节点的设定文件中指定Slave节点

[[email protected] hadoop]$ pwd
/usr/hadoop/hadoop-2.7.5/etc/hadoop
[[email protected]-master hadoop]$ vi slaves
slave1

2.5.2 在各节点指定HDFS文件存储的位置（默认是/tmp）

Master节点： namenode

创建目录并赋予权限

Su - root

# mkdir -p   /usr/local/hadoop-2.7.5/tmp/dfs/name

# chmod -R 777   /usr/local/hadoop-2.7.5/tmp

# chown   -R hadoop:hadoop /usr/local/hadoop-2.7.5

Slave节点：datanode

创建目录并赋予权限，改变所有者

Su - root

# mkdir -p   /usr/local/hadoop-2.7.5/tmp/dfs/data

# chmod -R 777   /usr/local/hadoop-2.7.5/tmp

# chown -R   hadoop:hadoop /usr/local/hadoop-2.7.5

2.5.3 在Master中设置配置文件(包括yarn)

su - hadoop 
 1 # vi   etc/hadoop/core-site.xml
 2 
 3 <configuration>
 4 
 5 <property>
 6 
 7         <name>fs.default.name</name>
 8 
 9         <value>hdfs://hadoop-master:9000</value>
10 
11     </property>
12 
13 <property>
14 
15           <name>hadoop.tmp.dir</name>
16 
17           <value>/usr/local/hadoop-2.7.5/tmp</value>
18 
19     </property>
20 
21 </configuration>

1 # vi   etc/hadoop/hdfs-site.xml
 2 
 3 <configuration>
 4 
 5 <property>
 6 
 7         <name>dfs.replication</name>
 8 
 9       <value>3</value>
10 
11 </property>
12 
13   <property>
14 
15       <name>dfs.name.dir</name>
16 
17         <value>/usr/local/hadoop-2.7.5/tmp/dfs/name</value>
18 
19 </property>
20 
21     <property>
22 
23       <name>dfs.data.dir</name>
24 
25       <value>/usr/local/hadoop-2.7.5/tmp/dfs/data</value>
26 
27     </property>
28 
29  
30 
31 </configuration>

1 #cp mapred-site.xml.template   mapred-site.xml
 2 
 3 # vi   etc/hadoop/mapred-site.xml
 4 
 5 <configuration>
 6 
 7     <property>
 8 
 9         <name>mapreduce.framework.name</name>
10 
11         <value>yarn</value>
12 
13     </property>
14 
15 </configuration>

YARN设定

yarn的组成（Master节点： resourcemanager ，Slave节点： nodemanager）

以下仅在master操作,后面步骤会统一分发至salve1。

1 # vi   etc/hadoop/yarn-site.xml
 2 
 3 <configuration>
 4 
 5     <property>
 6 
 7         <name>yarn.resourcemanager.hostname</name>
 8 
 9         <value>hadoop-master</value>
10 
11     </property>
12 
13     <property>
14 
15         <name>yarn.nodemanager.aux-services</name>
16 
17         <value>mapreduce_shuffle</value>
18 
19     </property>
20 
21 </configuration>

2.5.4将Master的文件分发至slave1节点。

cd /usr/hadoop

scp -r  hadoop-2.7.5 [email protected]:/usr/hadoop

2.5.5 Master上启动job history server，Slave节点上指定

此步2.5.5可跳过

Mater:

启动jobhistory daemon

# sbin/mr-jobhistory-daemon.sh start historyserver

确认

# jps

访问Job History Server的web页面

http://localhost:19888/

Slave节点：

1 # vi   etc/hadoop/mapred-site.xml
2 
3     <property>
4 
5         <name>mapreduce.jobhistory.address</name>
6 
7         <value>hadoop-master:10020</value>
8 
9     </property>

2.5.6 格式化HDFS（Master）

# hadoop namenode -format

Master结果：

centos7+hadoop完全分布式集群搭建

2.5.7 在Master上启动daemon，Slave上的服务会一起启动

启动:

[[email protected] hadoop-2.7.5]$ pwd
/usr/hadoop/hadoop-2.7.5[[email protected]-master hadoop-2.7.5]$ sbin/start-all.sh
This script is Deprecated. Instead use start-dfs.sh and start-yarn.sh
Starting namenodes on [hadoop-master]
hadoop-master: starting namenode, logging to /usr/hadoop/hadoop-2.7.5/logs/hadoop-hadoop-namenode-hadoop-master.out
slave1: starting datanode, logging to /usr/hadoop/hadoop-2.7.5/logs/hadoop-hadoop-datanode-slave1.out
Starting secondary namenodes [0.0.0.0]
0.0.0.0: starting secondarynamenode, logging to /usr/hadoop/hadoop-2.7.5/logs/hadoop-hadoop-secondarynamenode-hadoop-master.out
starting yarn daemons
starting resourcemanager, logging to /usr/hadoop/hadoop-2.7.5/logs/yarn-hadoop-resourcemanager-hadoop-master.out
slave1: starting nodemanager, logging to /usr/hadoop/hadoop-2.7.5/logs/yarn-hadoop-nodemanager-slave1.out
[[email protected]-master hadoop-2.7.5]$

确认

Master节点：

[[email protected] hadoop-2.7.5]$ jps
81209 NameNode
81516 SecondaryNameNode
82052 Jps
81744 ResourceManager

Slave节点：

[[email protected] ~]$ jps
58913 NodeManager
59358 Jps
58707 DataNode

停止（需要的时候再停止，后续步骤需running状态）:

[[email protected] hadoop-2.7.5]$ sbin/stop-all.sh
This script is Deprecated. Instead use stop-dfs.sh and stop-yarn.sh Stopping namenodes on [hadoop-master] hadoop-master: stopping namenode slave1: stopping datanode Stopping secondary namenodes [0.0.0.0] 0.0.0.0: stopping secondarynamenode stopping yarn daemons stopping resourcemanager slave1: stopping nodemanager no proxyserver to stop

2.5.8 创建HDFS

# hdfs dfs -mkdir /user

# hdfs dfs -mkdir   /user/test22

2.5.9 拷贝input文件到HDFS目录下

# hdfs dfs -put etc/hadoop/*.sh   /user/test22/input

查看

# hdfs dfs -ls /user/test22/input

2.5.10 执行hadoop job

统计单词的例子，此时的output是hdfs中的目录，hdfs dfs -ls可查看

# hadoop jar   share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.5.jar wordcount   /user/test22/input  output

确认执行结果

# hdfs dfs -cat output/*

2.5.11 查看错误日志

注：日志在salve1的*.log中而不是在master或*.out中

centos7+hadoop完全分布式集群搭建

2.6 Q&A

1. hdfs dfs -put 报错如下，解决关闭master&salve防火墙

hdfs.DFSClient: Exception in createBlockOutputStream

java.net.NoRouteToHostException: No route to host

转载于:https://www.cnblogs.com/pu20065226/p/8464156.html

centos7+hadoop完全分布式集群搭建

2.5.0 开放端口50070

2.5.2 在各节点指定HDFS文件存储的位置（默认是/tmp）

继续阅读

nginx 安装错误信息解决

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Java String.format方法的简单使用

neo4j之cypher使用文档

Ambari介绍和架构原理

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

NOSQL安全攻击

mybatis_入门程序Mybatis入门

AOP编程_Android优雅权限框架(1)概念基础，2021金三银四前言正文大纲正文

Effective Java 8:通用程序设计

OOM三种类型

工厂模式-三种类型

【递归】高效率求2的n次幂

win10本地scala和spark安装安装scala安装spark

scala (3) Function 和 Method