天天看点

Hadoop伪分布式安装与配置

完成Hadoop伪分布式安装与配置需要先在机器上完成JDK的安装与配置、SSH免密登录本机的配置。

一、基础环境自查

1、需先自查一下本机JDK是否安装好

java -version
Hadoop伪分布式安装与配置

jdk版本查看

如上图可以正确查看java的版本,则表示JDK安装配置好了。

2、自查SSH免密登录本机是否成功

使用ssh 主机名 测试是否可以免密登录本机

ssh master
Hadoop伪分布式安装与配置

如上图可以成功免密登录本机,就可以开始配置伪分布式了。如果不可以,可以参考另一篇文章 多台主机之间免密码登录配置、免密传输文件

二、下载Hadoop安装包

进入hadoop官网下载地址,里面有不同版本的hadoop可供下载,这里下载的版本为2.7.7

https://archive.apache.org/dist/hadoop/common/

Index of /dist/hadoop/common

三、解压Hadoop安装包

进入Hadoop安装包存放目录

cd /mnt/bigdatacompetitionsoftwore
Hadoop伪分布式安装与配置

解压Hadoop安装包到/usr/local/src目录下

Hadoop伪分布式安装与配置

解压成功之后,可以在/usr/local/src中查看到hadoop-2.7.7文件夹

Hadoop伪分布式安装与配置

四、修改文件夹权限

使用chown命令修改文件夹权限,格式为:chown -R 用户名 文件夹,注意用户名需为当前主机登录的用户名。

chown -R root hadoop-2.7.7
Hadoop伪分布式安装与配置

五、配置Hadoop环境变量

环境变量配置文件主文件夹下的.bash_profile,将hadoop的安装目录及该目录下的bin目录、sbin目录配置好

1)打开.bash_profile环境变量配置文件

vi ~/.bash_profile
Hadoop伪分布式安装与配置

2)输入hadoop的安装目录及该目录下的bin目录、sbin目录相应的配置内容

Hadoop伪分布式安装与配置

3)应用环境变量

使用source命令使环境变量生效。

source ~/.bash_profile
Hadoop伪分布式安装与配置

4)验证环境变量是否配置成功

使用hadoop命令查看hadoop版本,成功查看则表示环境变量配置成功。

hadoop version
Hadoop伪分布式安装与配置

六、配置core-site.xml

1)文件位置

该文件在hadoop安装目录下的etc/hadoop中,如下图所示。

Hadoop伪分布式安装与配置

2)文件配置

该文件配置了访问Hadoop集群的主要信息。伪分布式需要指定分布式文件系统默认的地址及端口号,一般为名称节点的地址。

Hadoop伪分布式安装与配置

七、配置hdfs-site.xml

1)文件位置,和core-site.xml在同一个位置。

2)文件配置。

文件文件配置了HDFS相关的信息,如文件在HDFS中的副本数、NameNode和DataNode文件的保存目录。

Hadoop伪分布式安装与配置

八、名称节点NameNode格式化

1、使用hdfs命令进行名称节点格式化,hdfs命令在hadoop安装目录的bin文件夹下。

Hadoop伪分布式安装与配置

hdfs命令所在目录

格式化命令如下:

hdfs namenode -format
Hadoop伪分布式安装与配置

输入格式化命令

输入命令之后回车,等待格式化结果,在最后输出“Storage directory XXXXX has been successfully formatted.”表明格式化成功。

Hadoop伪分布式安装与配置

名称节点格式化成功

2、名称节点格式化成功之后

名称节点格式化后会在hadoop.tmp.dir目录产生fsiamge文件

Hadoop伪分布式安装与配置
Hadoop伪分布式安装与配置

九、启动Hadoop

1)命令介绍

启动hadoop的命令全部在sbin目录下,如下图所示

Hadoop伪分布式安装与配置

start-all.sh=start-dfs.sh+start-yarn.sh

stop-all.sh=stop-dfs.sh+stop-yarn.sh

start-dfs.sh用于启动名称节点、数据节点和第二名称节点进程

start-yarn.sh用于启动资源高度节点和节点管理节点进程

2)使用start-dfs.sh启动hadoop

Hadoop伪分布式安装与配置

3)使用jps命令查看启动后的进程,可以看到NameNode、DataNode和SecondaryNameNode进程,表示启动成功。

Hadoop伪分布式安装与配置

4)使用stop-dfs.sh停止hadoop,将NameNode、DataNode和SecondaryNameNode进程同时停止。

5)使用start-all.sh全启动hadoop,即将启动NameNode、DataNode和SecondaryNameNode、ResourceManager、NodeManager共5个进程。

Hadoop伪分布式安装与配置

6)使用jps命令查看启动后的进程,可以看到NameNode、DataNode和SecondaryNameNode、ResourceManager、NodeManager共5个进程,表示启动成功。

Hadoop伪分布式安装与配置

7)使用stop-all.sh停止hadoop,将NameNode、DataNode、SecondaryNameNode、ResourceManager、NodeManager共5个进程同时停止。

十、其他方式查看hadoop启动成功后的状态

1、使用hdfs dfsadmin -report获取集群报表信息,可以看到活动的数据节点(Live datanodes)为1,同时可以查看到对应的IP地址和主机名等信息

Hadoop伪分布式安装与配置

2、在浏览器中输入地址:http://名称节点的IP地址:9000查看hadoop集群的WebUI监控界面,这里的地址为http://192.168.100.60:9000,效果如下图所示

Hadoop伪分布式安装与配置

继续阅读