完成Hadoop伪分布式安装与配置需要先在机器上完成JDK的安装与配置、SSH免密登录本机的配置。
一、基础环境自查
1、需先自查一下本机JDK是否安装好
java -version
jdk版本查看
如上图可以正确查看java的版本,则表示JDK安装配置好了。
2、自查SSH免密登录本机是否成功
使用ssh 主机名 测试是否可以免密登录本机
ssh master
如上图可以成功免密登录本机,就可以开始配置伪分布式了。如果不可以,可以参考另一篇文章 多台主机之间免密码登录配置、免密传输文件
二、下载Hadoop安装包
进入hadoop官网下载地址,里面有不同版本的hadoop可供下载,这里下载的版本为2.7.7
https://archive.apache.org/dist/hadoop/common/
Index of /dist/hadoop/common
三、解压Hadoop安装包
进入Hadoop安装包存放目录
cd /mnt/bigdatacompetitionsoftwore
解压Hadoop安装包到/usr/local/src目录下
解压成功之后,可以在/usr/local/src中查看到hadoop-2.7.7文件夹
四、修改文件夹权限
使用chown命令修改文件夹权限,格式为:chown -R 用户名 文件夹,注意用户名需为当前主机登录的用户名。
chown -R root hadoop-2.7.7
五、配置Hadoop环境变量
环境变量配置文件主文件夹下的.bash_profile,将hadoop的安装目录及该目录下的bin目录、sbin目录配置好
1)打开.bash_profile环境变量配置文件
vi ~/.bash_profile
2)输入hadoop的安装目录及该目录下的bin目录、sbin目录相应的配置内容
3)应用环境变量
使用source命令使环境变量生效。
source ~/.bash_profile
4)验证环境变量是否配置成功
使用hadoop命令查看hadoop版本,成功查看则表示环境变量配置成功。
hadoop version
六、配置core-site.xml
1)文件位置
该文件在hadoop安装目录下的etc/hadoop中,如下图所示。
2)文件配置
该文件配置了访问Hadoop集群的主要信息。伪分布式需要指定分布式文件系统默认的地址及端口号,一般为名称节点的地址。
七、配置hdfs-site.xml
1)文件位置,和core-site.xml在同一个位置。
2)文件配置。
文件文件配置了HDFS相关的信息,如文件在HDFS中的副本数、NameNode和DataNode文件的保存目录。
八、名称节点NameNode格式化
1、使用hdfs命令进行名称节点格式化,hdfs命令在hadoop安装目录的bin文件夹下。
hdfs命令所在目录
格式化命令如下:
hdfs namenode -format
输入格式化命令
输入命令之后回车,等待格式化结果,在最后输出“Storage directory XXXXX has been successfully formatted.”表明格式化成功。
名称节点格式化成功
2、名称节点格式化成功之后
名称节点格式化后会在hadoop.tmp.dir目录产生fsiamge文件
九、启动Hadoop
1)命令介绍
启动hadoop的命令全部在sbin目录下,如下图所示
start-all.sh=start-dfs.sh+start-yarn.sh
stop-all.sh=stop-dfs.sh+stop-yarn.sh
start-dfs.sh用于启动名称节点、数据节点和第二名称节点进程
start-yarn.sh用于启动资源高度节点和节点管理节点进程
2)使用start-dfs.sh启动hadoop
3)使用jps命令查看启动后的进程,可以看到NameNode、DataNode和SecondaryNameNode进程,表示启动成功。
4)使用stop-dfs.sh停止hadoop,将NameNode、DataNode和SecondaryNameNode进程同时停止。
5)使用start-all.sh全启动hadoop,即将启动NameNode、DataNode和SecondaryNameNode、ResourceManager、NodeManager共5个进程。
6)使用jps命令查看启动后的进程,可以看到NameNode、DataNode和SecondaryNameNode、ResourceManager、NodeManager共5个进程,表示启动成功。
7)使用stop-all.sh停止hadoop,将NameNode、DataNode、SecondaryNameNode、ResourceManager、NodeManager共5个进程同时停止。
十、其他方式查看hadoop启动成功后的状态
1、使用hdfs dfsadmin -report获取集群报表信息,可以看到活动的数据节点(Live datanodes)为1,同时可以查看到对应的IP地址和主机名等信息
2、在浏览器中输入地址:http://名称节点的IP地址:9000查看hadoop集群的WebUI监控界面,这里的地址为http://192.168.100.60:9000,效果如下图所示