完成Hadoop伪分布式安装与配置需要先在机器上完成JDK的安装与配置、SSH免密登录本机的配置。

一、基础环境自查

1、需先自查一下本机JDK是否安装好

java -version

jdk版本查看

如上图可以正确查看java的版本，则表示JDK安装配置好了。

2、自查SSH免密登录本机是否成功

使用ssh 主机名测试是否可以免密登录本机

ssh master

如上图可以成功免密登录本机，就可以开始配置伪分布式了。如果不可以，可以参考另一篇文章多台主机之间免密码登录配置、免密传输文件

二、下载Hadoop安装包

进入hadoop官网下载地址，里面有不同版本的hadoop可供下载，这里下载的版本为2.7.7

https://archive.apache.org/dist/hadoop/common/

Index of /dist/hadoop/common

三、解压Hadoop安装包

进入Hadoop安装包存放目录

cd /mnt/bigdatacompetitionsoftwore

解压Hadoop安装包到/usr/local/src目录下

解压成功之后，可以在/usr/local/src中查看到hadoop-2.7.7文件夹

四、修改文件夹权限

使用chown命令修改文件夹权限，格式为：chown -R 用户名文件夹，注意用户名需为当前主机登录的用户名。

chown -R root hadoop-2.7.7

五、配置Hadoop环境变量

环境变量配置文件主文件夹下的.bash_profile，将hadoop的安装目录及该目录下的bin目录、sbin目录配置好

1）打开.bash_profile环境变量配置文件

vi ~/.bash_profile

2）输入hadoop的安装目录及该目录下的bin目录、sbin目录相应的配置内容

3）应用环境变量

使用source命令使环境变量生效。

source ~/.bash_profile

4）验证环境变量是否配置成功

使用hadoop命令查看hadoop版本，成功查看则表示环境变量配置成功。

hadoop version

六、配置core-site.xml

1）文件位置

该文件在hadoop安装目录下的etc/hadoop中，如下图所示。

2）文件配置

该文件配置了访问Hadoop集群的主要信息。伪分布式需要指定分布式文件系统默认的地址及端口号，一般为名称节点的地址。

七、配置hdfs-site.xml

1）文件位置，和core-site.xml在同一个位置。

2）文件配置。

文件文件配置了HDFS相关的信息，如文件在HDFS中的副本数、NameNode和DataNode文件的保存目录。

八、名称节点NameNode格式化

1、使用hdfs命令进行名称节点格式化，hdfs命令在hadoop安装目录的bin文件夹下。

hdfs命令所在目录

格式化命令如下：

hdfs namenode -format

输入格式化命令

输入命令之后回车，等待格式化结果，在最后输出“Storage directory XXXXX has been successfully formatted.”表明格式化成功。

名称节点格式化成功

2、名称节点格式化成功之后

名称节点格式化后会在hadoop.tmp.dir目录产生fsiamge文件

九、启动Hadoop

1）命令介绍

启动hadoop的命令全部在sbin目录下，如下图所示

start-all.sh=start-dfs.sh+start-yarn.sh

stop-all.sh=stop-dfs.sh+stop-yarn.sh

start-dfs.sh用于启动名称节点、数据节点和第二名称节点进程

start-yarn.sh用于启动资源高度节点和节点管理节点进程

2）使用start-dfs.sh启动hadoop

3）使用jps命令查看启动后的进程，可以看到NameNode、DataNode和SecondaryNameNode进程，表示启动成功。

4）使用stop-dfs.sh停止hadoop，将NameNode、DataNode和SecondaryNameNode进程同时停止。

5）使用start-all.sh全启动hadoop，即将启动NameNode、DataNode和SecondaryNameNode、ResourceManager、NodeManager共5个进程。

6）使用jps命令查看启动后的进程，可以看到NameNode、DataNode和SecondaryNameNode、ResourceManager、NodeManager共5个进程，表示启动成功。

7）使用stop-all.sh停止hadoop，将NameNode、DataNode、SecondaryNameNode、ResourceManager、NodeManager共5个进程同时停止。

十、其他方式查看hadoop启动成功后的状态

1、使用hdfs dfsadmin -report获取集群报表信息，可以看到活动的数据节点（Live datanodes）为1，同时可以查看到对应的IP地址和主机名等信息

2、在浏览器中输入地址：http://名称节点的IP地址:9000查看hadoop集群的WebUI监控界面，这里的地址为http://192.168.100.60:9000，效果如下图所示

Hadoop伪分布式安装与配置

一、基础环境自查

二、下载Hadoop安装包

三、解压Hadoop安装包

四、修改文件夹权限

五、配置Hadoop环境变量

六、配置core-site.xml

七、配置hdfs-site.xml

八、名称节点NameNode格式化

继续阅读

Hadoop FSDataInputStream 和FSDataOutputStream 用法

Windows下Cygwin环境的Hadoop安装（3）- 运行hadoop中的wordcount实例遇到的问题和解决方法

MapReduce运行Wordcount时一直卡在INFO mapreduce.Job: Running job，web查看一直处于accepted阶段

ubuntu hadoop2.6.1，terminal下运行wordcount

MapReduce(一)：入门级程序wordcount及其分析

hadoop操作遇到的问题问题一：输出文件已存在

Hadoop之运行wordcount

jdk1.7+Eclipse+Maven3.5+Hadoop2.7.3构建hadoop项目

Eclipse运行WordCount（详细版）相关连接Eclipse运行WordCount

hadoop 用MR实现join操作

Centos7 下 Hadoop 2.6.4 分布式集群环境搭建摘要集群准备安装JDK 安装 Hadoop 2.6.4 部署 slaver1-slaver4 启动 hadoop 集群成功了

MapReduce的几个企业级经典面试案例MapReduce的几个企业级经典面试案例

ubuntu14.04下安装hbse1.0.1.1

User Defined Hadoop DataType

Apache2.4.x 配置文件详解Apache配置需要了解如下：开始讲解：

Ambari介绍和架构原理