天天看点

大数据||hadoop分布式集群安装

基于伪分布式环境安装进行展开

规划机器与服务()

HDFS 文件系统

YARN “云操作系统”

JobHistoryServer 历史服务监控

修改配置文件,设置服务运行机器节点()

分发HADOOP安装包至各个机器节点

依据官方集群安装文档,分别启动各节点相应服务

测试 HDFS 、YARN、 MapReduce ,Web UI 监控集群()

配置主节点至各从节点 SSH 无密钥登陆

集群基准测试(实际环境必须的,面试题)

copy 伪分布模式步骤

image.png

配置hdfs

配置jdk。

配置hdfs的nameNode地址

配置hadoop数据存储目录及垃圾回收时间

创建hadoop数据存储目录 mkdir -p /opt/app/hadoop-2.5.0/data/tmp

配置secondaryNameNode

vi /opt/app/hadoop-2.5.0/etc/hadoop/hdfs-site.xml

配置集群 slaves

vi /opt/app/hadoop-2.5.0/etc/hadoop/slaves

yarn配置

yarn的环境变量配置 。

vi /opt/app/hadoop-2.5.0/etc/hadoop/yarn-env.sh

resourceManager配置

vi /opt/app/hadoop-2.5.0/etc/hadoop/yarn-site.xml

配置集群slaves

配置MapReduce

mapReduce环境变量

vi /opt/app/hadoop-2.5.0/etc/hadoop/mapred-env.sh

配置jobhistoryserver

vi /opt/app/hadoop-2.5.0/etc/hadoop/mapred-site.xml

首先删除doc文件,此文件夹不需要分发

从主节点(131)到从节点(132,133)无密码登入及测试

ssh-copy-id hadoop-senior02.beifeng.com ssh-copy-id hadoop-senior03.beifeng.com 说明:ssh-copy-id命令可以把本地主机的公钥复制到远程主机的authorized_keys文件上,ssh-copy-id命令也会给远程主机的用户主目录(home)和<code>~/.ssh</code>, 和<code>~/.ssh/authorized_keys</code>设置合适的权限

分发hadoop安装包到子节点(132,133node节点)

命令scp(ssh copy)

删除复制过来的虚拟机

两个linux机器之间使用ssh不需要用户名和密码

命令:ssh-keygen -t rsa 。 两个linux机器之间使用ssh不需要用户名和密码,采用了数字签名RSA或者DSA来完成这个操作

公钥复制到远程主机的authorized_keys文件上

ssh-copy-id hadoop-senior.beifeng.com