Ubuntu14.04搭建完全分布式Spark On Yarn

题外话：之前搭完没有马上写，今天闲得慌，补上

自己博客的原文

------

#准备工作

------

环境：VM12 Ubuntu14.04 x64

jdk-7u79-linux-x64.gz

hadoop-2.6.4.tar.gz

spark-2.0.0-bin-hadoop2.6.tgz

scala-2.11.8.tgz

创建一个专门的用户，并加入到管理员用户组

更新软件下载源，并安装好vim

一定不要进入管理员权限模式！

#搭建过程

----------

一.首先配置路径

cd进入工作目录

tar -zxvf jdk-8u101-linux-x64.tar.gz

tar .......

然后修改环境变量文件 sudo vim /etc/profile ，在末尾添加：

export JAVA_HOME=/home/spark/work/java

export JRE_HOME=$JAVA_HOME/jre

export SCALA_HOME=/home/spark/work/scala

export SPARK_HOME=/home/spark/work/spark

export CLASS_PATH=.:$JAVA_HOME/lib:$JRE_HOME/lib

export PATH=$SPARK_HOME/bin:$SCALA_HOME/bin:$JAVA_HOME/bin:/home/spark/work/hadoop/bin:$PATH

保存关闭后，source /etc/profile，使修改生效。

检验是否配好java -version

scala -version

二.修改hostname，hosts

ifconfig查看三台虚拟机的IP

sudo vim /etc/hosts

10.1.1.100 master

10.1.1.101 slave1

10.1.1.102 slave2

并测试能否ping通

eg. 输入ping slave1

三.安装ssh通信，配置免密登录

在每台主机上都生成私钥和公钥。

ssh-keygen -t rsa，一直按回车就行。

然后将slave1与slave2上的id_rsa.pub用scp命令发送给master，

scp ~/.ssh/id_rsa.pub [email protected]:~/.ssh/id_rsa.pub.slave1

scp ~/.ssh/id_rsa.pub [email protected]:~/.ssh/id_rsa.pub.slave2

在master上，将所有公钥加到用于认证的公钥文件authorized_keys中，

cat ~/.ssh/id_rsa.pub* >> ~/.ssh/authorized_keys

将公钥文件authorized_keys分发给每台slave，

scp ~/.ssh/authorized_keys [email protected]:~/.ssh/

然后两两通信一次 ssh IP

四.安装配置hadoop

1.hadoop-env.sh

# The java implementation to use.

export JAVA_HOME=/home/spark/work/java

# The jsvc implementation to use. Jsvc is required to run secure datanodes

# that bind to privileged ports to provide authentication of data transfer

# protocol. Jsvc is not required if SASL is configured for authentication of

# data transfer protocol using non-privileged ports.

#export JSVC_HOME = $ {JSVC_HOME}

export HADOOP_CONF_DIR=/home/spark/work/hadoop/etc/hadoop</code>

2.core-site.xml

注释下面加上

<name>fs.defaultFS</name>

<value>hdfs://master:9000/</value>

</property>

<name>hadoop.tmp.dir</name>

<value>file:/home/spark/work/hadoop/tmp</value>

</property>

</configuration>

hadoop目录下新建tmp文件夹

mkdir tmp

3.hdfs-site.xml

<name>dfs.namenode.secondary.http-address</name>

<value>master:9001</value>

</property>

<name>dfs.namenode.name.dir</name>

<value>file:/home/spark/work/hadoop/hdfs/name</value>

</property>

<name>dfs.datanode.data.dir</name>

<value>file:/home/spark/work/hadoop/hdfs/data</value>

</property>

<name>dfs.replication</name>

</property>

</configuration>

hadoop下mkdir hdfs

mkdir hdfs/data mkdir hdfs/name

4.mapred-site.xml

<name>mapred.job.tracker</name>

<value>master:9001</value>

</property>

<name>mapreduce.framework.name</name>

</property>

</configuration>

5.yarn-site.xml

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>

<value>org.apache.hadoop.mapred.ShuffleHandler</value>

</property>

<name>yarn.resourcemanager.address</name>

<value>master:8032</value>

</property>

<name>yarn.resourcemanager.scheduler.address</name>

<value>master:8030</value>

</property>

<name>yarn.resourcemanager.resource-tracker.address</name>

<value>master:8035</value>

</property>

<name>yarn.resourcemanager.admin.address</name>

<value>master:8033</value>

</property>

<name>yarn.resourcemanager.webapp.address</name>

<value>master:8088</value>

</property>

</configuration>

6.在slaves中配置slave节点的ip或者host，

master

slave1

slave2

7.将配置好的hadoop文件夹分发给所有slaves

scp -r ~/workspace/hadoop [email protected]:~/workspace/

格式化namenode

cd ~/workspace/hadoop #进入hadoop目录

bin/hadoop namenode -format #格式化namenode

启动hadoop

sbin/start-all.sh

命令行输入jps

主机进程图

![](/content/images/2016/10/V6G---JA--E-63WE6RS-GXT.png)

从机进程图

![](/content/images/2016/10/-4FN--5JD8FT3-B--6-3FQS.png)

hadoop的WEB控制界面

![](/content/images/2016/10/1AOIE2X61.spark-env.sh

五.SPARK环境配置

1.spark-env.sh

cd ~/workspace/spark/conf #进入spark配置目录

cp spark-env.sh.template spark-env.sh #从配置模板复制

vim spark-env.sh #添加配置内容

末尾加入

export SCALA_HOME=/home/spark/work/scala

export JAVA_HOME=/home/spark/work/java

export HADOOP_HOME=/home/spark/work/hadoop

export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

export LD_LIBRARY_PATH=$HADOOP_HOME/lib/native

SPARK_MASTER_IP=master

SPARK_LOCAL_DIRS=/home/spark/work/spark

SPARK_DRIVER_MEMORY=1G

2.slaves

vim slaves在slaves文件下填上slave主机名：

slave1

slave2

分发给slave虚拟机

scp -r ~/workspace/spark [email protected]:~/workspace/

启动Spark

进入spark根目录

cd ~/workspace/spark

sbin/start-all.sh

jps检查进程，master机器上应该多出一个Master进程

slave机器上多出一个Worker进程

SPARK的WEB控制界面

done！

Ubuntu14.04搭建完全分布式Spark On Yarn

继续阅读

Centos7 下 Hadoop 2.6.4 分布式集群环境搭建摘要集群准备安装JDK 安装 Hadoop 2.6.4 部署 slaver1-slaver4 启动 hadoop 集群成功了

Ubuntu16.04下使用Dr.COM 校园网客户端联网的详细流程（下载playonlinunx软件）

linux下的完美网银们（google chrome, ubuntu10.04）

Ubunto 安装Apache2以后 httpd.conf文件找不到问题

MapReduce的几个企业级经典面试案例MapReduce的几个企业级经典面试案例

服务器配置——Apache

大数据排错SparkSpark集群启动时候，JAVA_HOME is not sethadoop集群，某台服务器jps无任何输出IDEAkafkahadoopspark sqlfile permissionsIDEA本地测试 - OutOfMemoryError: GC overhead limit exceededhdfs负载均衡

ubuntu 16.04 源码安装httpd和php

Ubuntu16.04安装Apache+MySQL+PHP1. 安装Apache2. 安装MySQL3. 安装PHP4. 安装phpMyAdmin

Ubuntu14.04 LTS下安装mongodb

ubuntu14.04下安装hbse1.0.1.1

禁止ubuntu系统弹出报错界面

User Defined Hadoop DataType

Ambari介绍和架构原理

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

JBoss,Geronimo和Glassfish初窥