Spark+Scala完全分布式叢集搭建過程

2023-08-05 05:30:56

Scala2.11.8環境搭建

1、下載下傳scala安裝包scala-2.11.8.rpm安裝

rpm -ivh scala-2.11.8.rpm

2、添加Scala環境變量，在/etc/profile中添加：

export SCALA_HOME=/usr/local/src/scala
export PATH=$PATH:$SCALA_HOME/bin

3、儲存後重新整理配置

source /etc/profile

Spark2.1.0完全分布式環境搭建

以下操作都在Master節點進行。

1、下載下傳二進制包spark-2.1.0-bin-hadoop2.7.tgz

2、解壓并移動到相應目錄，指令如下：

tar -zxvf spark-2.1.0-bin-hadoop2.7.tgz

3、修改相應的配置檔案。

1) 修改/etc/profie，增加如下内容：

export SPARK_HOME=/usr/local/src/spark-2.1.0-bin-hadoop2.7/
export PATH=$PATH:$SPARK_HOME/bin

2) 複制spark-env.sh.template成spark-env.sh

cp spark-env.sh.template  spark-env.sh

3) 修改$SPARK_HOME/conf/spark-env.sh，添加如下内容：

export JAVA_HOME=/usr/local/src/jdk1.8.0_144
export SCALA_HOME=/usr/share/scala
export HADOOP_HOME=/usr/local/src/hadoop-2.7.3
export HADOOP_CONF_DIR=/usr/local/src/hadoop-2.7.3/etc/hadoop
export SPARK_MASTER_IP=172.16.1.2
export SPARK_MASTER_HOST=172.16.1.2
export SPARK_LOCAL_IP=172.16.1.2
export SPARK_WORKER_MEMORY=1g
export SPARK_WORKER_CORES=2
export SPARK_HOME=/usr/local/src/spark-2.1.0-bin-hadoop2.7
export SPARK_DIST_CLASSPATH=$(/usr/local/src/hadoop-2.7.3/bin/hadoop classpath)

4) 複制slaves.template成slaves

cp slaves.template slaves

5) 修改$SPARK_HOME/conf/slaves，添加如下内容：

master
slave1
slave2

4、将配置好的spark檔案複制到Slave1節點。（複制到slave2已省略）

5、修改Slave1和Slave2配置。

在Slave1和Slave2上分别修改/etc/profile，增加Spark的配置，過程同Master一樣。

在Slave1和Slave2修改$SPARK_HOME/conf/spark-env.sh，将export SPARK_LOCAL_IP=172.16.1.2改成Slave1和Slave2對應節點的IP。

6、在Master節點啟動叢集。

/usr/local/src/spark-2.1.0-bin-hadoop2.7/sbin/start-all.sh

7、檢視叢集是否啟動成功：

jps

Master在Hadoop的基礎上新增了：

Master

Slave在Hadoop的基礎上新增了：

Worker

Spark+Scala完全分布式叢集搭建過程

Scala2.11.8環境搭建

Spark2.1.0完全分布式環境搭建

以下操作都在Master節點進行。

繼續閱讀

hadoop操作遇到的問題問題一：輸出檔案已存在

Hadoop之運作wordcount

jdk1.7+Eclipse+Maven3.5+Hadoop2.7.3建構hadoop項目

Spark實作wordcount

Eclipse運作WordCount（詳細版）相關連接配接Eclipse運作WordCount

hadoop 用MR實作join操作

Centos7 下 Hadoop 2.6.4 分布式叢集環境搭建摘要叢集準備安裝JDK 安裝 Hadoop 2.6.4 部署 slaver1-slaver4 啟動 hadoop 叢集成功了

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

ubuntu14.04下安裝hbse1.0.1.1

User Defined Hadoop DataType

Ambari介紹和架構原理

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

win10本地scala和spark安裝安裝scala安裝spark

scala (3) Function 和 Method