天天看點

阿裡雲一鍵部署 Spark 分布式叢集

apache spark是專為大規模資料處理而設計的快速通用的計算引擎,可以完成各種各樣的運算,包括 sql 查詢、文本處理、機器學習等,而在 spark 出現之前,我們一般需要學習各種各樣的引擎來分别處理這些需求。本文主要目的是為大家提供一種非常簡單的方法,在阿裡雲上部署spark叢集。

<a href="https://ros.console.aliyun.com/?spm=5176.100239.blogcont73766.21.1bfqgs&amp;hidetopbar=false&amp;skipprotocal=true&amp;/#/stack//create?url=http:%2f%2fros-template.cn-hangzhou.oss.aliyun-inc.com%2fspark_hadoop_distributed_env_3_ecs.json&amp;stackname=spark_3_ecs">一鍵部署spark叢集&gt;&gt;</a>

阿裡雲一鍵部署 Spark 分布式叢集
阿裡雲一鍵部署 Spark 分布式叢集

注意:

必須確定可以正确下載下傳jdk,hadoop,scala和spark安裝包,我們可以選擇類似如下的url:

<a href="http://mirrors.hust.edu.cn/apache/hadoop/core/hadoop-2.7.1/hadoop-2.7.1.tar.gz">http://mirrors.hust.edu.cn/apache/hadoop/core/hadoop-2.7.1/hadoop-2.7.1.tar.gz</a>

<a href="https://downloads.lightbend.com/scala/2.12.1/scala-2.12.1.tgz">https://downloads.lightbend.com/scala/2.12.1/scala-2.12.1.tgz</a>

<a href="http://d3kbcqa49mib13.cloudfront.net/spark-2.1.0-bin-hadoop2.7.tgz">http://d3kbcqa49mib13.cloudfront.net/spark-2.1.0-bin-hadoop2.7.tgz</a>

利用該模闆建立時,隻能選擇centos系統;

為了防止timeout 失敗,可以設定為120分鐘;

我們選擇的資料中心在上海/北京。

spark的依賴環境比較多,一般安裝spark可分為四步:安裝配置hadoop叢集,安裝配置scala,安裝配置spark包和啟動測試叢集。

spark 是在 scala 語言中實作的,它将 scala 用作其應用程式架構,scala可以像操作本地集合對象一樣輕松地操作分布式資料集。

master上安裝spark,并将配置正确後的spark home目錄遠端複制到slave主機上,并設定環境變量。

最後格式化hdfs,關閉防火牆,啟動叢集。

建立完成後,檢視資源棧概況:

阿裡雲一鍵部署 Spark 分布式叢集

浏覽器中輸入圖中的的sparkwebsiteurl,得到如下結果,則部署成功:

阿裡雲一鍵部署 Spark 分布式叢集
阿裡雲一鍵部署 Spark 分布式叢集

繼續閱讀