apache spark是專為大規模資料處理而設計的快速通用的計算引擎,可以完成各種各樣的運算,包括 sql 查詢、文本處理、機器學習等,而在 spark 出現之前,我們一般需要學習各種各樣的引擎來分别處理這些需求。本文主要目的是為大家提供一種非常簡單的方法,在阿裡雲上部署spark叢集。
<a href="https://ros.console.aliyun.com/?spm=5176.100239.blogcont73766.21.1bfqgs&hidetopbar=false&skipprotocal=true&/#/stack//create?url=http:%2f%2fros-template.cn-hangzhou.oss.aliyun-inc.com%2fspark_hadoop_distributed_env_3_ecs.json&stackname=spark_3_ecs">一鍵部署spark叢集>></a>

注意:
必須確定可以正确下載下傳jdk,hadoop,scala和spark安裝包,我們可以選擇類似如下的url:
<a href="http://mirrors.hust.edu.cn/apache/hadoop/core/hadoop-2.7.1/hadoop-2.7.1.tar.gz">http://mirrors.hust.edu.cn/apache/hadoop/core/hadoop-2.7.1/hadoop-2.7.1.tar.gz</a>
<a href="https://downloads.lightbend.com/scala/2.12.1/scala-2.12.1.tgz">https://downloads.lightbend.com/scala/2.12.1/scala-2.12.1.tgz</a>
<a href="http://d3kbcqa49mib13.cloudfront.net/spark-2.1.0-bin-hadoop2.7.tgz">http://d3kbcqa49mib13.cloudfront.net/spark-2.1.0-bin-hadoop2.7.tgz</a>
利用該模闆建立時,隻能選擇centos系統;
為了防止timeout 失敗,可以設定為120分鐘;
我們選擇的資料中心在上海/北京。
spark的依賴環境比較多,一般安裝spark可分為四步:安裝配置hadoop叢集,安裝配置scala,安裝配置spark包和啟動測試叢集。
spark 是在 scala 語言中實作的,它将 scala 用作其應用程式架構,scala可以像操作本地集合對象一樣輕松地操作分布式資料集。
master上安裝spark,并将配置正确後的spark home目錄遠端複制到slave主機上,并設定環境變量。
最後格式化hdfs,關閉防火牆,啟動叢集。
建立完成後,檢視資源棧概況:
浏覽器中輸入圖中的的sparkwebsiteurl,得到如下結果,則部署成功: