apache spark是专为大规模数据处理而设计的快速通用的计算引擎,可以完成各种各样的运算,包括 sql 查询、文本处理、机器学习等,而在 spark 出现之前,我们一般需要学习各种各样的引擎来分别处理这些需求。本文主要目的是为大家提供一种非常简单的方法,在阿里云上部署spark集群。
<a href="https://ros.console.aliyun.com/?spm=5176.100239.blogcont73766.21.1bfqgs&hidetopbar=false&skipprotocal=true&/#/stack//create?url=http:%2f%2fros-template.cn-hangzhou.oss.aliyun-inc.com%2fspark_hadoop_distributed_env_3_ecs.json&stackname=spark_3_ecs">一键部署spark集群>></a>

注意:
必须确保可以正确下载jdk,hadoop,scala和spark安装包,我们可以选择类似如下的url:
<a href="http://mirrors.hust.edu.cn/apache/hadoop/core/hadoop-2.7.1/hadoop-2.7.1.tar.gz">http://mirrors.hust.edu.cn/apache/hadoop/core/hadoop-2.7.1/hadoop-2.7.1.tar.gz</a>
<a href="https://downloads.lightbend.com/scala/2.12.1/scala-2.12.1.tgz">https://downloads.lightbend.com/scala/2.12.1/scala-2.12.1.tgz</a>
<a href="http://d3kbcqa49mib13.cloudfront.net/spark-2.1.0-bin-hadoop2.7.tgz">http://d3kbcqa49mib13.cloudfront.net/spark-2.1.0-bin-hadoop2.7.tgz</a>
利用该模板创建时,只能选择centos系统;
为了防止timeout 失败,可以设置为120分钟;
我们选择的数据中心在上海/北京。
spark的依赖环境比较多,一般安装spark可分为四步:安装配置hadoop集群,安装配置scala,安装配置spark包和启动测试集群。
spark 是在 scala 语言中实现的,它将 scala 用作其应用程序框架,scala可以像操作本地集合对象一样轻松地操作分布式数据集。
master上安装spark,并将配置正确后的spark home目录远程复制到slave主机上,并设置环境变量。
最后格式化hdfs,关闭防火墙,启动集群。
创建完成后,查看资源栈概况:
浏览器中输入图中的的sparkwebsiteurl,得到如下结果,则部署成功: