1.青云云平台Spark环境配置
青云云平台网址:https://www.qingcloud.com/
(1)创建VPC网络
网络与CDN——>VPC网络——>创建VPC网络
(2)创建私有网络
网路与CDN——>私有网络——>创建
(3)将私有网络加入VPC网络,网络地址设为192.168.1.0/24
(4)创建公网IP,并将公网IP绑定到VPC网络
(5)创建Spark环境(1个master节点,3个slave节点)
大数据平台——>QingMR——>创建(ip地址手动指定,并配置如下)
注意:enable_spark_standalone选择true,最后选择提交。
相关配置如下所示:
(6)打开内网与外网访问端口,由于使用spark的standalone模式,因此,需要打开Client节点的22端口。同时,为了察看spark并行计算的运行情况,因此也需要打开Client节点的4040端口(此端口只在运行时才显示页面)。若要察看spark相关配置,需要打开主节点的8080端口。
网络与CDN——>VPC网络——>查看详情——>管理配置——>添加规则(如下所示:)
添加规则后不要忘记点击右上角的“应用修改”。
(7)使用远程控制软件如xshell或secureCRT等连接Client节点,使用文件传输软件如xshell或Winscp进行本地与远程Client节点传输文件。本文使用xshell6进行远程连接,使用winscp进行文件传输,输入公网IP地址,端口号设置为22,用户名为:ubuntu,密码系统默认为:p12cHANgepwD。
(8)使用xshell6远程连接Client节点成功后,进行spark相关配置如下(所有节点已经默认安装spark):
本文使用spark-2.2.0-bin-hadoop2.7环境进行操作,配置spark环境变量:
进入此目录下察看:
进入conf文件下,复制spark-env.sh-template并改名为为spark-env.sh,复制slaves.template并改名为slaves。
修改spark-env.sh文件:
修改slaves文件:
至此,青云云平台下spark环境已搭建完毕(spark的standalone模式)。
2. 利用spark环境求解最大团
基于spark求解最大团源程序位置:https://github.com/ZhangChongpeng/MultiMaxClique
(1)使用winscp将源程序打包后的jar包和数据集上传到云平台的Client节点。
(2)进入/home/ubuntu目录下察看
(3)运行最大团程序:
运行代码为(在任意目录下):
spark-submit \
--class cn.zzp.spark.MaxClique \
--master spark://192.168.1.30:7077 \
--driver-memory 6g \
/home/ubuntu/MultiMaxClique-0.0.1-SNAPSHOT.jar \
/home/ubuntu/data/C125.9.clq
运行结果为:图C125.9.clq的最大团顶点个数为34,顶点如图所示。