天天看点

利用青云云平台的Spark环境分布式求解最大团问题

1.青云云平台Spark环境配置

青云云平台网址:https://www.qingcloud.com/

(1)创建VPC网络

网络与CDN——>VPC网络——>创建VPC网络

(2)创建私有网络

网路与CDN——>私有网络——>创建

(3)将私有网络加入VPC网络,网络地址设为192.168.1.0/24

(4)创建公网IP,并将公网IP绑定到VPC网络

(5)创建Spark环境(1个master节点,3个slave节点)

大数据平台——>QingMR——>创建(ip地址手动指定,并配置如下)

利用青云云平台的Spark环境分布式求解最大团问题

注意:enable_spark_standalone选择true,最后选择提交。

相关配置如下所示:

利用青云云平台的Spark环境分布式求解最大团问题

(6)打开内网与外网访问端口,由于使用spark的standalone模式,因此,需要打开Client节点的22端口。同时,为了察看spark并行计算的运行情况,因此也需要打开Client节点的4040端口(此端口只在运行时才显示页面)。若要察看spark相关配置,需要打开主节点的8080端口。

网络与CDN——>VPC网络——>查看详情——>管理配置——>添加规则(如下所示:)

利用青云云平台的Spark环境分布式求解最大团问题

添加规则后不要忘记点击右上角的“应用修改”。

(7)使用远程控制软件如xshell或secureCRT等连接Client节点,使用文件传输软件如xshell或Winscp进行本地与远程Client节点传输文件。本文使用xshell6进行远程连接,使用winscp进行文件传输,输入公网IP地址,端口号设置为22,用户名为:ubuntu,密码系统默认为:p12cHANgepwD。

(8)使用xshell6远程连接Client节点成功后,进行spark相关配置如下(所有节点已经默认安装spark):

本文使用spark-2.2.0-bin-hadoop2.7环境进行操作,配置spark环境变量:

利用青云云平台的Spark环境分布式求解最大团问题
利用青云云平台的Spark环境分布式求解最大团问题

进入此目录下察看:

利用青云云平台的Spark环境分布式求解最大团问题

进入conf文件下,复制spark-env.sh-template并改名为为spark-env.sh,复制slaves.template并改名为slaves。

利用青云云平台的Spark环境分布式求解最大团问题

修改spark-env.sh文件:

利用青云云平台的Spark环境分布式求解最大团问题
利用青云云平台的Spark环境分布式求解最大团问题

修改slaves文件:

利用青云云平台的Spark环境分布式求解最大团问题
利用青云云平台的Spark环境分布式求解最大团问题

至此,青云云平台下spark环境已搭建完毕(spark的standalone模式)。

2. 利用spark环境求解最大团

基于spark求解最大团源程序位置:https://github.com/ZhangChongpeng/MultiMaxClique

(1)使用winscp将源程序打包后的jar包和数据集上传到云平台的Client节点。

利用青云云平台的Spark环境分布式求解最大团问题

(2)进入/home/ubuntu目录下察看

利用青云云平台的Spark环境分布式求解最大团问题

(3)运行最大团程序:

运行代码为(在任意目录下):

spark-submit \

  --class cn.zzp.spark.MaxClique \

  --master spark://192.168.1.30:7077 \

  --driver-memory 6g \

  /home/ubuntu/MultiMaxClique-0.0.1-SNAPSHOT.jar \

  /home/ubuntu/data/C125.9.clq

利用青云云平台的Spark环境分布式求解最大团问题

运行结果为:图C125.9.clq的最大团顶点个数为34,顶点如图所示。

利用青云云平台的Spark环境分布式求解最大团问题

继续阅读