利用青云云平台的Spark环境分布式求解最大团问题

2023-02-23 10:25:23

1.青云云平台Spark环境配置

青云云平台网址：https://www.qingcloud.com/

（1）创建VPC网络

网络与CDN——>VPC网络——>创建VPC网络

（2）创建私有网络

网路与CDN——>私有网络——>创建

（3）将私有网络加入VPC网络，网络地址设为192.168.1.0/24

（4）创建公网IP，并将公网IP绑定到VPC网络

（5）创建Spark环境（1个master节点，3个slave节点）

大数据平台——>QingMR——>创建（ip地址手动指定，并配置如下）

利用青云云平台的Spark环境分布式求解最大团问题

注意：enable_spark_standalone选择true，最后选择提交。

相关配置如下所示：

利用青云云平台的Spark环境分布式求解最大团问题

（6）打开内网与外网访问端口，由于使用spark的standalone模式，因此，需要打开Client节点的22端口。同时，为了察看spark并行计算的运行情况，因此也需要打开Client节点的4040端口（此端口只在运行时才显示页面）。若要察看spark相关配置，需要打开主节点的8080端口。

网络与CDN——>VPC网络——>查看详情——>管理配置——>添加规则（如下所示：）

利用青云云平台的Spark环境分布式求解最大团问题

添加规则后不要忘记点击右上角的“应用修改”。

（7）使用远程控制软件如xshell或secureCRT等连接Client节点，使用文件传输软件如xshell或Winscp进行本地与远程Client节点传输文件。本文使用xshell6进行远程连接，使用winscp进行文件传输，输入公网IP地址，端口号设置为22，用户名为：ubuntu，密码系统默认为：p12cHANgepwD。

（8）使用xshell6远程连接Client节点成功后，进行spark相关配置如下（所有节点已经默认安装spark）：

本文使用spark-2.2.0-bin-hadoop2.7环境进行操作，配置spark环境变量：

利用青云云平台的Spark环境分布式求解最大团问题

进入此目录下察看：

利用青云云平台的Spark环境分布式求解最大团问题

进入conf文件下，复制spark-env.sh-template并改名为为spark-env.sh，复制slaves.template并改名为slaves。

利用青云云平台的Spark环境分布式求解最大团问题

修改spark-env.sh文件：

利用青云云平台的Spark环境分布式求解最大团问题

修改slaves文件：

利用青云云平台的Spark环境分布式求解最大团问题

至此，青云云平台下spark环境已搭建完毕（spark的standalone模式）。

2. 利用spark环境求解最大团

基于spark求解最大团源程序位置：https://github.com/ZhangChongpeng/MultiMaxClique

（1）使用winscp将源程序打包后的jar包和数据集上传到云平台的Client节点。

利用青云云平台的Spark环境分布式求解最大团问题

（2）进入/home/ubuntu目录下察看

利用青云云平台的Spark环境分布式求解最大团问题

（3）运行最大团程序：

运行代码为（在任意目录下）：

spark-submit \

--class cn.zzp.spark.MaxClique \

--master spark://192.168.1.30:7077 \

--driver-memory 6g \

/home/ubuntu/MultiMaxClique-0.0.1-SNAPSHOT.jar \

/home/ubuntu/data/C125.9.clq

利用青云云平台的Spark环境分布式求解最大团问题

运行结果为：图C125.9.clq的最大团顶点个数为34，顶点如图所示。

利用青云云平台的Spark环境分布式求解最大团问题

利用青云云平台的Spark环境分布式求解最大团问题

1.青云云平台Spark环境配置

2. 利用spark环境求解最大团

继续阅读

pyspark调用spark以及执行带in语句参数的hql示例

用写sql的思路写 pyspark

pyspark学习(一)—pyspark的安装与基础语法一 Pysaprk的安装二：pyspark的简单语法END

【Spark Mllib】K-均值聚类——电影类型K-均值聚类数据特征提取

一篇文章让你精通Java JSP规范

世界因大数据而改变

Spark的RDD转换算子-双value型Spark的RDD转换算子-双value型

SparkSQL项目练习1 准备数据2 需求：各区域热门商品Top3

延云行业搜索数据库在大数据生态中位置和重要性大数据的挑战大数据技术的现状延云行业搜索数据库

Spark在windows环境里跑时报错找不到org.apache.hadoop.fs.FSDataInputStream

Spark流式分析系统实现流式实时日志分析系统

Scala和Java二种方式实战Spark Streaming开发

Spark基础:Spark简介及特点,运行模式,安装Spark,Driver与Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark运行模式第3章案例实操

Spark实现wordcount

大数据排错SparkSpark集群启动时候，JAVA_HOME is not sethadoop集群，某台服务器jps无任何输出IDEAkafkahadoopspark sqlfile permissionsIDEA本地测试 - OutOfMemoryError: GC overhead limit exceededhdfs负载均衡

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结