深入理解Spark：核心思想与源码分析. 3.1　SparkContext概述

2021-11-08 01:56:57

<b>3.1　sparkcontext概述</b>

spark driver用于提交用户应用程序，实际可以看作spark的客户端。了解spark

driver的初始化，有助于读者理解用户应用程序在客户端的处理过程。

spark driver的初始化始终围绕着sparkcontext的初始化。sparkcontext可以算得上是所有spark应用程序的发动机引擎，轿车要想跑起来，发动机首先要启动。sparkcontext初始化完毕，才能向spark集群提交任务。在平坦的公路上，发动机只需以较低的转速、较低的功率就可以游刃有余；在山区，你可能需要一台能够提供大功率的发动机才能满足你的需求。这些参数都是通过驾驶员操作油门、档位等传送给发动机的，而sparkcontext的配置参数则由sparkconf负责，sparkconf就是你的操作面板。

sparkconf的构造很简单，主要是通过concurrenthashmap来维护各种spark的配置属性。sparkconf代码结构见代码清单3-1。spark的配置属性都是以“spark.”开头的字符串。

代码清单3-1　sparkconf代码结构

class sparkconf(loaddefaults: boolean)

extends cloneable with logging {

import sparkconf._

def this() = this(true)

private val settings = new concurrenthashmap[string, string]()

if (loaddefaults) {

// 加载任何以spark.开头的系统属性

for ((key, value) <- utils.getsystemproperties if

key.startswith("spark.")) {

set(key, value)

}

//其余代码省略

现在开始介绍sparkcontext。sparkcontext的初始化步骤如下：

1）创建spark执行环境sparkenv；

2）创建rdd清理器metadatacleaner；

3）创建并初始化spark ui；

4）hadoop相关配置及executor环境变量的设置；

5）创建任务调度taskscheduler；

6）创建和启动dagscheduler；

7）taskscheduler的启动；

8）初始化块管理器blockmanager（blockmanager是存储体系的主要组件之一，将在第4章介绍）；

9）启动测量系统metricssystem；

10）创建和启动executor分配管理器executorallocationmanager；

11）contextcleaner的创建与启动；

12）spark环境更新；

13）创建dagschedulersource和blockmanagersource；

14）将sparkcontext标记为激活。

sparkcontext的主构造器参数为sparkconf，其实现如下。

class sparkcontext(config: sparkconf)

extends logging with executorallocationclient {

private val creationsite: callsite =

utils.getcallsite()

private val allowmultiplecontexts: boolean =

config.getboolean("spark.driver.allowmultiplecontexts", false)

sparkcontext.markpartiallyconstructed(this, allowmultiplecontexts)

上面代码中的callsite存储了线程栈中最靠近栈顶的用户类及最靠近栈底的scala或者spark核心类信息。utils.getcallsite的详细信息见附录a。sparkcontext默认只有一个实例（由属性spark.driver.allowmultiplecontexts来控制，用户需要多个sparkcontext实例时，可以将其设置为true），方法markpartiallyconstructed用来确保实例的唯一性，并将当前sparkcontext标记为正在构建中。

接下来会对sparkconf进行复制，然后对各种配置信息进行校验，代码如下。

private[spark] val conf = config.clone()

conf.validatesettings()

(!conf.contains("spark.master")) {

throw new sparkexception("a master url must be set in your

configuration")

(!conf.contains("spark.app.name")) {

throw new sparkexception("an application name must be set in your

从上面校验的代码看到必须指定属性spark.master 和spark.app.name，否则会抛出异常，结束初始化过程。spark.master用于设置部署模式，spark.app.name用于指定应用程序名称。

深入理解Spark：核心思想与源码分析. 3.1　SparkContext概述

继续阅读

华为笔试软件

项目管理那些事儿

OS --written test1

OS-written test2

延云行业搜索数据库在大数据生态中位置和重要性大数据的挑战大数据技术的现状延云行业搜索数据库

Spark在windows环境里跑时报错找不到org.apache.hadoop.fs.FSDataInputStream

压缩编码M-JPEG、MPEG4、H.264

Spark流式分析系统实现流式实时日志分析系统

Scala和Java二种方式实战Spark Streaming开发

转详解C#数据库存取图片三大方式

Spark基础:Spark简介及特点,运行模式,安装Spark,Driver与Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark运行模式第3章案例实操

Spark实现wordcount

BMP文件结构及图像每行字节计算方法

磁盘结构及在Linux中的命名

大数据排错SparkSpark集群启动时候，JAVA_HOME is not sethadoop集群，某台服务器jps无任何输出IDEAkafkahadoopspark sqlfile permissionsIDEA本地测试 - OutOfMemoryError: GC overhead limit exceededhdfs负载均衡

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

深入理解Spark：核心思想与源码分析. 3.1 SparkContext概述

继续阅读

深入理解Spark：核心思想与源码分析. 3.1　SparkContext概述