Spark技术内幕：Worker源码与架构解析

2021-11-05 22:47:28

首先通过一张spark的架构图来了解worker在spark中的作用和地位：

worker所起的作用有以下几个：

1. 接受master的指令，启动或者杀掉executor

2. 接受master的指令，启动或者杀掉driver

3. 报告executor/driver的状态到master

4. 心跳到master，心跳超时则master认为worker已经挂了不能工作了

5. 向gui报告worker的状态

说白了，worker就是整个集群真正干活的。首先看一下worker重要的数据结构：

这些hash map存储了名字和实体时间的对应关系，方便通过名字直接找到实体进行调用。

看一下如何启动executor：

1行到3行是验证该命令是否发自一个合法的master。7到10行定义了一个executorrunner，实际上系统并没有一个类叫做executor，我们所说的executor实际上是由executorrunner实现的，这个名字起得也比较贴切。11行将新建的executor放到上面提到的hash map中。然后12行启动这个executor。13行和14行将现在已经使用的core和memory进行的统计。15到17行实际上是向master报告executor的状态。这里需要加锁。

如果在这过程中有异常抛出，那么需要check是否是executor已经加到hash map中，如果有则首先停止它，然后从hash map中删除它。并且向master report executor是failed的。master会重新启动新的executor。

接下来看一下driver的hash map的使用，通过killdriver:

这个killdirver的命令实际上由master发出的，而master实际上接收了client的kill driver的命令。这个也可以看出scala语言的简洁性。

Spark技术内幕：Worker源码与架构解析

继续阅读

Spark在windows环境里跑时报错找不到org.apache.hadoop.fs.FSDataInputStream

压缩编码M-JPEG、MPEG4、H.264

《快学Scala》——基础

《快学scala》第13章练习答案

Spark流式分析系统实现流式实时日志分析系统

Scala和Java二种方式实战Spark Streaming开发

转详解C#数据库存取图片三大方式

Spark基础:Spark简介及特点,运行模式,安装Spark,Driver与Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark运行模式第3章案例实操

Spark实现wordcount

BMP文件结构及图像每行字节计算方法

磁盘结构及在Linux中的命名

9.spark Core 进阶2--Cashe

大数据排错SparkSpark集群启动时候，JAVA_HOME is not sethadoop集群，某台服务器jps无任何输出IDEAkafkahadoopspark sqlfile permissionsIDEA本地测试 - OutOfMemoryError: GC overhead limit exceededhdfs负载均衡

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

win10本地scala和spark安装安装scala安装spark

scala (3) Function 和 Method