spark 容错HA

1. Executor 异常

spark在各种运行模式中的集群管理器会为任务分配运行资源，在运行资源中启动Executor，由Executor是负责执行任务的，最终会把任务运行状态发送给Driver。

spark 容错HA（五）spark 容错HA

首先看Executor启动过程：

1）Master给APP分配资源

2）在Worker中启动ExecutorRunner

3）ExecutorRunner会启动一个线程向Driver发送注册Executor消息

4）注册成功，则启动Executor。

当Executor出现异常时：

1）Worker接收到ExecutorStateChanged消息，在Worker中根据Executor状态进行信息更新，同时把Executor状态信息发送给Master。

2）Master接收到Executor状态变化消息后，如果发现Executor出现异常退出，则尝试获取可用的Worker节点并启动Executor，这个Worker很可能不能之前运行失败的Worker节点。系统会进行10次该尝试，如果超过10次，则标记为应用运行失败并移除该应用。次数限定为了避免提交的应用程序存在BUG，而反复提交，挤占资源。

2. Worker异常

Spark standalone模式是采用Master/Slave的结构，其中slave是由Worker来担任，在运行时会发送心跳给Master，让Master知道Worker的实时状态，另一方面Master也会检测Worker是否会超时，因为在集群运行过程中。

spark 容错HA（五）spark 容错HA

1）Master是如何感知到Worker超时的，在Master接收Worker心跳的同时，在其启动方式中启动检测Worker超时的线程。也就是说检测线程和心跳线程并不是同一个。

2）当Worker出现超时时，Master调用timeOutWorkers方法进行处理，在处理时根据Worker运行的是Executor和Driver分别进行处理。

a) 如果是Executor，Master先先把Worker上Executor异常的信息发送给Driver，告知Executor已经丢失，同时把这些Executor从其应用程序列表中删除。并按照Executor异常处理。

b) 如果是Driver，则判断是否设置重启，如果设置，则重启，否则删除该应用程序。

3. Master异常

以standalone模式部署时，Master结束，基本就代表集群瘫痪，但是在多节点的集群，一般会选择HA模式，启动2个或者多个Master进程，一个是主Master，其他为Standby Master，当Master出现异常时，StandbyMaster将会选主，确定一个接管的Master，这部分功能是由ZOOKEEPER来完成的，HA模式写spark依赖zk，通过zk来进行选主。

spark 容错HA（五）spark 容错HA

spark 容错HA（五）spark 容错HA

spark 容错HA

1. Executor 异常

2. Worker异常

3. Master异常

继续阅读

【51CTO学院三周年】自学路上的伴侣

在线教育巨头多邻国Duolingo入华一周年，中国市场马力全开

【分类算法】什么是分类算法定义分类与聚类分类过程方法

申请评分模型拒绝推断（RI）方法申请评分模型拒绝推断（RI）方法

Sql优化一：sql语句优化

Nacos 2.0 升级前后性能对比压测

尚硅谷—韩顺平—图解 Java设计模式（结构型）（55～）

Storm编译打包过程中遇到的一些问题及解决方法

MapReduce的几个企业级经典面试案例MapReduce的几个企业级经典面试案例

9.spark Core 进阶2--Cashe

大数据排错SparkSpark集群启动时候，JAVA_HOME is not sethadoop集群，某台服务器jps无任何输出IDEAkafkahadoopspark sqlfile permissionsIDEA本地测试 - OutOfMemoryError: GC overhead limit exceededhdfs负载均衡

浅谈企业活动中进行数据分析的重要性

Ambari介绍和架构原理

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

NOSQL安全攻击

win10本地scala和spark安装安装scala安装spark