Spark2.3（四十）：如何使用java通过yarn api调度spark app，并根据appId监控任务，关闭任务，获取任务日志

调研过OOZIE和AZKABA,这种都是只是使用spark-submit.sh来提交任务，任务提交上去之后获取不到ApplicationId，更无法跟踪spark application的任务状态，无法kill application，更无法获取application的日志信息。因此，为了实现一个spark的调度平台所以有了以下调研及测试结论。

调研目前流行的SPARK任务调度：Oozie和Azkaban。

Spark2.3（四十）：如何使用java通过yarn api调度spark app，并根据appId监控任务，关闭任务，获取任务日志

但是这两个平台不能满足以下功能（这些功能是希望有的）：

1) 无法满足即安全（使用shell提交任务，操作用户权限控制）又可以Spark状态监控（跟踪SPARK application的任务状态）；

2) 无法满足监控集群运行状态；

3) 无法满足对每个任务设置监控策略。比如：任务假死状态判定。

一个合格的spark调度平台要具有的基本功能：可以submit，kill，监控，获取日志，跟踪历史记录。

本篇文章主要讲解如何使用YarnClient API实现，借助于YarnClient来实现监控任务，杀死任务，获取日志，使用org.apache.spark.deploy.yarn.Client提交spark任务并返回spark任务的applicationId。

备注：之前研究过使用SparkLauncher类进行调度，该方案也是一种不错的方案，如果读者你喜欢也可以尝试使用SparkLauncher，它一样可以提交后返回spark任务的applicationid（提交后无状态，需要等待applicaitonId不为空为止）。

1）由于我们是使用java 代码（需要发布到web项目中，而不是shell调用[不可以再shell中设置环境变量]）去调用，因此我们需要centos系统环境变量中包含以下变量：

如果你对spark-env.sh文件比较熟悉的话，你会发现上边这些变量来自于该文件，那么，我们嗯只需要把spark-env.sh引入到/ect/profile就可以。

spark-env.sh

Spark2.3（四十）：如何使用java通过yarn api调度spark app，并根据appId监控任务，关闭任务，获取任务日志

View Code

接下来在/ect/profile文件最后一样追加

，保存，然后source /etc/profile使其生效。

2）需要修改yarn上传资源文件存储位置，否则会出现错误找不到资源文件（文件之所以找不到，是因为那些资源文件spark_lib.zip,spark_conf.zip,*.jar被上传到本地的/curent_user[root、zhangsan、lisi]/.sparkStaging/{appId}/*.jar下，在其他executor|container上找不到），必须修改yarn资源文件上传到hdfs目录下：

第一步：提交任务代码中设置SparkConf变量：

第二步：手动创建hdfs目录 /user/.sparkStaging，给分配权限：

第三步：导入pom.xml依赖包

参数类YarnSubmitConditions：

Spark2.3（四十）：如何使用java通过yarn api调度spark app，并根据appId监控任务，关闭任务，获取任务日志

提交函数：

测试函数

测试函数执行脚本：

执行日志：

Spark2.3（四十）：如何使用java通过yarn api调度spark app，并根据appId监控任务，关闭任务，获取任务日志

目前调试通之后，测试通过yarn的cluster方式，client模式下任务提交到yarn上去无响应。

任务状态封装类

Spark2.3（四十）：如何使用java通过yarn api调度spark app，并根据appId监控任务，关闭任务，获取任务日志

基础才是编程人员应该深入研究的问题，比如:

1）List/Set/Map内部组成原理|区别

2）mysql索引存储结构&如何调优/b-tree特点、计算复杂度及影响复杂度的因素。。。

3）JVM运行组成与原理及调优

4）Java类加载器运行原理

5）Java中GC过程原理|使用的回收算法原理

6）Redis中hash一致性实现及与hash其他区别

7）Java多线程、线程池开发、管理Lock与Synchroined区别

8）Spring IOC/AOP 原理；加载过程的。。。

Spark2.3（四十）：如何使用java通过yarn api调度spark app，并根据appId监控任务，关闭任务，获取任务日志

继续阅读

Spark的RDD转换算子-双value型Spark的RDD转换算子-双value型

SparkSQL项目练习1 准备数据2 需求：各区域热门商品Top3

hibernate3包作用详解

一分钟教你如何养护随车吊

H5测试点

start to use skywalkingInstall JDK8Install ESInstall skywalkingRun Springboot JAR

使用 Spring AOP 时报错

用户账号自动登录--解决方案

延云行业搜索数据库在大数据生态中位置和重要性大数据的挑战大数据技术的现状延云行业搜索数据库

Spark在windows环境里跑时报错找不到org.apache.hadoop.fs.FSDataInputStream

Spark流式分析系统实现流式实时日志分析系统

Scala和Java二种方式实战Spark Streaming开发

Spark基础:Spark简介及特点,运行模式,安装Spark,Driver与Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark运行模式第3章案例实操

Spark实现wordcount

大数据排错SparkSpark集群启动时候，JAVA_HOME is not sethadoop集群，某台服务器jps无任何输出IDEAkafkahadoopspark sqlfile permissionsIDEA本地测试 - OutOfMemoryError: GC overhead limit exceededhdfs负载均衡

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结