天天看点

使用oozie实现spark定时调度和spark依赖

oozie是针对hadoop的任务调度框架,因为spark on yarn的模式是基于hadoop的任务调度模块yarn来做的,所以spark on yarn模式可以利用oozie的定时模块和任务依赖调度模块,实现按时按步骤的执行spark的job,下面就简单介绍一下刚使用oozie时容易忽略和比较重要的地方。
最简单来讲,一个简单依赖关系的ooziejob,需要一个提交到hdfs上的xml用来解析properties文件,一个properties对应一个oozie的job,一个jar包用来执行任务。
定时任务则额外需要一个xml用来指定定时规则。
下面就以最简配置举一个简单的spark定时任务和依赖例子
           

workflow.xml

">    <start to="spark-SparkOozieAction1"/>  
    <kill name="Kill">  
        <message>Action failed, error message[${wf:errorMessage(wf:lastErrorNode())}]</message>  
    </kill>  
    <action name="spark-SparkOozieAction1">
        <spark xmlns="uri:oozie:spark-action:0.1">
            <job-tracker>${jobTracker}</job-tracker>
            <name-node>${nameNode}</name-node>
            <master>${jobmaster}</master>
            <mode>${jobmode}</mode>
            <name>${jobname1}</name>
            <class>${jarclass1}</class>
            <jar>${jarpath1}</jar>
            <spark-opts>${sparkopts1}</spark-opts>
            <arg>${jararg1}</arg>
        </spark>  
        <ok to="SparkOozieAction2"/>  
        <error to="Kill"/>  
    </action>  
     <action name="spark-SparkOozieAction2">
        <spark xmlns="uri:oozie:spark-action:0.1">
            <job-tracker>${jobTracker}</job-tracker>
            <name-node>${nameNode}</name-node>
            <master>${jobmaster}</master>
            <mode>${jobmode}</mode>
            <name>${jobname2}</name>
            <class>${jarclass2}</class>
            <jar>${jarpath2}</jar>
            <spark-opts2>${sparkopts}</spark-opts>
            <arg2>${jararg}</arg>
        </spark>  
        <ok to="End"/>  
        <error to="Kill"/>  
    </action>  
    <end name="End"/>  
</workflow-app>  
           

上面的workflow.xml简单的实现了一个依赖的job,对于两个sparkjob重 复使用的配置可以使用相同的配置名,其中的frequency是最重要的参数,设置时间间隔,EL表达式可以参照文章最后的表格。下面是定时的xml:

coordinator.xml

<coordinator-app xmlns="uri:oozie:coordinator:0.2" timezone="UTC" end="${end}" start="${start}" frequency="${coord:days(1)}" name="coordinatordays">
    <action>
        <workflow>
            <app-path>${workflowAppUri}</app-path>
            <configuration>
                <property>
                    <name>jobTracker</name>
                    <value>${jobTracker}</value>
                </property>
                <property>
                    <name>nameNode</name>
                    <value>${nameNode}</value>
                </property>
                <property>
                    <name>queueName</name>
                    <value>${queueName}</value>
                </property>
            </configuration>
        </workflow>
    </action>
</coordinator-app>
           

需要注意的是,任务调度的时间是以UTC时区为参照的,因为我们在+8时区,所以需要把现在的时间-8得到UTC时区的时间。

下面是具体的job.properties和比较重要的属性介绍

#需要有,是否使用系统lib路径
oozie.use.system.libpath=True  
#需要有,lib路径,在hdfs上的,根据实际情况,一般来讲都一样
oozie.libpath=hdfs://master:/user/oozie/share/lib/
#需要有,coordinator.xml在hdfs上的路径
oozie.coord.application.path=hdfs://master:/user/root/oozie/coordinator/coordinatordays.xml  
#下面的两个最好有,是否启动安全机制和检查机制
security_enabled=False  
dryrun=False  
#下面是spark的属性参数,具体参照自己的workflow.xml
jobTracker=master:  
nameNode=hdfs://master:  
jobname=sparkjob  
jarclass=com.spark.main
jarpath=hdfs://master:/user/root/oozie/jar/myspark.jar  
#spark参数,其中spark.yarn.jar比较重要,要找到自己的assembly相关jar包,这是装配spark的类,很重要
sparkopts=--executor-memory G --total-executor-cores  --driver-memory M --conf spark.yarn.jar=hdfs://master:/system/spark/lib/spark-assembly--cdh5-hadoop2-cdh5.jar --conf spark.yarn.historyServer.address=http://master: --conf spark.eventLog.dir=hdfs://master:/user/spark/applicationHistory --conf spark.eventLog.enabled=true  
jararg1=hello
#下面是定时任务相关的参数 workflowAppUri是workflow.xml的地址,用来关联workflow.xml的信息
start=--T16:Z
end=--T16:Z
workflowAppUri=/user/root/oozie/workflow/workflow.xml  
queueName=default
           
一般来讲,oozie经常会拿来和azkaban来比较,经常会权衡用那个框架比较好,整体而言,oozie是Apache下的一个项目,对于hadoop生态圈有更好的支持,依赖于笨重的配置文件,实现的功能也更丰富,但同时,笨重也是它的缺点之一,程序员在刚开始使用的时候,不太熟悉XML里的一些属性的联系和意义,容易犯一些不容易发现的小错误,oozie的日志也不是很完善,如果要找到错误,要去hadoop或者spark的日志系统里找问题;因为这些问题,azkaban的社区活跃度比oozie高很多,oozie也在最近几年版本更新的异常缓慢。所以如果对功能性要求不是很高,只是简单使用依赖关系和定时功能,那azkaban无疑是更好的选择。

oozie最常用的两个命令就是启动job和杀死job的命令
           

启动命令

oozie job -oozie http://master:11000/oozie -config /home/cdh/ooziejob/job.properties -run

kill命令,jobid可以到oozie自带的web界面查看

oozie job -oozie http://localhost:11000/oozie -kill 0000000-170724202624644-oozie-oozi-C

继续阅读