Azkaban－开源任务调度程序（使用篇）

上篇文章说到了安装，这次说说使用

创建工程：

创建之前我们先了解下之间的关系，一个工程包含一个或多个flows，一个flow包含多个job。job是你想在azkaban中运行的一个进程，可以是简单的linux命令，可是java程序，也可以是复杂的shell脚本，当然，如果你安装相关插件，也可以运行插件。一个job可以依赖于另一个job，这种多个job和它们的依赖组成的图表叫做flow。

job创建

创建job很简单，只要创建一个以.job结尾的文本文件就行了,例如我们创建一个工作，用来将日志数据导入hive中（关于大数据方面的东西，不在重复，可以理解为，将日志所需数据导入的mysql中），我们创建o2o_2_hive.job

type=command

command=echo "data 2 hive"

一个简单的job就创建好了，解释下，type的command，告诉azkaban用unix原生命令去运行，比如原生命令或者shell脚本，当然也有其他类型，后面说。

一个工程不可能只有一个job，我们现在创建多个依赖job，这也是采用azkaban的首要目的。

flows创建

我们说过多个jobs和它们的依赖组成flow。怎么创建依赖，只要指定dependencies参数就行了。比如导入hive前，需要进行数据清洗，数据清洗前需要上传，上传之前需要从ftp获取日志。

定义5个job：

o2o_2_hive.job：将清洗完的数据入hive库
o2o_clean_data.job：调用mr清洗hdfs数据
o2o_up_2_hdfs.job：将文件上传至hdfs
o2o_get_file_ftp1.job：从ftp1获取日志
o2o_get_file_fip2.job：从ftp2获取日志

依赖关系：

3依赖4和5，2依赖3，1依赖2，4和5没有依赖关系。

o2o_2_hive.job

type=command

# 执行sh脚本，建议这样做，后期只需维护脚本就行了，azkaban定义工作流程

command=sh /job/o2o_2_hive.sh

dependencies=o2o_clean_data

o2o_clean_data.job

type=command

# 执行sh脚本，建议这样做，后期只需维护脚本就行了，azkaban定义工作流程

command=sh /job/o2o_clean_data.sh

dependencies=o2o_up_2_hdfs

o2o_up_2_hdfs.job

type=command

#需要配置好hadoop命令，建议编写到shell中，可以后期维护

command=hadoop fs -put /data/*

#多个依赖用逗号隔开

dependencies=o2o_get_file_ftp1,o2o_get_file_ftp2

o2o_get_file_ftp1.job

type=command

command=wget "ftp://file1" -O /data/file1

o2o_get_file_ftp2.job

type=command

command=wget "ftp:file2" -O /data/file2

可以运行unix命令，也可以运行python脚本（强烈推荐）。将上述job打成zip包。

ps：为了测试流程，我将上述command都改为echo ＋相应命令

上传：

Azkaban－开源任务调度程序（使用篇）

上传

Azkaban－开源任务调度程序（使用篇）

上传完成

点击o2o_2_hive进入流程，azkaban流程名称以最后一个没有依赖的job定义的。

Azkaban－开源任务调度程序（使用篇）

流程

右上方是配置执行当前流程或者执行定时流程。

Azkaban－开源任务调度程序（使用篇）

流程执行

Flow view：流程视图。可以禁用，启用某些job

Notification:定义任务成功或者失败是否发送邮件

Failure Options:定义一个job失败，剩下的job怎么执行

Concurrent：并行任务执行设置

Flow Parametters：参数设置。

1.执行一次

设置好上述参数，点击execute。

Azkaban－开源任务调度程序（使用篇）

执行成功

绿色代表成功，蓝色是运行，红色是失败。可以查看job运行时间，依赖和日志，点击details可以查看各个job运行情况。

Azkaban－开源任务调度程序（使用篇）

jobList

2.定时执行

Azkaban－开源任务调度程序（使用篇）

定时执行

这时候注意到cst了吧，之前需要将配置中时区改为Asia/shanghai。

可以选择"天/时/分/月/周"等执行频率。

Azkaban－开源任务调度程序（使用篇）

定时任务

可以查看下次执行时间。

其他job配置选项

可以定义job依赖另一个flow，配置

type=flow

flow.name=fisrt_flow
可以设置每个job中子命令

type=command

command=echo "hello"

command.1=echo "world"
可以配置job失败重启次数，及间隔时间,比如，上述ftp获取日志，我可以配置重试12次，每隔5分钟一次。

type=command

command=wget "ftp://file1" -O /data/file1

retries=12

#单位毫秒

retry.backoff=300000

azkaban还有很多强大的功能，如它开放了相关api，我们将它可以嵌入到自己的app等等，有兴趣的朋友可以研究。

至此，azkaban学习到此结束，本人也是初学者，如果问题，欢迎指正。

Azkaban－开源任务调度程序（安装篇） - 简书 — 最近项目迁移到新集群，试试同事推荐的开源任务调度程序－azkaban（阿兹卡班），没看错，就是哈利波特里的阿兹卡班，azikaban主要用来解决hadoop依赖任务的执行，但是它本身支持linux和java程序，因此适合做小项目的任务调度管理程序。Azkaban官网它有三个重要组件：关系数据库（目前仅支持mysql）web管理服务器－AzkabanWebServer执行服务器－AzkabanExecutorServer组件开始Azkaban有三种运行模式：soloservermode：最简单的模式，数据库 haort・ www.jianshu.com →

推荐拓展阅读

文／haort（简书作者）

原文链接：http://www.jianshu.com/p/484564beda1d

著作权归作者所有，转载请联系作者获得授权，并标注“简书作者”。

Azkaban－开源任务调度程序（使用篇）

登录

创建工程：

job创建

flows创建

其他job配置选项

azkaban还有很多强大的功能，如它开放了相关api，我们将它可以嵌入到自己的app等等，有兴趣的朋友可以研究。

继续阅读

第二章大型网站架构模式第二章大型网站架构模式

架构 | 大型网站架构技术一览表【全面网站平台架构技术解析】

大型网站数据库演进

《大型网站技术架构》笔记——2. 大型网站架构模式前言

从Knockout到Angular的架构演变

大型网站的架构设计图分享-转大型网站的架构设计图分享-转

大型网站技术架构读书笔记02—大型网站架构模式1.分层2.分割3.分布式4.集群5.缓存6.异步7.数据备份8.自动化9.安全

大型网站架构的技术要点与应用层的组织方式分析

双11之后，国际、大型、创业、传统、搜索等电商架构首次深度较量

大型网站技术架构，阅读笔记二. 附录

1.大型网站架构的演化

大型网站技术架构核心原理与案例分析（李智慧）学习笔记1--大型网站架构模式

(转载)大型网站系统架构演化之路

大型网站技术架构读书笔记03—大型网站架构核心要素1.性能2.可用性3.伸缩性4.扩展性5.安全性

大型互联网架构分析