天天看点

Azkaban概念

(一)定义

批量工作流任务调度器

主要用于在一个工作流内以一个特定的顺序运行一组工作和流程,它的配置是通过简单的key:value对的方式,通过配置中的dependencies 来设置依赖关系

(二)特点

兼容任何版本的hadoop

易于使用的Web用户界面

简单的工作流的上传

方便设置任务之间的关系

调度工作流

模块化和可插拔的插件机制

认证/授权(权限的工作)

能够杀死并重新启动工作流

有关失败和成功的电子邮件提醒

为什么需要Azkaban

(三)Azkaban任务挂了怎么办

通常Azkaban凌晨30分左右的时候开始执行,如果Azkaban一旦挂掉的话,有发邮件和打电话的功能.普通的任务挂掉的话可以发送邮件,重要的任务挂掉的话就直接打电话.

然后起来打开电脑,vpn远程连接功能电脑,重新执行该任务就可以了.

什么样的任务分为重要任务?

yarn任务队列分等级,新产品,新市场,重要活动(比如说618),如果赶上上面这些特殊的任务的话,可以先把别的任务暂停掉,保证上面的任务完成,这叫降级使用,保证优先任务执行.

(四)Azkaban每天跑多少个指标

正常情况下在企业开发都是100到200个离线指标,普通日常没有活动时候大概是100多个,搞活动的时候一般可能就会200多个.

什么时候搞活动? 一般节日的时候.

继续阅读