天天看点

数仓项目中azkaban的工作错误总结!

一、写成的sql文件提交到azkaban中,进行任务调度:

博客中有对azkaban的学习,可以看一下,这里主要记录一下azkaban的坑

数仓项目中azkaban的工作错误总结!

1、调度文件:*.job,这个文件以.job结尾,其中,格式是这样的:

---
config:
  #failure.emails: [email protected]

nodes:
  - name: dm_release_customer_cube_sql_job
    type: command
    config:
      command: sh dm_release_customer_cube.sh
           

2.脚本文件:以.sh 结尾,注意!!

这个文件要改成unix格式!!!!

否则执行不了。

3、需要将hdfs的配置文件复制到spark的配置文件中:主要有:

数仓项目中azkaban的工作错误总结!

4、任务提交执行时产生的错误:

Exception in thread "main" org.apache.spark.SparkException: 
Yarn application has already ended! 
It might have been killed or unable to launch application master.
           

这个问题 的解决办法是:在yarn-site.xml中添加这个配置:

<property>
    <name>yarn.nodemanager.pmem-check-enabled</name>
    <value>false</value>
</property>
<property>
    <name>yarn.nodemanager.vmem-check-enabled</name>
    <value>false</value>
</property>
           

配置文件解释:

yarn.nodemanager.pmem-check-enabled
是否检查每个任务正使用的物理内存量,如果超过默认值则将其杀死,默认是true。
yarn.nodemanager.vmem-check-enabled
是否检查每个任务正使用的虚拟内存量,如果超过默认值则将其杀死,默认是true。
           

工作中部署azkaban就出现了这些问题,总结出来的,以后一定注意!

继续阅读