天天看點

[中間件]azkaban~hadoop工作流引擎

Hadoop - Azkaban 作業排程 - 哥不是小蘿莉 - 部落格園

http://www.cnblogs.com/smartloli/p/5191155.html

在排程 Hadoop 的相關作業時,有以下幾種方式:

基于 Linux 系統級别的 Crontab。

Java 應用級别的 Quartz。

第三方的排程系統。

自行開發 Hadoop 應用排程系統。

  對于前兩種,使用 Crontab 和 Quartz 是基本可以滿足業務需求,但有其弊端。在 Job 數量龐大的情況下,Crontab 腳本的編寫,變得異常複雜。其排程的過程也不能透明化,讓管理變得困難。Quartz 雖然不用編寫腳本,實作對應的排程 API 即可,然其排程過程不透明,不涵蓋 Job 運作詳情。需自行開發其功能。

  因而,第三方的排程系統便應運而生了。在《Hadoop - 任務排程系統比較》一文中,介紹第三方排程系統之間的差異。

Hadoop - 任務排程系統比較 - 哥不是小蘿莉 - 部落格園

http://www.cnblogs.com/smartloli/p/4964741.html

1.概述

  在Hadoop應用,随着業務名額的疊代,而使其日趨複雜化的時候,管理Hadoop的相關應用會變成一件頭疼的事情,如:作業的依賴排程,任務的運作情況的監控,異常問題的排查等,這些問題會是的我們日常的工作變得複雜。那麼,在沒有條件和精力去開發一套排程系統的情況下,我們去選擇一款第三方開源的排程系統,來盡量減輕和降低我們日常工作的複雜度,也是極好的。

2.1 Oozie

  Oozie目前是托管在Apache基金會的,開源。

2.2 Zeus

  它是一個Hadoop的作業平台,從Hadoop任務的調試運作到生産任務的周期排程,它支援任務的整個生命周期。

2.3 Azkaban

  這是由LinkedIn建立的一個批處理工作流,用于跑Hadoop的Jobs。Azkaban提供了一個易于使用的使用者界面來維護和跟蹤你的工作流程。

工作流排程器Azkaban學習,工作流排程azkaban_雲計算 | 幫客之家

http://www.bkjia.com/yjs/946863.html

1、Azkaban是什麼

我們在工作中應該都遇到過這樣的場景:有一個任務,這個任務可以劃分成多個較小的任務完成,之是以進行劃分是因為小任務之間可以并發的進行,例如是一個shell腳本執行的指令吧,大任務A可以劃分成B、C、D、E四個子任務(腳本)完成,而B和C是可以同時進行的,D依賴B和C的輸出,E又依賴D的輸出,于是我們一般的做法可能就是開兩個終端同時執行B和C,等兩個都執行完成之後再執行D,接着在執行E。整個執行的過程都需要我們參與,但是整個的執行過程類似一個有向無環圖,每一個子任務的執行可以看作整個任務的一個流,我們可以同時從沒有入度的節點開始執行,任何沒有流向(兩個節點之間沒有通路)關系節點都可以并行得執行,人為的控制難免就有點力不從心了(因為很多任務都需要在深夜執行,一般我們都是寫腳本并設定cron),這時候我們需要的就是一個工作流排程器。 Azkaban就是完成這種任務的(其實主要還是用于對hadoop生态圈的任務的支援),它是由Linkedin實作并開源的,主要用于在一個工作流内以一個特定的順序運作一組工作和流程,它的配置是通過簡單的key:value對的方式,通過配置中的dependencies來設定依賴關系,這個依賴關系必須是無環的,否則會被視為無效的工作流。

hadoop 叢集排程 Azkaban2搭建 - bbaiggey_bigdata的部落格 - 部落格頻道 - CSDN.NET

http://blog.csdn.net/bbaiggey/article/details/50775568

Azkaban是由Linkedin開源的一個批量工作流任務排程器。用于在一個工作流内以一個特定的順序運作一組工作和流程。Azkaban定義了一種KV檔案格式來建立任務之間的依賴關系,并提供一個易于使用的web使用者界面維護和跟蹤你的工作流。

它有如下功能特點:

Web使用者界面

友善上傳工作流

友善設定任務之間的關系

排程工作流

認證/授權(權限的工作)

能夠殺死并重新啟動工作流

子產品化和可插拔的插件機制

hadoop工作流引擎之azkaban [轉] - 風浪 - 部落格園

http://www.cnblogs.com/whtydn/p/4353695.html

介紹

Azkaban是twitter出的一個任務排程系統,【操作比Oozie要簡單】很多而且非常直覺,提供的功能比較簡單。Azkaban以Flow為執行單元進行定時排程,Flow就是預定義好的由一個或多個可存在依賴關系的Job組成的工作流。Azkaban的官方首頁是http://azkaban.github.io/azkaban2/ ,它的的主要特點有下面幾個:

相容所有Hadoop版本(1.x,2.x,CDH)

可以通過WebUI進行管理配置,操作友善

可以通過UI配置定時排程

擴充性好,可針對某一問題開發元件(目前有三個插件HDFSBrowser,JobtypePlugins和HadoopSecurityManager)

有權限管理子產品

可以通過WebUI跟蹤Flow或者Job的執行情況

可以設定郵件提醒

可以為定時Flow或者Flow中的某個Job配置執行時間長度的控制,如果執行時間超過了所設的時間,可以發送警告郵件給相關人員或者Kill掉相應設定的Flow或Job

可以重試失敗Job

針對 Hadoop 的 Oozie 工作流管理引擎的實際應用

http://www.ibm.com/developerworks/cn/data/library/bd-hadoopoozie/

Apache Oozie 是 Apache Hadoop 生态系統中的一個關鍵元件,它使得開發人員能夠排程電子郵件通知方面的重複作業,或者排程使用 Java™、UNIX Shell、Apache Hive、Apache Pig 和 Apache Sqoop 等各種程式設計語言編寫的重複作業。

作者:葡萄喃喃呓語

連結:http://www.jianshu.com/p/b6d790bb5553

來源:簡書

著作權歸作者所有。商業轉載請聯系作者獲得授權,非商業轉載請注明出處。