天天看點

oozie應用場景操作步驟

應用場景

Apache Oozie 是用于 Hadoop 平台的一種工作流排程引擎。該架構使用 Oozie 協調器促進了互相依賴的重複工作之間的協調,您可以使用預定的時間或資料可用性來觸發 Apache Oozie。您可以使用 Oozie bundle 系統送出或維護一組協調應用程式。作為本練習的一部分,Oozie 運作了一個 Apache Sqoop 作業,以便在 MySQL 資料庫中的資料上執行導入操作,并将資料傳輸到 Hadoop 分布式檔案系統 (HDFS) 中。可以利用導入的資料集執行 Sqoop 合并操作,進而更新較舊的資料集。通過利用 UNIX shell 操作,可從 MySQL 資料庫中提取用來執行 Sqoop 作業的中繼資料。同理,可執行 Java 操作來更新 Sqoop 作業所需的 MySQL 資料庫中的中繼資料。

操作步驟

1 Oozie編排架構

存在Sqoop的任務,使得關系型資料庫Mysql中的資料導入到HDFS中,通過Oozie可以定時執行Sqoop操作。

2 Oozie使用

3 Oozie,Tez差別

Tez
DAG作業分布式計算架構,簡化MapReduce處理工作流問題頻繁讀取HDFS的缺陷。
Oozie
用于 Hadoop 平台的一種工作流排程引擎,可以配置sqoop,hive,pig,spark,java程式,MR等任務流程式執行,并可以定時執行。

Tez是偏向底層的,Oozie偏向頂層,它是對MR, Hive, Pig等進行DAG作業設計,将各種工具實作的功能組合在一起。

Tez是Hortonworks開發的。tez運作在Yarn上的,DAG工作流,底層設計,對Map和Reduce進一步拆分。Map拆成Input,Processor,

Sort, Merger, Output,Reduce拆分成Input, Shuffle, Sort, Merger, Processor和Output。拆分後的單元可以任意組合,組裝成大的DAG作業。目标,替換性能較為低下的Hive和Pig。