一文讀懂：開源大資料排程系統Taier1.2版本新增的「工作流」到底是什麼？

一、什麼是工作流？

在闡述什麼是工作流之前，先說一下工作流和普通任務的差別，在于依賴視圖。

普通任務本身他隻會有自己的 dag 圖，依賴視圖是無邊界的，不可控的，而工作流則是把整個工作流都展示出來，是有邊界的，可控的，這是工作流的優勢。下面為大家介紹工作流的相關功能：

01 工作流 — 功能介紹

● 虛拟節點

虛拟節點，它是不産生任何資料的空跑節點（即排程到該節點時，系統直接傳回成功，不會真正執行、不會占用資源或阻塞下遊節點運作），比如說任務并行執行，那麼就會用到虛拟節點。

● 周期生成

指排程系統按照排程配置自動定時運作的任務。

● 補資料運作

當業務變更，可以使用補資料功能。如修改了某個任務的代碼，可将本月的資料按照新的代碼重新跑一遍，立即生成所需資料。

● 排程屬性

工作流中的子任務依賴于父任務的周期排程屬性，父任務修改後，子任務同步修改，以工作流的周期排程屬性作為各個子節點的周期排程時間。

● 工作流所在目錄

修改工作流目錄同步修改工作流下的子任務目錄。

02 工作流 — 依賴成環

具體實作：

任務完成依賴的關系，key 為目前節點，value 為該節點的所有父節點 Map <long list> nodeMap。

周遊 nodeMap，以此周遊單集合中的每一個節點。每周遊一個新節點，就從頭檢查新節點之前的所有節點，用新節點和此節點之前所有節點依次做比較。如果發現新節點和之前的某個節點相同，則說明該節點被周遊過兩次，連結清單有環。如果之前的所有節點中不存在與新節點相同的節點，就繼續周遊下一個新節點，繼續重複剛才的操作。

二、Taier 工作流周期執行個體運作

了解完工作流的功能介紹後，我們來為大家分享 Taier 工作流周期執行個體運作：

01 Taier— 周期執行個體生成

Taier 主節點在啟動的時候，會開啟一個定時器，定時器會不停的去判斷當日的執行個體是否已經生成。如果沒有生成，就會觸發事件給 CycleJobBuilder 生成執行個體，再通過 JobDependency 封裝執行個體之間的依賴關系。

● CycleJobBuilder

用于生成周期執行個體。掃描資料庫任務表并且擷取 zk 上所有的 Taier 節點，把封裝後的執行個體配置設定到每一台 Taier 節點上。

● JobDependency

用于生成 job 之間的依賴關系。

02 Taier— 排程流程

在啟動 Taier 服務時，會啟動配置的所有排程器，并且開始掃描執行個體，并送出。

03 Taier— 工作流任務狀态修改邏輯

任務送出攔截器處理：

1、工作流下無子任務更新為完成狀态

2、工作流下任務都是完成狀态，任務送出隊列可以移除

3、同時更新工作流 engine_job 狀态，工作流隻有四種狀态，成功 / 失敗 / 取消 / 送出中：

(1) 所有子任務狀态為運作成功時，工作流狀态更新為成功

(2) 工作流狀态根據子任務的運作狀态來确定，失敗狀态存在優先級：運作失敗 > 送出失敗 > 上遊失敗

a. 子任務存在運作失敗時，工作流狀态更新為運作失敗

b. 子任務不存在運作失敗時，存在送出失敗，工作流狀态更新為送出失敗

c. 子任務不存在運作失敗時，不存在送出失敗，存在上遊失敗時，工作流狀态更新為上遊失敗

(3) 子任務存在取消狀态時，工作流狀态更新為取消

(4) 若子任務中同時存在運作失敗或取消狀态，工作流狀态更新為失敗狀态

(5) 其他工作流更新為運作中狀态

三、Taier1.3 即将上線功能

新增功能

・ChunJun 的向導模式資料源增強 hive1、hive2、hive3、sparkThrift、oracle、mysql、postgresql、sqlserver 、es7

・flink on standalone、python.shell、spark jar 、pyspark 支援

一文讀懂：開源大資料排程系統Taier1.2版本新增的「工作流」到底是什麼？

一、什麼是工作流？

01 工作流 — 功能介紹

02 工作流 — 依賴成環

二、Taier 工作流周期執行個體運作

01 Taier— 周期執行個體生成

02 Taier— 排程流程

03 Taier— 工作流任務狀态修改邏輯

1、工作流下無子任務更新為完成狀态

2、工作流下任務都是完成狀态，任務送出隊列可以移除

3、同時更新工作流 engine_job 狀态，工作流隻有四種狀态，成功 / 失敗 / 取消 / 送出中：

(1) 所有子任務狀态為運作成功時，工作流狀态更新為成功

(2) 工作流狀态根據子任務的運作狀态來确定，失敗狀态存在優先級：運作失敗 > 送出失敗 > 上遊失敗

(3) 子任務存在取消狀态時，工作流狀态更新為取消

(4) 若子任務中同時存在運作失敗或取消狀态，工作流狀态更新為失敗狀态

(5) 其他工作流更新為運作中狀态

三、Taier1.3 即将上線功能

新增功能

繼續閱讀

《MySQL技術内幕：InnoDB存儲引擎》筆記

擴容TIKV節點遇到的坑

延雲行業搜尋資料庫在大資料生态中位置和重要性大資料的挑戰大資料技術的現狀延雲行業搜尋資料庫

Spark在windows環境裡跑時報錯找不到org.apache.hadoop.fs.FSDataInputStream

PHP輔導代做程式設計：CS353 Database System

Spark流式分析系統實作流式實時日志分析系統

自學Zabbix3.10.2-事件通知Notifications upon events-Actions報警配置點選傳回：自學zabbix集錦

HDU 5678 ztr loves trees

Scala和Java二種方式實戰Spark Streaming開發

拓端tecdat|R語言彈性網絡Elastic Net正則化懲罰回歸模型交叉驗證可視化

二叉樹及其應用--二叉樹建立

Spark基礎:Spark簡介及特點,運作模式,安裝Spark,Driver與Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark運作模式第3章案例實操

Spark實作wordcount

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

詳解STM32單片機的堆棧