天天看點

DataWorks百問百答63:DataWorks如何進行離線資料品質監控?

前言

 日常工作中,每時每刻都在産生大量重要的資料,資料品質問題也随之而來。如何用最少的人力、最快的速度,自動完成資料品質校驗,對于企業節省成本、上層決策應用等起到關鍵作用。DataWorks的資料品質子產品,為您提供全鍊路的資料品質方案,讓資料監控更加簡單、高效。

   資料品質最基本、也最關鍵的功能,就是配置監控規則。目前,資料品質支援MaxCompute和EMR兩種離線資料源,以及DataHub實時資料源。未來,會陸續支援更多種類的引擎/資料源。本期首先為您介紹離線資料源的監控規則配置方法。

如何配置離線資料的監控規則

1. 選擇“引擎/資料源”-->"引擎/資料源執行個體"-->需要監控的表,點選配置監控規則。

2. 建立分區表達式,目的是定位最新資料,避免全表掃描。系統自帶分區表達式的含義如下:

$[yyyymmdd] 排程日期
$[yyyymmdd-1] 業務日期
$[yyyymmdd-N] 前N天
$[yyyymm01-1] 每月1日
$[yyyymm01-Nm] N月前1日
$[yyyymmld-1] 每月最後一天
$[yyyymmld-Nm] N月前最後一天
$[yyyymmddhh24miss] 排程時間
$[hh24miss-1/24] 一個小時前
$[hh24miss-30/24/60] 半個小時前

若為非分區表,則表達式如下:

NOTAPARTITIONTABLE

3. 選擇某一分區表達式,點選“建立規則”藍色按鈕,出現建立監控規則的右側拉窗。監控規則分為模闆規則和自定義規則兩種。

(1)模闆規則:資料品質支援43種表級和字段級的内置模闆以及9種動态門檻值模闆,同時還支援使用者自建的規則模闆庫。

注:動态門檻值和規則模闆庫,在後續的進階功能中會為大家詳細介紹,敬請期待。本期模闆規則是在動态門檻值選擇“否”的前提下進行示範。

DataWorks百問百答63:DataWorks如何進行離線資料品質監控?

填寫說明如下:

規則名稱 填寫規則名稱
強弱 強規則阻塞下遊,弱規則僅報警
動态門檻值 是否使用動态門檻值,進行智能判斷
規則來源 選擇使用43種内置模版或自建的規則模闆庫
規則字段 選擇表級或字段級規則。
規則模版 選擇具體的規則模闆。規則模闆會根據規則字段的不同而變化
比較方式

波動率型模闆:絕對值、上升、下降

固定值型模闆:大于、大于等于、等于、不等于、小于等于、小于

校驗門檻值

波動率型模闆:橙色門檻值、紅色門檻值

固定值模闆:期望值

注:強弱規則的橙色報警均不會阻塞下遊,必須小于紅色閥值,精确到百分比小數點後兩位。強規則的紅色報警會觸發阻塞,必須大于橙色閥值,精确到百分比小數點後兩位。

(2)自定義規則:支援使用者輸入自定義SQL建立監控規則

DataWorks百問百答63:DataWorks如何進行離線資料品質監控?
選擇自定義SQL
采樣方式
Set Flag 輸入SQL的前置set語句
自定義SQL

隻接收查詢語句;

可使用分區表達式變量;

可關聯其他表;

可使用UDF

校驗類型 分為數值型、波動率型、動态門檻值型。選擇不同檢驗類型,比較方式和門檻值形式會進行相應變化
描述 輸入對規則的描述,會出現在報警資訊中

4. 規則内容設定完畢後,點選批量儲存,規則即建立成功。

添加規則訂閱管理

在監控配置首頁,選擇某一分區表達式,點選“訂閱管理”按鈕,可為該分區表達式下的監控規則添加配置訂閱資訊。訂閱方式主要包括郵件、短信、釘釘群(支援@all)三種方式,接受對象範圍為該項目下的所有成員。

DataWorks百問百答63:DataWorks如何進行離線資料品質監控?

規則試跑

規則試跑的目的有3種:測試監控規則配置的是否正确;測試訂閱發送管道是否正确;手動運作監控規則。在監控配置首頁,選擇某一分區表達式,點選“試跑”按鈕

DataWorks百問百答63:DataWorks如何進行離線資料品質監控?

監控規則如何關聯排程

監控規則和訂閱都已經配置完畢、并試跑成功,那如果啟動正式的規則校驗呢?資料品質采用的是将規則與排程節點關聯起來的方式。當該節點開始任務排程時,所關聯的所有規則會同時進行校驗。

關聯排程節點的方式有兩種:

1.在資料品質直接進行關聯

在某一分區表達式下選擇“關聯排程”按鈕,進行排程節點的綁定

DataWorks百問百答63:DataWorks如何進行離線資料品質監控?

2.在運維中心進行關聯

在運維中心--周期任務中,找到希望關聯的節點,右鍵該節點,選擇“配置品質監控”

DataWorks百問百答63:DataWorks如何進行離線資料品質監控?

在出現的彈窗中,選擇引擎、執行個體、表名、分區表達式,進行監控規則配置。注意分區表達式不要填錯了哦!

DataWorks百問百答63:DataWorks如何進行離線資料品質監控?

查詢任務執行結果

節點任務執行後,規則校驗也随之被執行。規則校驗的結果可以在資料品質的“任務查詢”頁面中進行檢視。每條規則的詳細情況可以點選“詳情”進行檢視。

DataWorks百問百答63:DataWorks如何進行離線資料品質監控?

好啦,本期資料品質“百問百答”就介紹到這裡,下一期會為大家介紹實時資料的監控規則配置方法。

DataWorks百問百答曆史記錄

請點選這裡檢視>>

更多DataWorks技術和産品資訊,歡迎加入

【DataWorks釘釘交流群】