前言
日常工作中,每時每刻都在産生大量重要的資料,資料品質問題也随之而來。如何用最少的人力、最快的速度,自動完成資料品質校驗,對于企業節省成本、上層決策應用等起到關鍵作用。DataWorks的資料品質子產品,為您提供全鍊路的資料品質方案,讓資料監控更加簡單、高效。
資料品質最基本、也最關鍵的功能,就是配置監控規則。目前,資料品質支援MaxCompute和EMR兩種離線資料源,以及DataHub實時資料源。未來,會陸續支援更多種類的引擎/資料源。本期首先為您介紹離線資料源的監控規則配置方法。
如何配置離線資料的監控規則
1. 選擇“引擎/資料源”-->"引擎/資料源執行個體"-->需要監控的表,點選配置監控規則。
2. 建立分區表達式,目的是定位最新資料,避免全表掃描。系統自帶分區表達式的含義如下:
$[yyyymmdd] | 排程日期 |
---|---|
$[yyyymmdd-1] | 業務日期 |
$[yyyymmdd-N] | 前N天 |
$[yyyymm01-1] | 每月1日 |
$[yyyymm01-Nm] | N月前1日 |
$[yyyymmld-1] | 每月最後一天 |
$[yyyymmld-Nm] | N月前最後一天 |
$[yyyymmddhh24miss] | 排程時間 |
$[hh24miss-1/24] | 一個小時前 |
$[hh24miss-30/24/60] | 半個小時前 |
若為非分區表,則表達式如下:
NOTAPARTITIONTABLE
3. 選擇某一分區表達式,點選“建立規則”藍色按鈕,出現建立監控規則的右側拉窗。監控規則分為模闆規則和自定義規則兩種。
(1)模闆規則:資料品質支援43種表級和字段級的内置模闆以及9種動态門檻值模闆,同時還支援使用者自建的規則模闆庫。
注:動态門檻值和規則模闆庫,在後續的進階功能中會為大家詳細介紹,敬請期待。本期模闆規則是在動态門檻值選擇“否”的前提下進行示範。

填寫說明如下:
規則名稱 | 填寫規則名稱 |
---|---|
強弱 | 強規則阻塞下遊,弱規則僅報警 |
動态門檻值 | 是否使用動态門檻值,進行智能判斷 |
規則來源 | 選擇使用43種内置模版或自建的規則模闆庫 |
規則字段 | 選擇表級或字段級規則。 |
規則模版 | 選擇具體的規則模闆。規則模闆會根據規則字段的不同而變化 |
比較方式 | 波動率型模闆:絕對值、上升、下降 固定值型模闆:大于、大于等于、等于、不等于、小于等于、小于 |
校驗門檻值 | 波動率型模闆:橙色門檻值、紅色門檻值 固定值模闆:期望值 |
注:強弱規則的橙色報警均不會阻塞下遊,必須小于紅色閥值,精确到百分比小數點後兩位。強規則的紅色報警會觸發阻塞,必須大于橙色閥值,精确到百分比小數點後兩位。
(2)自定義規則:支援使用者輸入自定義SQL建立監控規則
選擇自定義SQL | |
采樣方式 | |
Set Flag | 輸入SQL的前置set語句 |
自定義SQL | 隻接收查詢語句; 可使用分區表達式變量; 可關聯其他表; 可使用UDF |
校驗類型 | 分為數值型、波動率型、動态門檻值型。選擇不同檢驗類型,比較方式和門檻值形式會進行相應變化 |
描述 | 輸入對規則的描述,會出現在報警資訊中 |
4. 規則内容設定完畢後,點選批量儲存,規則即建立成功。
添加規則訂閱管理
在監控配置首頁,選擇某一分區表達式,點選“訂閱管理”按鈕,可為該分區表達式下的監控規則添加配置訂閱資訊。訂閱方式主要包括郵件、短信、釘釘群(支援@all)三種方式,接受對象範圍為該項目下的所有成員。
規則試跑
規則試跑的目的有3種:測試監控規則配置的是否正确;測試訂閱發送管道是否正确;手動運作監控規則。在監控配置首頁,選擇某一分區表達式,點選“試跑”按鈕
監控規則如何關聯排程
監控規則和訂閱都已經配置完畢、并試跑成功,那如果啟動正式的規則校驗呢?資料品質采用的是将規則與排程節點關聯起來的方式。當該節點開始任務排程時,所關聯的所有規則會同時進行校驗。
關聯排程節點的方式有兩種:
1.在資料品質直接進行關聯
在某一分區表達式下選擇“關聯排程”按鈕,進行排程節點的綁定
2.在運維中心進行關聯
在運維中心--周期任務中,找到希望關聯的節點,右鍵該節點,選擇“配置品質監控”
在出現的彈窗中,選擇引擎、執行個體、表名、分區表達式,進行監控規則配置。注意分區表達式不要填錯了哦!
查詢任務執行結果
節點任務執行後,規則校驗也随之被執行。規則校驗的結果可以在資料品質的“任務查詢”頁面中進行檢視。每條規則的詳細情況可以點選“詳情”進行檢視。
好啦,本期資料品質“百問百答”就介紹到這裡,下一期會為大家介紹實時資料的監控規則配置方法。
DataWorks百問百答曆史記錄
請點選這裡檢視>>更多DataWorks技術和産品資訊,歡迎加入
【DataWorks釘釘交流群】