資料處理的過程
資料處理的過程一般如下:

資料品質管理(DATA Quality Managenment)是指對上述過程中每個階段可能出現引發資料品質的問題進行識别、監控、預警等相關管理活動。
通過改善和提高組織的管理水準是的資料品質進一步提升。
資料品質管理是一個循環管理的過程,其最終目标是通過可靠的資料,提升資料的使用價值,最終為企業赢得經濟效益。
資料問題的影響因素
資料問題的來源可能源自上述過程的任一步驟,比如:
- 資料産生、采集階段:資料的準确性、真實性、完整性、失效性都會影響資料品質
- 資料存儲、技工階段:會涉及對原始資料的修改,可能導緻資料品質問題
資料品質評估方法
評估的次元
對于資料品質,我們一般會從一下幾個次元進行評估
- 完整性:度量哪些資料丢失了或者哪些資料不可用,描述資料資訊缺失的程度,視情況氛圍資料資訊記錄缺失和字段資訊缺失
- 一緻性:用于度量那些資料的值在資訊含義上是沖突
- 唯一性:用于度量哪些資料是重複資料或哪些資料屬性是重複的額
- 真實性:用于度量資料是否真實、準确反應客觀的實體存在或真實業務
- 準确性(可靠性):用于度量那些資料是不準确或無效的
- 關聯性:用于度量哪些關聯的資料缺失或未建立索引等
- 時效性(及時性):用于度量是否能在需要的時候獲得相關資料
資料品質管理
資料品質管理我們可以劃分為三個部分:
事前
- 梳理名額:确定對象(多表、單表、字段)
- 制定規則:指定資料品質稽核規則
事中
- 資料完整性:一般隻資料條目完整性。常用方法為ODS層資料與抽取庫(業務庫)資料進行資料量對比
- 資料唯一性:一般指對資料主鍵唯一性校驗,可通過count(1)與cunnt(distinct key)對比
-
資料非空性:主要分為兩塊,一是确定是否由于bug導緻,是的話回報問題,不是則需要想辦法補回資料;
二是對于字段為空的時候,應該使用預設值填充
- 資料有效性:校驗資料是否與資料值域一緻,比如範圍、格式之類的,不一緻則進行告警或處理
-
資料準确性:一般分為兩點,一是資料名額波動稽核,設定相關閥值;
二是确定相關的幾個表或字段之間是否存在邏輯沖突
- 資料及時性:對于資料生成過程進行稽核,如果超出合理時間則進行告警,檢視出問題的點
預警、告警的方法:
- 電話告警:一般在緊急、重要、需要及時處理的情況下采用
- 郵件告警:不需要及時處理的情況
- 短信告警:同郵件告警,不需要及時處理的情況
事後
- 資料品質報告: 報表的形式展示資料品質模型明細資料
- 告警以及整改:對于異常任務通知相關責任人,并要求整改
- 訂閱:訂閱關系資料主題,相關人員進行檢視
- 反推:如果稽核發現問題不在資料開發,而在業務方,則要求相關業務負責人進行整改
參考資料:老徐資料品質管理分享内容