資料品質管理主要從6個方面考慮:完整性,規範性,一緻性,準确性,唯一性,時效性。
首先,資料品質的保證緊靠技術是遠遠不夠的。
在實際工作中,在整個資料品質的控制過程中,人的影響最大。
是以,要想真正長期保證資料的高品質,最重要的是早發現,早恢複。
早發現,就是要先于資料使用方發現資料的問題,盡可能在出現問題的源頭發現問題,這樣就為早恢複正取到了大量的時間。
早恢複,就是要縮短故障恢複時間,降低故障對資料産出的影響。
可以分事前、事中、事後三個階段來保障的。
- 事前:
- 針對資料提供環節,建立資料标準,明确資料的定義,按照标準、品質提供資料。
- 應急預案準備,這裡分為三個方面:
- 第一方面,建立制度保證,比如當問題出現時,這個問題是誰負責,溝通的機制是什麼,後續
如果要修複線上bug的時候,應急的釋出流程是什麼,誰來負責開發,誰來負責做複合,誰來負責做審批。
- 第二方面,**定期巡檢**,建立一個可複用的資料收集,資料預處理和資料維護流程,來應對不斷變化的企業内外部因素,在資料預處理流程中設立多個性能監控點,我們會對資料産品,資料加工,基礎架構設定一些關注的名額,比如CPU壓力,線上的資料流量,延時時長等。(可參考本人寫的[資料稽核](https://blog.csdn.net/weixin_42526352/article/details/105260011?spm=1001.2014.3001.5501)相關的文章)
- 第三方面,**應急處理**,當這些名額出現了告警的時候,會相應出發應急處理的流程,這些應急處理流程是之前對可能發生的情況進行一些預估,提前制定了一些處理問題的方案,
- 事中:
設立應急小組執行預案,持續對名額進行監控,如有意外的問題發生,及時分析問題根源,并快速制定決策,持續跟進效果。
- 事後:
資料問題複盤,政策沉澱。将原預案的遺漏點進行分析和梳理,将這部分的預案補上。同時對資料問題,比如資料出現延遲或者錯誤,則通過對流程或者制度不斷進行改善和優化,将共性的品質問題沉澱至保障方案中。
監控名額:
- 資料落地監控
- 資料掉0監控:實際擴充一下就是資料量門檻值監控,少于某個量就告警
- 重複資料監控:很多表一定要監控重複資料的,這點至關重要。
- 資料量、名額值同比環比監控
- 重要枚值字段的離散值監控
- 業務規則監控
- 重要字段的非空監控
- 資料對賬