天天看點

【資料中台】如何提升資料品質

資料品質管理主要從6個方面考慮:完整性,規範性,一緻性,準确性,唯一性,時效性。

首先,資料品質的保證緊靠技術是遠遠不夠的。

在實際工作中,在整個資料品質的控制過程中,人的影響最大。

是以,要想真正長期保證資料的高品質,最重要的是早發現,早恢複。

早發現,就是要先于資料使用方發現資料的問題,盡可能在出現問題的源頭發現問題,這樣就為早恢複正取到了大量的時間。

早恢複,就是要縮短故障恢複時間,降低故障對資料産出的影響。

可以分事前、事中、事後三個階段來保障的。

  • 事前:
  1. 針對資料提供環節,建立資料标準,明确資料的定義,按照标準、品質提供資料。
  2. 應急預案準備,這裡分為三個方面:
    • 第一方面,建立制度保證,比如當問題出現時,這個問題是誰負責,溝通的機制是什麼,後續

如果要修複線上bug的時候,應急的釋出流程是什麼,誰來負責開發,誰來負責做複合,誰來負責做審批。

- 第二方面,**定期巡檢**,建立一個可複用的資料收集,資料預處理和資料維護流程,來應對不斷變化的企業内外部因素,在資料預處理流程中設立多個性能監控點,我們會對資料産品,資料加工,基礎架構設定一些關注的名額,比如CPU壓力,線上的資料流量,延時時長等。(可參考本人寫的[資料稽核](https://blog.csdn.net/weixin_42526352/article/details/105260011?spm=1001.2014.3001.5501)相關的文章)
- 第三方面,**應急處理**,當這些名額出現了告警的時候,會相應出發應急處理的流程,這些應急處理流程是之前對可能發生的情況進行一些預估,提前制定了一些處理問題的方案,
           
  • 事中:

設立應急小組執行預案,持續對名額進行監控,如有意外的問題發生,及時分析問題根源,并快速制定決策,持續跟進效果。

  • 事後:

資料問題複盤,政策沉澱。将原預案的遺漏點進行分析和梳理,将這部分的預案補上。同時對資料問題,比如資料出現延遲或者錯誤,則通過對流程或者制度不斷進行改善和優化,将共性的品質問題沉澱至保障方案中。

監控名額:

  1. 資料落地監控
  2. 資料掉0監控:實際擴充一下就是資料量門檻值監控,少于某個量就告警
  3. 重複資料監控:很多表一定要監控重複資料的,這點至關重要。
  4. 資料量、名額值同比環比監控
  5. 重要枚值字段的離散值監控
  6. 業務規則監控
  7. 重要字段的非空監控
  8. 資料對賬

繼續閱讀