天天看點

如何管控資料?01 資料管控背景02 管控手段03 總結

昨天分享一篇數倉面試的知識點《 掌握這些數倉知識,再也不怕面試官! 》,但是面試還缺少了一部分資料管控的知識,今天補上~

01 資料管控背景

如何管控資料?01 資料管控背景02 管控手段03 總結

資料管控是在做大資料平台包括傳統BI都需要做的工作,資料從各個資料源過來,我們都要進行資料品質的管理,也就是我們常說的資料治理。那麼在資料倉庫建設的時候如何進行資料管控呢?

我經曆過的項目主要采用以下管控手段:資料品質、資料生命周期、資料标準、中繼資料四方面的管控。

02 管控手段

一、資料品質

不管是做資料倉庫建設還是做資料分析,一緻和準确的資料是資料模型與決策分析的基礎。在實際生産環境中,我們從不同的系統抽取資料到大資料平台,那麼我們就要提供一套資料監控機制,對資料品質進行監控。良好的、高品質的資料可以有效降低系統建設成本。

至于資料品質如何進行監控,可以參考之前的一篇文章《

談談ETL中的資料品質

二、資料标準

如何管控資料?01 資料管控背景02 管控手段03 總結

保證标準命名、編碼、業務解釋等内容的唯一性。隻有建立相應的标準,同時加強業務的标準化工作,規範重點業務内容,強化業務管理。并在實時過程中加強現有資料的互動性,支撐統一的業務管理,隻用建立的資料标準,才能推動主資料系統的建設,完成重點資料的統一管理,為後期資料模型完全共享打下堅實的基礎。

如何管控資料?01 資料管控背景02 管控手段03 總結

同時在資料品質監控的同時,我們會不斷完善資料标準,以适應企業内部多變的系統環境,進而形成良性循環。

關于資料倉庫标準,我這有一份完整的标準規範模闆《

資料倉庫建設規範(文檔版)

》。

關于管控流程,概括兩個字: 查&管 。

查 ,分為測試驗證和上線稽核。

測試驗證:

a). 總量核對,核對上下兩步的資料總條數,沒有過濾條件的話應該是一緻的

b). 多元度統計,複雜的多元度名額拆分成單次元SQL統計,對每個名額分别進行核查。

c). 多表關聯統計,拆分成中間表進行核對每一步驟的名額。

d). 明細到名額統計,比如随機找一台車的明細和最後統計的名額進行核對。

e). 新老統計對比,比如有些名額是遷移或者之前業務手工制作,可以開發後的新名額同老名額進行對比。

上線稽核:

a). 對查詢表的where後面的條件、join關聯字段、group by分組字段等重點檢查邏輯,和需求了解結合稽核。

b). 根據上面的數倉規範檢查資料集命名、資料集字段命名、任務名稱進行稽核,是否按照資料倉庫建設規範中的業務域、次元、原子名額、修飾類型、修飾詞、時間周期、派生名額等标準進行命名。

c). 代碼注釋稽核,每一步處理需要有注釋該步驟的作用,每個名額也要有注釋,where條件等也要添加注釋。

d). 重要任務是否開啟短信告警,任務啟動時間等稽核。

e). 任務上線的位置是否符合上線标準,比如上線的資料層級與業務層級等。

管 ,開發過程中,大家需要遵循一些流程規則,以確定名額的定義,開發的準确性。**

a). 需求上線時候需要在知識庫中完成所開發需求邏輯說明

b). 複雜需求(比如項目名額),需要團隊至少兩人以上評審需求後開發。

c). 送出上線申請的同僚需要備注上需求邏輯說明。

稽核上線人員為“輪值”,稽核上線人員需要review開發人員的代碼,需要和開發人員共同承擔代碼品質

三、資料生命周期

随着企業業務的增長,越來越多的資料彙入大資料平台,同時在建設資料倉庫的時候,我們還進行了資料分層管理,資料會存在多份共存情況,那麼此時我們就要做資料生命周期管理, 對不必須儲存的資料,進行冷資料管理 。控制資料的生命周期,一方面可以減低成本、簡化管理,同時也為我們叢集騰出了資源,提高了系統性能,盡可能滿足現有業務的高效運作。另外,在做資料生命周期管理的同僚要注意一些風險,比如法規,對于很多網際網路、銀行、電信、車聯網等企業,相關部門會提出原始資料必須保持多長時間的要求。在制定資料生命周期管理時,一定要注意!

可以參考前天分析的網易的技術經驗《

數倉治理之資料任務重構實踐

四、中繼資料

如何管控資料?01 資料管控背景02 管控手段03 總結

之前寫過一篇文章介紹過資料倉庫的中繼資料《

面試,資料倉庫的中繼資料包含哪些?

》。中繼資料就是對一些業務術語、标準等的統一定義、管理。對各種資料流接口的統一管理。同時在建構資料模型的時候,通過中繼資料我們可以進行血緣分析等。

03 總結

通過上面我們介紹的管控手段的幾個要點,那麼在實施過程中是否能夠成功呢?大機率不會,因為團隊總會有那麼幾個人嫌規範太繁瑣,不按套路出牌,是以建立一些标準的基礎上,在實施過程中我們還有建立一些規章制度,來幫助我們的規劃落地,比如和員工績效挂鈎、或者制定一些流程管控、增加上線稽核機制等,隻有規範和流程相結合了,才能更好的進行實施管控資料,也隻有管控好資料,才能更好的保證資料分析的成功。