天天看點

資料倉庫建設大法!頭部企業都在看的資料建設白皮書我給你找來了

作者:帆軟軟體

為了解決多資料源導緻的口徑不一緻、資料無關聯、資料品質差、缺少曆史資料、開發效率低等問題,企業需要建構企業級資料倉庫,對資料進行規整和高效利用。除此以外,由于直連業務系統支撐多方報表導緻讀寫交叉性能降低,影響正常業務系統使用的問題也可解決。

建構企業級資料倉庫的步驟分為調研、數倉設計、數倉實施和測試上線四個主要環節。

資料倉庫建設大法!頭部企業都在看的資料建設白皮書我給你找來了

1 需求調研

調研前期,需要明确本次項目在此階段成功的要素,其次是劃分責任矩陣,收集相關資料并制定合适的調研政策。與使用者需求相關的資訊應該足夠的詳細。最終要傳遞給最終使用者項目計劃及需求說明,需要的情況下需要制定災備計劃,以便資料倉庫可以從事故中恢複。

資料倉庫建設大法!頭部企業都在看的資料建設白皮書我給你找來了

調研責任矩陣

調研執行分為四步驟:

  • 第一步對本次項目的目标,整體平台的範圍和目前IT的技術架構進行調研與整理;
  • 第二步針對本期項目涉及業務部門進行單獨訪談,明确名額,确認口徑,梳理前端樣式與功能并确定相應的資料标準;
  • 第三步可根據上一輪調研結果所設計的藍圖進行确認和修改并在資料側對底層資料進行探源;
  • 最後将調研結果與方案藍圖進行最終的多方确認并稽核簽字。

這一階段的傳遞物為系統藍圖架構與目前資料基礎和品質情況表等,具體的執行過程見下圖:

資料倉庫建設大法!頭部企業都在看的資料建設白皮書我給你找來了
資料倉庫建設大法!頭部企業都在看的資料建設白皮書我給你找來了

名額确認架構

2 數倉設計

數倉建構的核心工作是分層及模組化,分層架構設計是為應用資料資源采集、存儲、處理和交換提供建設性依據,而資料模型将決定資料倉庫系統的增長性和性能,數倉一般分為 ODS(貼源層)層、DW 層(資料倉儲層)、DM 層(資料集市層)三層架構,依據企業實際情況會有所調整,而數倉模型大多采用次元模組化和範式模組化。

資料分層:

每一個資料層都有它的作用域,在使用表的時候能更友善地定位和了解,是以需要針對資料進行分層建設,且資料分層也利于資料血緣追蹤、屏蔽原始資料的異常,通過開發一些中間層,還可以起到減少重複開發的作用。

資料倉庫建設大法!頭部企業都在看的資料建設白皮書我給你找來了

數倉通用技術架構

數倉模組化的流程:

數倉模型的設計,按照概念模型(主題域模型)——邏輯模型——實體模型的流程進行,邏輯模型和實體模型通常采用次元模組化的辦法,以星型和雪花型模型來組織資料,次元模組化的兩個基本元素是事實表和次元表。而次元模組化也分為确定業務主題、定義粒度、确定次元和确認事實表四個步驟。該階段的傳遞物為針對資料源的概念模型、邏輯模型和實體模型。

資料倉庫建設大法!頭部企業都在看的資料建設白皮書我給你找來了

數倉模組化一般流程

資料倉庫建設大法!頭部企業都在看的資料建設白皮書我給你找來了

DWD層次元模組化步驟

3 數倉實施開發——ETL

ETL過程常常需要最長的項目時長,可能會占用數倉開發的50%及以上,因為擷取源資料、了解業務規則、邏輯和實體資料模型需要花費大量時間。ETL 通過從源系統資料庫實時同步資料至資料倉庫貼源層,基礎層、通用層、應用層基于貼源層的增量資料以實時名額加工的規則進行定時(T+1 天)加工處理。

資料倉庫建設大法!頭部企業都在看的資料建設白皮書我給你找來了

ETL過程

4 測試上線及規範建設

測試上線

測試上線的主要目的是為了測試目前數倉開發完畢後資料是否準确,資料相應的速度是否及時,包括 ETL 任務的各環節是否出現異常等,測試完畢通過業務确認後即可上線。

資料規範

數倉建設的規範是為了後續開發人員可以遵從規範,培養良好的習慣,也可以提升數倉開發的可維護性,便于使用者的溝通及交流。資料規範的内容包括數倉設計規範、命名規範、ETL 規範、報表規範等,資料規範建設為後續的資料治理及資料資産的管理建立了良好的基礎。

資料倉庫建設大法!頭部企業都在看的資料建設白皮書我給你找來了

數倉規範文檔

資料倉庫建設大法!頭部企業都在看的資料建設白皮書我給你找來了

繼續閱讀