天天看點

資料倉庫企業最佳實踐系列之資料集市

作者:程式員果汁兒

目錄:

1、什麼是資料集市?

2、需求介紹

3、自上而下建立集市層

4、自下而上建立集市層

5、相關面試題

1、什麼是資料集市

資料集市可以分為兩種:

一種是獨立資料集市,這類資料集市有自己的源資料庫和ETL架構;另一種是非獨立資料集市,這種資料集市沒有自己的源系統,它的資料來自資料倉庫。當使用者或者應用程式不需要/不必要/不允許用到整個資料倉庫的資料時,非獨立資料集市就可以簡單為使用者提供一個資料倉庫的子集。

資料集市是一個結構概念,它是企業級資料倉庫的一個子集,主要面向部門級業務,并且隻面向某個特定的主題。

應用場景:資料集市是數倉之上更聚焦的業務主題合集,更偏向于應對業務資料快速高效應用的需求,一般用于商業智能系統中探索式和互動式資料分析應用。

2、需求介紹

資料倉庫企業最佳實踐系列之資料集市

業務場景:某公司進行社交招聘業務,業務就是企業有招聘的需求,會釋出職位資訊,使用者有求職的需求,會對職位進行投遞。

需求:建立營運管理的資料集市層;

配合人員:産品,開發

3、自上而下建立集市層

一個企業建立唯一的資料中心,就像一個資料的倉庫,其中資料是經過整合、經過清洗、去掉髒資料的、标準的,能夠提供統一的視圖。要建立這樣的資料倉庫,并不從它需要支援哪些應用入手,而是要從整個企業的環境入手,分析其中的概念,應該有什麼樣的資料,達成概念完成整。

缺點:模型建設周期長,需要開發人員了解整體的業務,對模型建設的要求較高

建設流程圖:

資料倉庫企業最佳實踐系列之資料集市

1) 業務流程調研

簡化版的業務流程圖

資料倉庫企業最佳實踐系列之資料集市

2) 需求調研

根據現在的業務流程,了解業務需求與營運目标。整理需求名額

資料倉庫企業最佳實踐系列之資料集市

3) 資料調研

調查各個業務表的情況

資料倉庫企業最佳實踐系列之資料集市

4) 建立名額庫

工作中名額體系管理到底怎麼去做?

1、業務梳理,厘清楚公司所有的業務線以及使用者流轉流程

2、資料探查,整理相關的資料表以及資料口徑,做到出口歸一化

3、名額探查,面向應用去開發模型,自上而下的展開通過業務名額來指導模型的建設

4、名額定義,包括名額所屬業務域,所處業務流程,所符合的口徑,以及計算公式,入口以及出口

5、各種名額統一管理,比如:自己開發的平台,excel等公共平台

資料倉庫企業最佳實踐系列之資料集市

5) 劃分資料域(主題域)

按照業務流程,可建構使用者域,B端企業釋出職位子域。在各自的域下,可建構不同的子域,具體可見總線矩陣。

6) 建構總線矩陣

資料倉庫企業最佳實踐系列之資料集市

7) 建構事實表

DIM公共次元層 (DIM)公共次元層由次元表構成,基于次元模組化理念,建立整個企業的一緻性次元。

建構明細事實表DWD,将原始資料表和各個次元表進行關聯,生成事實表。

8) 建構彙總層資料

根據衍生名額和派生名額建構DWS

9) 建構集市層

根據該部門的需求,從彙總層取到資料到集市層,做可視化輸出

4、自下而上建立集市層

建設資料倉庫按照實際的應用需求,根據需求來反向建設。加載需要的資料建設周期較短,客戶能夠很快看到結果。

1、首先要先到标簽庫中查找是否有需求端需要的名額;

2、如果沒有就看是否可以通過明細層彙總得到,如果得不到就可以從新建構dwd明細層;

5、相關面試題

怎樣建立資料集市層?

繼續閱讀