天天看點

資料倉庫專題(2)-Kimball次元模組化四步驟

一、前言

  四步過程次元模組化由kimball提出,可以做為業務梳理、資料梳理後進行多元資料模型設計的指導流程,但是不能作為資料倉庫系統建設的指導流程。本文就相關流程及核心問題進行解讀。

二、資料倉庫建設流程

  以下流程是根據業務系統、組織結構、團隊結構現狀設定的資料倉庫系統建設流程,适合系統結構複雜,團隊協作複雜,人員結構複雜的情況,并且資料倉庫建設團隊和業務系統建設團隊不同的情況。具體流程如下圖所示:

資料倉庫專題(2)-Kimball次元模組化四步驟

圖1 資料倉庫系統建設流程

三、四步次元模組化

  kimball四步模組化流程适合上述資料倉庫系統建設流程中模型設計環節,重點解決資料粒度、次元設計和事實表設計問題。四步模組化流程如下圖所示:

資料倉庫專題(2)-Kimball次元模組化四步驟

三、流程解讀

  3.1 如何确定粒度

    最細粒度和聚合粒度之争?留給大家來辯駁吧,大家可以在評論中發表各自的觀點。

  3.1 如何辨別次元

    辨別次元解決的是業務人員如何描述來自業務過程的資料,次元用來表示“誰、什麼、何時、何處、為何、如何”的問題。以競價廣告檢索流程而言就是客戶通過什麼管道、什麼樣的用戶端(os、ip)、檢索了什麼樣的内容、請求最終有誰受理等。

  3.2 如何辨別事實

    辨別事實其實是在确定業務過程的度量名額,名額何來?哪些名額必須保留,那些名額必須删除,待定名額如何處理?必須綜合考慮業務使用者需求和現實資料的實際情況。事實表的設計完全依賴于實體活動,不受可能産生的最終報表的影響,報表隻是事實表設計的參考視角。

四、未完待續

  資料倉庫專題作為項目筆記,持續更新中,敬請關注。