天天看點

B. 資料倉庫 --- 模組化技術 --- 基本概念B. 資料倉庫 — 模組化技術 — 基本概念

B. 資料倉庫 — 模組化技術 — 基本概念

基本概念

  • 收集業務需求與資料實作
  • 協作次元模組化研讨:需要業務經驗豐富的領域專家參與
  • 次元設計
  • 基于關系型資料的星型模式與OLAP多元資料庫

事實表

  • 事實表結構
    • 一行對應一個度量事件
    • 外鍵,用于關聯與之相關的次元,也包含可選的退化次元和日期/時間戳
  • 操作特性
    • 可加性度量:按照與事實表關聯的任意次元彙總
    • 半可加性度量:對某些次元彙總,但不能對所有次元彙總。差額是常見的半可加事實。
    • 不可加性度量:比如說比率。處理這種情況的方法之一,盡可能存儲非可加度量的完全可加的分量,并在計算出最終的非可加事實前,将這些分量彙總到最終的結果集合中。
  • 事實表中的空值
    • 事實表中可以存在空值度量。所有聚集函數均可針對空值事實計算,但是外鍵不能存在空值
  • 一緻性事實
    • 如果某些度量出現在不同的事實表中。如果不同的事實表定義是一緻的,則這些一緻性事實應該具有相同的命名,如果它們不相容,則應該有不同的命名用于告誡業務使用者和BI應用
  • 事實表分類
    • 事務事實表事務事實表的一行對應空間或時間上某點的度量事件
    • 周期快照事實表每行彙總了發生在某一個标準周期,如某一天、某周、某月的多個度量事件。
    • 累積快照事實表每行彙總了發生在過程開始和結束之間可預測步驟内的度量事件。管理或工作流過程具有定義的開始點、标準中間過程、定義的結束點,它們在此類事實表中都可以被模組化。
    • 無事實的事實表一行僅僅記錄一系列某一時刻的多元實體。但沒有相關的度量
    • 聚集事實表對原子粒度事實表資料進行簡單的數字化上卷操作,目的是為了提高查詢性能
    • 合并事實表相同粒度表示的事實合并為一個單一的合并事實表,例如現貨銷售可以與銷售預測合并為一張事實表

次元表

  • 次元表結構
    • 包含單一的主鍵列
    • 字段設計
      • 次元代理鍵:唯一主鍵。該主鍵不是操作型系統的自然鍵
      • 自然鍵:操作型系統建立的自然鍵,無法被DW/BI系統控制
      • 持久鍵:如果員工離職,自然鍵有可能發生變化,是以需要建立新的持久鍵以確定在此種情況下,雇員号保持持久性不會發生變化。
      • 超自然鍵:有時候持久鍵被稱為持久性超自然鍵。最好獨立于原始的業務過程,并以整數1開始進行配置設定。
  • 次元類型
    • 退化次元:化次元一般都是事務的編号,如訂單編号、發票編号等。這類編号需要儲存到事實表中,但是不需要對應的次元表,是以稱為退化次元。退化次元經常會和其他一些次元一起組合成事實表的主鍵。
    • 非規範化扁平次元:相對于操作型資料庫設計所帶來的的規範化設計。非規範化次元能夠實作次元模組化的雙重目标:簡化及速度
    • 多層次次元:同一個次元中可以存在不同的層次。例如月曆日期次元可以按照财務周期層次從天到周進行劃分,也可能存在從天到月再到年的層次。位置密集型次元可能包含多個地理層次。
    • 文檔屬性的辨別與訓示器操作代碼值所包含的意義應該分解成不同的表示不同描述性次元屬性的部分。例如 code=0,code_desc=關閉。
    • 次元表中的空值屬性推薦使用描述性字元串代替空置。例如:未知,Unknown。應該避免在次元屬性中使用空值。因為不同的資料庫系統在處理分組和限制時,針對空值的處理方法不一樣。
    • 月曆日期次元月曆日期次元包含許多描述。例如,周數、月份名稱、财務周期、國家假日等屬性。
    • 扮演角色的次元不同的次元視圖,即次元表中的列名被成為角色
    • 雜項次元一些列混雜,低粒度的辨別和訓示器,單獨将這些不同的次元合并到一起形成雜項次元。
    • 雪花次元
      • 包含多重次元表層次,建立的多層次結構被成為雪花模式。
      • 這種次元可以很精确表示階層化的資料,但是會給使用者帶來了解上的困難,也會影響查詢性能,不建議使用。
    • 支架次元
      • 次元表中包含對其他次元表的引用。被引用的次元稱為支架次元。但是盡量少用。
      • 多數情況下,事實表和次元之間的關聯應該由事實表來實作。

次元模組化

  • 一緻性次元:傳遞步驟
    • 标準化(Standardizing):标準化的目的是使不同資料源的資料編碼方式,資料格式等相同,為下一步資料比對打下基礎(資料标準化中的代碼标準化過程)。
    • 比對(Matching and Deduplication):資料比對的工作有兩方面,一是将不同資料源的辨別同一事物的不同屬性比對到一起(例如:客戶的不同産品),使資料更完善;另一是将不同資料源的相同資料辨別成重複,為下一步的篩選打下基礎(例如:來源于不同資料源中重複的客戶姓名)。
    • 篩選(Surviving)資料篩選的主要目的是標明一緻性次元作為主資料(Master Data),也就是最終傳遞的一緻性次元資料。

繼續閱讀