天天看點

資料倉庫與資料挖掘 3資料倉庫模組化方法參考資料

資料倉庫模組化方法

OLTP系統模組化方法

OLTP(線上事務處理)系統中,主要操作是随機讀寫

為了保證資料一緻性、減少備援,常使用關系模型

在關系模型中,使用三範式規則來減少備援

OLAP(線上聯機分析)

OLAP系統,主要操作是複雜分析查詢;關注資料整合,以及分析、處理性能

OLAP根據資料存儲的方式不同,又分為ROLAP、MOLAP、HOLAP

OLAP系統分類

ROLAP(Relation OLAP,關系型 OLAP):使用關系模型建構,存儲系統一般為RDBMS

MOLAP(Multidimensional OLAP,多元型 OLAP):預先聚合計算,使用多元數組的形式保 存資料結果,加快查詢分析時間

HOLAP(Hybrid OLAP,混合架構的 OLAP):ROLAP 和 MOLAP 兩者的內建;如低層是關

系型的,高層是多元矩陣型的;查詢效率高于ROLAP,低于MOLAP

ROLAP系統模組化方法

典型的資料倉庫模組化方法有ER模型、次元模型、Data Value、Anchor

資料倉庫與資料挖掘 3資料倉庫模組化方法參考資料

次元模型

次元模型中,表被分為次元表、事實表,次元是對事實的一種組織

次元一般包含分類、時間、地域等

相關概念

1. 粒度

粒度(Granularity)是指多元資料集中資料的詳細程度和級别。資料越詳細,粒度越小級别就越低;資料綜合度越高,粒度越大級别就越高。

例如,位址資料中“北京市”比“北京市海澱區”的粒度大。

2.維(Dimension)

是人們觀察資料的特定角度,是考慮問題時的一類屬性。此類屬性的集合構成一個次元(或維),如時間維、地理維等

存放維資料的表稱為維表,如表所示就是一個時間維表。維表中的資料具有維層次結構,包含維屬性和維成員。

資料倉庫與資料挖掘 3資料倉庫模組化方法參考資料
資料倉庫與資料挖掘 3資料倉庫模組化方法參考資料

3.度量或事實

度量(Measure)是多元資料集中的資訊單元,即多元空間中的一個單元,用以存放資料,也稱為事實(Fact)。通常是數值型資料并具有可加性。

也就是DW所關心主題的數值表示

4.多元資料集

資料倉庫和OLAP服務是基于多元資料模型的,這種模型将多元資料集看作資料方體(data cube)形式。多元資料集可以用一個多元數組來表示,它是維和度量清單的組合表示。
一個多元數組可以表示為:
           

(維1,維2,…,維n,度量清單)

資料倉庫與資料挖掘 3資料倉庫模組化方法參考資料

次元模型

次元模型分為星型模型、雪花模型、星座模型

次元模型建立後,友善對資料進行多元分析

維表即為觀察事實度量的角度,每個度量表具有多個維表,路徑成本可在維表的層次上進行彙總統計或下鑽細分,例如:可以在時間次元上統計一年的銷售額,也可以在地域次元上,下鑽每個城區的銷售額;這些都是OLAP的多元分析操作(下一節)。(可加性)

星型模型

标準的星型模型,次元隻有一層,分析性能最優

資料倉庫與資料挖掘 3資料倉庫模組化方法參考資料

雪花模型

雪花模型具有多層次元,比較接近三範式設計,較為靈活,是星型模型的進一步規範化。去除部分備援。
資料倉庫與資料挖掘 3資料倉庫模組化方法參考資料

星座模型

星座模型基于多個事實表,事實表之間會共享一些次元表

是大型資料倉庫中的常态,是業務增長的結果,與模型設計無關

資料倉庫與資料挖掘 3資料倉庫模組化方法參考資料

例如:對于一個銷售量主題和商品存儲量主題而言,他們的時間次元和地點次元是一樣的,即可公用維表。

OLAP多元分析

OLAP主要操作是複雜查詢,可以多表關聯,使用COUNT、SUM、AVG等聚合函數

OLAP對複雜查詢操作做了直覺的定義,包括鑽取、切片、切塊、旋轉

資料倉庫與資料挖掘 3資料倉庫模組化方法參考資料

鑽取

對次元不同層次的分析,通過改變次元的層次來變換分析的粒度

鑽取包括上卷(Roll-up)、下鑽(Drill-down)

上卷(Roll-up),也稱為向上鑽取,指從低層次到高層次的切換

下鑽(Drill-down),指從高層次到低層次的切換

切片(Slice)、切塊(Dice)

選擇某個次元進行分割稱為切片

按照多元進行的切片稱為切塊

資料倉庫與資料挖掘 3資料倉庫模組化方法參考資料

旋轉(Pivot)

對次元方向的互換,類似于交換坐标軸上卷(Roll-up)

資料倉庫與資料挖掘 3資料倉庫模組化方法參考資料
一個複雜的查詢統計是一系列OLAP基本操作疊加的結果。

例如,對于表的多元資料集,統計2014年“華東”分區的總銷售量的過程是:通過地點維從“城市”上卷到“分區”,對年份維按“年份=2014”和分區維按“分區=‘華東’”進行切片操作,最後聚集總和,如圖所示。

資料倉庫與資料挖掘 3資料倉庫模組化方法參考資料
資料倉庫與資料挖掘 3資料倉庫模組化方法參考資料

下一篇實驗教程:資料倉庫與資料挖掘 4(上)

參考資料

[0] 陳志泊 主編. 資料倉庫與資料挖掘(第二版). 清華大學出版社,2019

[1] 陳立偉著,資料倉庫與資料挖掘教程,清華大學出版社,2006

[2] 林宇編著. 資料倉庫原理與實踐,人民郵電出版社,2003。

[3] 彭木根著 資料倉庫技術與實作,電子工業出版社,2002.6。

[4] [加]韓家炜、[加]坎伯,範明等譯,資料挖掘概念與技術,機械工業出版社,2005。

[5] 張雲濤、龔玲著,資料挖掘原理與技術,電子工業出版社,2003。

繼續閱讀