資料倉庫模組化方法
OLTP系統模組化方法
OLTP(線上事務處理)系統中,主要操作是随機讀寫
為了保證資料一緻性、減少備援,常使用關系模型
在關系模型中,使用三範式規則來減少備援
OLAP(線上聯機分析)
OLAP系統,主要操作是複雜分析查詢;關注資料整合,以及分析、處理性能
OLAP根據資料存儲的方式不同,又分為ROLAP、MOLAP、HOLAP
OLAP系統分類
ROLAP(Relation OLAP,關系型 OLAP):使用關系模型建構,存儲系統一般為RDBMS
MOLAP(Multidimensional OLAP,多元型 OLAP):預先聚合計算,使用多元數組的形式保 存資料結果,加快查詢分析時間
HOLAP(Hybrid OLAP,混合架構的 OLAP):ROLAP 和 MOLAP 兩者的內建;如低層是關
系型的,高層是多元矩陣型的;查詢效率高于ROLAP,低于MOLAP
ROLAP系統模組化方法
典型的資料倉庫模組化方法有ER模型、次元模型、Data Value、Anchor
![](https://img.laitimes.com/img/_0nNw4CM6IyYiwiM6ICdiwiI2EzX4xSZz91ZsAzNfRHLGZkRGZkRfJ3bs92YsAjMfVmepNHLO12b1A3UhVDUDJWNx1CT2Y3QaVTQClGVF5UMR9Fd4VGdsATNfd3bkFGazxycykFaKdkYzZUbapXNXlleSdVY2pESa9VZwlHdssmch1mclRXY39CXldWYtlWPzNXZj9mcw1ycz9WL49zZuBnLycjMhFGM5gTM5YTN4UjY4YmM2QjY5cTZiFGZmVWMzgzLc52YucWbp5GZzNmLn9Gbi1yZtl2Lc9CX6MHc0RHaiojIsJye.png)
次元模型
次元模型中,表被分為次元表、事實表,次元是對事實的一種組織
次元一般包含分類、時間、地域等
相關概念
1. 粒度
粒度(Granularity)是指多元資料集中資料的詳細程度和級别。資料越詳細,粒度越小級别就越低;資料綜合度越高,粒度越大級别就越高。
例如,位址資料中“北京市”比“北京市海澱區”的粒度大。
2.維(Dimension)
是人們觀察資料的特定角度,是考慮問題時的一類屬性。此類屬性的集合構成一個次元(或維),如時間維、地理維等
存放維資料的表稱為維表,如表所示就是一個時間維表。維表中的資料具有維層次結構,包含維屬性和維成員。
3.度量或事實
度量(Measure)是多元資料集中的資訊單元,即多元空間中的一個單元,用以存放資料,也稱為事實(Fact)。通常是數值型資料并具有可加性。
也就是DW所關心主題的數值表示
4.多元資料集
資料倉庫和OLAP服務是基于多元資料模型的,這種模型将多元資料集看作資料方體(data cube)形式。多元資料集可以用一個多元數組來表示,它是維和度量清單的組合表示。
一個多元數組可以表示為:
(維1,維2,…,維n,度量清單)
次元模型
次元模型分為星型模型、雪花模型、星座模型
次元模型建立後,友善對資料進行多元分析
維表即為觀察事實度量的角度,每個度量表具有多個維表,路徑成本可在維表的層次上進行彙總統計或下鑽細分,例如:可以在時間次元上統計一年的銷售額,也可以在地域次元上,下鑽每個城區的銷售額;這些都是OLAP的多元分析操作(下一節)。(可加性)
星型模型
标準的星型模型,次元隻有一層,分析性能最優
雪花模型
雪花模型具有多層次元,比較接近三範式設計,較為靈活,是星型模型的進一步規範化。去除部分備援。
星座模型
星座模型基于多個事實表,事實表之間會共享一些次元表
是大型資料倉庫中的常态,是業務增長的結果,與模型設計無關
例如:對于一個銷售量主題和商品存儲量主題而言,他們的時間次元和地點次元是一樣的,即可公用維表。
OLAP多元分析
OLAP主要操作是複雜查詢,可以多表關聯,使用COUNT、SUM、AVG等聚合函數
OLAP對複雜查詢操作做了直覺的定義,包括鑽取、切片、切塊、旋轉
鑽取
對次元不同層次的分析,通過改變次元的層次來變換分析的粒度
鑽取包括上卷(Roll-up)、下鑽(Drill-down)
上卷(Roll-up),也稱為向上鑽取,指從低層次到高層次的切換
下鑽(Drill-down),指從高層次到低層次的切換
切片(Slice)、切塊(Dice)
選擇某個次元進行分割稱為切片
按照多元進行的切片稱為切塊
旋轉(Pivot)
對次元方向的互換,類似于交換坐标軸上卷(Roll-up)
一個複雜的查詢統計是一系列OLAP基本操作疊加的結果。
例如,對于表的多元資料集,統計2014年“華東”分區的總銷售量的過程是:通過地點維從“城市”上卷到“分區”,對年份維按“年份=2014”和分區維按“分區=‘華東’”進行切片操作,最後聚集總和,如圖所示。
下一篇實驗教程:資料倉庫與資料挖掘 4(上)
參考資料
[0] 陳志泊 主編. 資料倉庫與資料挖掘(第二版). 清華大學出版社,2019
[1] 陳立偉著,資料倉庫與資料挖掘教程,清華大學出版社,2006
[2] 林宇編著. 資料倉庫原理與實踐,人民郵電出版社,2003。
[3] 彭木根著 資料倉庫技術與實作,電子工業出版社,2002.6。
[4] [加]韓家炜、[加]坎伯,範明等譯,資料挖掘概念與技術,機械工業出版社,2005。
[5] 張雲濤、龔玲著,資料挖掘原理與技術,電子工業出版社,2003。