天天看點

第二節 資料倉庫簡介

1,資料倉庫

(1)資料倉庫是一個面向主題的、內建的、不可更新的、随時間不變化的資料集合。他用于支援企業或組織的決策分析處理

[wikipedia]資料倉庫是一種資訊系統的資料儲存理論,此理論強調利用某些特殊資料儲存方式,讓所包含的資料,特别有利于分析處理,以産生有價值的資訊并依此作決策。

利用資料倉庫方式所存放的資料,具有一但存入,便不随時間而更動的特性,同時存入的資料必定包含時間屬性,通常一個資料倉庫皆會含有大量的曆史性資料,并利用特定分析方式,自其中發掘出特定資訊。

(2)資料倉庫特性[wikipedia]

● 主題導向(Subject-Oriented)

有别于一般OLTP系統,資料倉庫的資料模型設計,着重将資料按其意義歸類至相同的主題區(subject area),是以稱為主題導向。舉例如Party、Arrangement、Event、Product等。

● 內建性(Integrated)

資料來自企業各OLTP系統,在資料倉庫中是內建過且一緻的。

● 時間差異性(Time-Variant)

資料的變動,在資料倉庫中是能夠被紀錄以及追蹤變化的,有助于能反映出能随着時間變化的資料軌迹。

● 不變動性(Nonvolatile)

資料一旦确認寫入後是不會被取代或删除的,即使資料是錯誤的亦同。

2,資料倉庫的結構和建立過程

資料源:業務資料系統、文檔資料、其他資料

資料存儲及管理:E(抽取)T(轉換)L(加載)

資料倉庫引擎:不同伺服器提供不同的服務

前端漲勢:資料查詢,資料報表,資料分析,各類應用

第二節 資料倉庫簡介

3,OLTP應用與OLAP應用

(1)聯機交易處理(OLTP, Online transaction processing)是指通過資訊系統、電腦網絡及資料庫,以線上交易的方式處理一般即時性的作業資料,和更早期傳統資料庫系統大量批量的作業方式并不相同。OLTP通常被運用于自動化的資料處理工作,如訂單輸入、金融業務…等反複性的日常性交易活動。 和其相對的是屬于決策分析層次的聯機分析處理(OLAP)。

(2)聯機分析處理(英語:On-Line Analytical Processing,簡稱OLAP),是一套以多元度方式分析資料,而能彈性地提供積存(英語:Roll-up)、下鑽(英語:Drill-down)、和透視分析(英語:pivot)等操作,呈現內建性決策資訊的方法,多用于決策支援系統、商務智能或資料倉庫。其主要的功能,在于友善大規模資料分析及統計計算,對決策提供參考和支援。與之相差別的是聯機交易處理(OLTP)。

● OLAP需以大量曆史資料為基礎配合上時間點的差異并對多元度及彙整型的資訊進行複雜的分析。

● OLAP需要使用者有主觀的資訊需求定義,是以系統效率較佳。

OLAP的概念,在實際應用中用有着廣義和狹義兩種不同的了解。廣義上的了解與字面意思相同,即針對于OLTP而言,泛指一切不對資料進行輸入等事務性處理,而基于已有資料進行分析的方法。但更多的情況下OLAP是被了解為其狹義上的含義,即與多元分析相關,基于立方體(CUBE)計算而進行的分析。

4,資料倉庫常用模型

事實表:即基礎表

次元表:根據一個或者多個字段進行彙總,處理,排序等出來的表

(1)星型模型:是資料集市次元模組化中推薦的模組化方法。星型模型是以事實表為中心,所有的次元表直接連接配接在事實表上,像星星一樣。星型模型的特點是資料組織直覺,執行效率高。因為在資料集市的建設過程中,資料經過了預處理,比如按照次元進行了彙總,排序等等,資料量減少,執行的效率就比較高。

這種模型的特征就是所有的次元表直接連接配接在事實表上。

(2)雪花模型:是次元模組化中的一種選擇。雪花模型的次元表可以擁有其他次元表的,雖然這種模型相比星型模型更規範一些,但是由于這種模型不太容易了解,維護成本比較高,而且性能方面需要關聯多層維表,性能也比星型模型要低。是以一般不是很常用。

這種模型的特征就是次元表可以擁有其他次元表。

繼續閱讀