天天看點

資料倉庫和OLAP(概念) 聯機分析處理 資料倉庫 資料倉庫特點

簡寫為olap,随着資料庫技術的發展和應用,資料庫存儲的資料量從20世紀80年代的兆(m)位元組及千兆(g)位元組過渡到現在的兆兆(t)位元組和千兆兆(p)位元組,同時,使用者的查詢需求也越來越複雜,涉及的已不僅是查詢或操縱一張關系表中的一條或幾條記錄,而且要對多張表中千萬條記錄的資料進行資料分析和資訊綜合,關系資料庫系統已不能全部滿足這一要求。在國外,不少軟體廠商采取了發展其前端産品來彌補關系資料庫管理系統支援的不足,力圖統一分散的公共應用邏輯,在短時間内響應非資料處理專業人員的複雜查詢要求。

聯機分析處理(olap)系統是資料倉庫系統最主要的應用,專門設計用于支援複雜的分析操作,側重對決策人員和高層管理人員的決策支援,可以根據分析人員的要求快速、靈活地進行大資料量的複雜查詢處理,并且以一種直覺而易懂的形式将查詢結果提供給決策人員,以便他們準确掌握企業(公司)的經營狀況,了解對象的需求,制定正确的方案。.

資料倉庫的特點可以從資料倉庫的定義來了解。目前資料倉庫的定義是不統一的。公認的資料倉庫之父w.hinmon将其定義為:“資料倉庫是支援管理決策過程的、面向主題的、內建的、随時間而變的、持久的資料集合。”他指出了資料倉庫面向主題、內建、穩定和随時間變化這4個最重要的特征。

1.面向主題

業務系統是以優化事務處理的方式來構造資料結構的,對于某個主題的資料常常分布在不同的業務資料庫中。這對于商務分析和決策支援來說是極為不利的,因為這意味着通路某個主題的資料實際上需要去通路多個分布在不同資料庫中的資料集合。

對于商務分析來說,典型的主題域有客戶、産品、交易(銷售)和收益等。例如在圖3-2中示例了一個以零售業為主的企業情況。該企業在以前的企業資訊化中已經建構了消費資料庫、客戶服務資料庫和市場資訊資料庫。其中,消費資料庫記錄了客戶對不同産品的消費情況,客戶服務資料庫記錄了客戶的咨詢和投訴情況。這2個資料都是客戶主題的相關資料。如果直接使用業務系統進行決策支援,則需要分别通路這2個資料庫才能獲得客戶各個側面的資訊,這樣将極大的浪費系統處理的時間和效率,并且資料之間的不一緻性和不同步問題,将極大影響決策的可靠性。

基于以上的原因,資料倉庫将這些資料集中于一個地方,在這種結構中,對應某個主題的全部資料被存放在同一資料表中,這樣決策者可以非常友善地在資料倉庫中的一個位置檢索包含某個主題的所有資料。在圖3-2中,有客戶和市場兩個分析主題,客戶主題可以從消費資料庫和客戶服務資料庫中獲得客戶消費和咨詢等全方位的資訊;市場主題可以從市場資訊資料庫分析市場的發展趨勢。這種按主題的資料組織方法,極大地友善了資料分析的過程。主題的具體分析過程将在下一節學習。

     錯誤! 

資料倉庫和OLAP(概念) 聯機分析處理 資料倉庫 資料倉庫特點

圖3-2  資料倉庫面向主題的特性

2.內建的

全面而正确的資料是有效地進行分析和決策的首要前提。在某一個主題的統帥下,需要将資料進行提取、淨化、轉換和裝載等內建操作。

比如在客戶主題中,對于客戶名稱,業務資料庫的設計中有的字段名為user_name,類型為char(10),有的字段名是name,類型是varchar(12),但在進入分析資料庫時必須使用同一字段的命名和格式。這在sql server 2005中實際上是通過ssis來完成的,但在資料庫設計階段也需要把資料的內建方案設計出來,而具體的操作則主要展現在對ssis的操作上。

3.穩定的

業務系統一般隻需要目前資料,在資料庫中一般也存儲短期資料,是以在資料庫系統中資料是不穩定的,它記錄的是系統中每一個變化的瞬态。但對于決策分析而言,曆史資料是相當重要的,許多分析方法必須以大量的曆史資料為依托。沒有曆史資料的詳細分析是難以把握企業的發展趨勢的,是以,資料倉庫對資料在空間和時間的廣度上都有了更高的要求。在資料倉庫中,資料一旦被寫入就不再變化了。資料倉庫可以看成是一個虛拟的隻讀資料庫系統。在資料內建性中已經說明了資料倉庫在資料存儲方面是分批進行的,定期執行提取過程為資料倉庫增加記錄,但是這些記錄一旦加入,就不再從系統中删除。正是由于資料倉庫的這個顯著特點,使得資料倉庫不需要在并發讀寫控制上投入過多的精力,因為所有的使用者隻是以隻讀的方式通路資料倉庫。

圖3-3示範了資料穩定性的一個簡單的例子。在1月2日,99号客戶的消費金額為200元,當時間推移到3月2日,99号客戶的消費金額變成250元,這一資訊在業務系統中被更新了。但是在資料倉庫中(我們假定資料倉庫每天進行一次資料提取),3月2日的資料提取結果是在資料倉庫中增加了記錄222,原先的記錄111并沒有發生任何的改變,說明99号客戶在3月2日的消費金額為250元。可見,資料倉庫實際上是為99号客戶的消費行為進行了定期的拍照,并将快照存儲起來供後續的分析工作使用。

資料倉庫和OLAP(概念) 聯機分析處理 資料倉庫 資料倉庫特點

圖3-3  資料倉庫的資料穩定性示例

4.随時間變化的

由于在資料倉庫中資料隻增不減,這使得資料倉庫中的資料總是擁有時間次元。資料倉庫實際上就是記錄系統的各個瞬态,并通過将各個瞬态連接配接起來形成動畫,進而在資料分析的時候再現系統運動的全過程。資料提取的周期實際上決定了動畫間隔的時間,資料提取的周期短,則動畫的速度快,圖3-4示意了這種特點。

資料倉庫和OLAP(概念) 聯機分析處理 資料倉庫 資料倉庫特點

圖3-4  資料倉庫資料随時間變化的特點

資料倉庫同資料庫相比,還具有其他的特點。如資料倉庫中的資料不再像資料庫中的資料具有嚴格規範化的特點,這也是由資料倉庫的應用需求決定的。資料倉庫為了能夠在盡量短的時間内将資料呈現給使用人員,使用所謂的“空間換時間”的技術,犧牲了資料的規範化,增加了資料的備援度,進而減少系統的響應時間。再如,資料庫系統和資料倉庫系統在硬體的利用模式上具有很大的差別。在資料庫環境下,硬體資源使用率總是保持在一個相對穩定的狀态,這是由于不斷地有事務需要處理。而在資料倉庫環境下,系統的硬體資源常常在高使用率和低使用率之間切換。當系統進行資料分析應用時,硬體資源的使用率很高,而系統空閑(資料分析的工作在每天的某些時段進行,并不像事務處理工作那樣一直進行)時,硬體資源的使用率就很低,如圖3-5所示。

資料倉庫和OLAP(概念) 聯機分析處理 資料倉庫 資料倉庫特點

圖3-5  資料庫系統和資料倉庫系統的硬體使用率

由于資料庫系統和資料倉庫系統在硬體使用率上的差異,我們難于在同一台伺服器上既進行優化操作型處理,又進行優化分析型處理,是以資料庫系統和資料倉庫系統在實體上應當由不同的伺服器來運作。