一、資料倉庫
關于資料倉庫概念的标準定義業内認可度比較高的,是由資料倉庫之父比爾·恩門(bill inmon)在1991年出版的“building the data warehouse”(《建立資料倉庫》)一書中所提出:
中文定義:資料倉庫是一個面向主題的、內建的、相對穩定的、反映曆史變化的資料集合,用于支援管理決策。
英文定義:a data warehouse is a subject-oriented, integrated, nonvolatile, and time-variant collection of data in support of management’s decisions.
二、主題
主題是與傳統資料庫的面向應用相對應的,是一個抽象概念,是在較高層次上将企業資訊系統中的資料綜合、歸類并進行分析利用的抽象。每一個主題對應一個宏觀的分析領域。在邏輯意義上,它是對應企業中某一宏觀分析領域所涉及的分析對象。面向主題的資料組織方式, 就是在較高層次上對分析對象資料的一個完整并且一緻的描 述,能刻畫各個分析對象所涉及的企業各項資料,以及資料之間的聯系。所謂較高層次是相 對面向應用的資料組織方式而言的, 是指按照主題進行資料組織的方式具有更高的資料抽象 級别。 與傳統資料庫面向應用進行資料組織的特點相對應, 資料倉庫中的資料是面向主題進行組織的。主題是根據分析的要求來确定的。這與按照資料處理或應用的要求來組織資料是不同的。
三、主題域
主題域通常是聯系較為緊密的資料主題的集合。可以根據業務的關注點,将這些資料主題劃分到不同的主題域。主題域的确定必須由最終使用者和資料倉庫的設計人員共同完成。
四、主題域、主題、實體間關系
主題設計是對主題域進一步分解,細化的過程。主題域下面可以有多個主題,主題還可以劃分成更多的子主題,而實體則是不可劃分的最小機關。主題域、主題、實體的關系如下圖所示:
五、關于主題域的争議
曾經在看到過關于主題域的另外一個定義方式:“主題域是對某個主題進行分析後确定的主題的邊界”。相關内容如下文所示:
主題域是對某個主題進行分析後确定的主題的邊界。分析主題域,确定要裝載到資料倉庫的主題是 資訊打包技術的第一步。而在進行資料倉庫設計時,一般是一次先建立一個主題或企業全部主題中的一部分,是以在大多數資料倉庫的設計過程中都有一個主題域的 選擇過程。主題域的确定必須由最終使用者和資料倉庫的設計人員共同完成。
比如,對于adventure works cycle這種類型的公司管理層需要分析的主題一般包括供應商主題、商品主題、客戶主題和倉庫主題。其中商品主題的内容包括記錄超市商品的采購情況、商品 的銷售情況和商品的存儲情況;客戶主題包括的内容可能有客戶購買商品的情況;倉庫主題包括倉庫中商品的存儲情況和倉庫的管理情況等,如圖3-31所示。
圖3-31 根據業務情況确定的分析主題
确定主題邊界實際上需要進一步了解業務關系,是以在确定整個分析主題後,還需要對這些主題進行初步的細化才便于擷取每一個主題應該具有的邊界。對于圖3-31的4個主題及其在企業中的業務關系可以确定邊界如圖3-32所示。
圖3-32 主題域的劃分
經過對以上内容深入分析,發現此定義與:”主題域通常是聯系較為緊密的資料主題的集合“并不沖突,隻是所站的視角不同,“資料主題集合”的觀點從資料着眼,前提是已經經過分析、梳理列出所有可能的資料主題,此處資料主題是細粒度的,是從微觀到宏觀;“邊界論”的觀點中,某個主題是分析的主題,是宏觀概念,而非資料主題。
六、未完待續
分布式資料倉庫資料存儲模型設計進行中,後續會持續更新,請關注qq群:分布式資料倉庫模組化 398419457。