天天看點

資料倉庫建設--資料倉庫設計與使用

一、資料倉庫設計的商務分析架構

    “擁有資料倉庫,商務分析者能夠得到什麼?”首先,擁有資料倉庫可以通過提供相關資訊,據此估計性能并作出重要調整,以幫助戰勝其他競争對手,可以提供競争優勢。第二,資料倉庫可以提高企業生産力,因為它能夠快速、有效的搜集準确描述組織機構的資訊。第三,資料倉庫有利于客戶聯系管理,因為它跨越所有商務、所有部門和所有市場,提供了顧客和商品的一緻視圖。最後,通過一緻和可靠的方式長期跟蹤趨勢、模式和異常,資料倉庫可以降低成本。

    為設計有效的資料倉庫,需要了解和分析商務需求,并構造一個商務分析架構。建構一個大型複雜的資訊系統就像構造一個大型複雜的建築,業主、設計師和建築商都有不同的視圖。這些視圖結合在一起,形成一個複雜的架構,代表自頂向下、商務驅動的或業主的視圖,也代表自底向上、建築商驅動的或資訊系統實作者的視圖。

    關于資料倉庫的設計,必須考慮四種不同的視圖:自頂向下視圖、資料源視圖、資料倉庫視圖和商務查詢視圖。

  • 自頂向下視圖:使得我們可以選擇資料倉庫所需的相關資訊。這些資訊能夠滿足目前和未來的商務需求。(業務模組化)
  • 資料源視圖:揭示被操作資料庫系統收集、存儲和管理的資訊。這些資訊可能以不同的詳細程度和精度記錄,存放在個别資料源表或內建的資料源表中。(ODS層)
  • 資料倉庫視圖:包括事實表和維表。他們提供存放在資料倉庫内的資訊,包括預算的總和與計算,以及提供曆史背景的關于源、日期和時間等資訊。(企業級資料倉庫)
  • 商務查詢視圖:是從最終使用者的角度透視資料倉庫中的資料。

    建立和使用資料倉庫是一項複雜的任務,因為他需要商務技巧、技術技巧和計劃管理技巧。關于商務技巧,建立資料倉庫涉及到了解這樣的系統如何存儲和管理他們的資料;如果構造一個提取程式,将資料由操作資料庫轉換到資料倉庫;如果構造一個倉庫重新整理軟體,合理的保持資料倉庫中的資料相對于操作資料庫中資料的目前性。使用資料倉庫涉及了解它所包含的資料的含義,以及了解商務需求并将它轉換成資料倉庫查詢。

    關于技術技巧,資料分析者需要了解如何由定量資訊做出估價,以及如何根據資料倉庫中的曆史資訊得到的結論推到事實。這些技巧包括發現模式和趨勢,根據曆史推斷趨勢和發現異常或模式漂移的能力,并根據這種分析提出條理清晰的管理建議。最後,計劃管理技巧涉及需要與許多技術人員、經銷商和最終使用者溝通,以便以及時和講求效益的方式送出結果。

二、資料倉庫的設計過程

    資料倉庫可以使用自頂向下方法、自底向上方法,或二者結合的混合方法設計。自頂向下方法由總體設計和規劃開始。當技術成熟并且已經掌握,對必須解決的商務問題清楚并且已經很好的了解時,這種方法是有用的。自底向上方法以實驗和原型開始。在商務模組化和技術開發的早期階段,這種方法是有用的。這樣可以以相當低的代價推進,在作出重要承諾之前評估技術帶來的利益。在混合方法下,一個組織既能利用自頂向下方法的規劃性和戰略性的特點,又能保持像自底向上方法一樣開速實作和立刻應用。

    從軟體工程的角度來看,資料倉庫的設計和構造包含以下步驟:規劃、需求研究、問題分析、倉庫設計、資料內建和測試,最後,部署資料倉庫。大型軟體系統可以用兩種方法開發:瀑布式方法和螺旋式方法。瀑布式方法在進行下一步之前,每一步都進行結構的和系統的分析,就像瀑布一樣,從一級落到下一級。螺旋式方法涉及功能漸增的系統的快速産生,相繼釋出之間的間隔很短,能夠快速修改,并且新的設計和技術可以及時接受。

   一般而言,資料倉庫的設計過程包含如下步驟:

  1. 選取待模組化的商務處理。如果一個商務過程是整個組織的,并涉及多個複雜的對象,應當選用資料倉庫模型。然而,如果處理是部門的,并關注某一類商務處理的分析,則應選擇資料集市。
  2. 選取商務處理的粒度。對于處理,該粒度是基本的,在事實表中是資料的原子級。
  3. 選取用于每個事實表記錄的維。典型的維是時間、商品、顧客、供應商、倉庫、事務類型和狀态。
  4. 選取将安放在每個事實表記錄中的度量。典型的度量是可加的資料量。

    由于資料倉庫的構造是一項困難、長期的任務,是以應當清楚的定義它的實作範圍。最初的資料倉庫的實作目标應當是詳細而明确的、可實作的和可測量的。這涉及确定時間和預算的配置設定,一個組織的那些子集需要模組化,選取的資料源數量,提供服務的部門數量和類型。

    一旦設計和構造好資料倉庫,資料倉庫的最初部署就包括初始化安裝、首次展示規劃、教育訓練和熟悉情況。平台的更新和維護也要考慮。資料倉庫管理包括資料重新整理、資料源同步、規劃災難恢複、管理存取控制和安全、管理資料增長、管理資料庫性能以及資料倉庫的增強和擴充。範圍管理包括控制查詢、維、報告的數量和範圍,限制資料倉庫的大小,或限制進度、預算和資源。

    各種資料倉庫設計工具都可以使用。資料倉庫開發工具提供一些功能,定義和編輯中繼資料庫内容,回答查詢,輸出報告,向或從關系資料庫目錄傳送中繼資料。規劃與分析工具研究模式改變的影響,以及當重新整理率或時間視窗改變時對重新整理性能的影響。

三、資料倉庫用于資訊處理

    通常資料倉庫使用的時間越長,它進化的就越好。進化發生在整個過程的多個階段。最初,資料倉庫主要用于産生報告和回答預先定義的查詢。漸漸地,它用于分析彙總和詳細資料,結果以報表和圖表形式提供。稍後,資料倉庫用于決策,進行多元分析和複雜的切片以及切塊操作。最後,使用資料挖掘工具,資料倉庫可恩呢剛用于知識發現戰略決策制定。這種意義下,資料倉庫工具可以分為通路與檢索工具,資料庫報表工具,資料分析工具和資料挖掘工具。

    企業使用者需要一種手段,知道資料倉庫裡有什麼(通過中繼資料),如果通路資料倉庫的内容,如何使用資料分析工具考察這些内容和如何提供分析結果。

    有三類資料倉庫應用:資訊處理、分析處理和資料挖掘。

  • 資訊處理:支援查詢和基本的統計分析,并使用交叉表、表、圖表或圖進行報告。資料倉庫資訊處理的目前趨勢是構造低價格的基于Web的通路工具,然後與Web浏覽器內建在一起。
  • 分析處理:支援基本的OLAP操作,包括切片和砌塊、下鑽、上卷和轉軸。一般的,他在彙總的和細節的曆史資料上操作。與資訊處理相比,聯機分析處理的主要優勢是它支援資料倉庫的多元資料分析。
  • 資料挖掘:支援知識發現,包括找出隐藏的模式和關聯,構造分析模型,進行分類和預測,并使用可視化工具提供挖掘結果。

繼續閱讀