天天看點

資料倉庫技術(Data Warehouse Technologien) 第一章節 總覽(3)

21. 與OLTP的差別

OLTP(傳統) OLAP(資料倉庫)
查詢方面
關注點/焦點 讀、寫、改、删 讀、周期性添加
事務持續時間 短讀、寫事務 持久的讀事務
查詢結構 簡單結構 複雜
單個查詢的資料量 少量的資料記錄 大量的資料記錄
資料模型 靈活查詢/請求 分析相關
資料方面
資料來源 大部分一個 多個
特性 非派生、最新的、自主的、動态的 派生的/綜合的、曆史化的、繼承的、穩定的
資料量 MByte...GByte GByte...TByte...PByte
通路 單個元組通路 表通路(列方法)
使用者方面
使用者類型 職員或應用程式的輸入/輸出 經理、審計員、分析師
使用者數量 非常多 少量(最多幾百)
響應時間 msecs...secs secs...min

22. 差別:DBMS技術

  • 并行資料庫
    • 實作一個DWH的技術(對于DWH這裡我認為Data Warehouse和Data Warehousing 都有可能)
  • 分布式資料庫
    • 此資料庫中沒有備援資料;
    • 分布作為負載均衡的工具;
    • 沒有内容上的內建 / 資料壓縮;
  • 聯合資料庫
    • 更高的自治性和異構性;
    • 沒有特定的分析目的;
    • 沒有讀通路優化;

23. 資料倉庫:定義

資料倉庫是一個面向主題的、內建的、非易失的及随時間變化的資料集合,用以支援決策管理。(W.H. Inmon 1996)

24. 資料倉庫:特性

  1. 面向主題
    1. )  目的是支援不同域的跨領域評估方案;
    2. )  集中提供有關業務對象的資料(主題)。
  2. 內建資料庫
    1. )  處理來自大量不同(内部和外部)資料源(比如操作性資料庫或者Web)的資料。
  3. 非易失性資料庫、
    1. )  穩定、持久的資料庫;
    2. )  資料倉庫中的資料将不會被删除或者修改。
  4. 随時間變化
    1. )  可以随時間進行比較(時間序列分析);
    2. )  存儲時間更長。

25. 更多概念

  • Data Warehousing
    • 資料倉庫過程,也叫做資料搜集、存儲、分析的所有步驟(提取、轉換、加載);
  • 資料集市
    • 資料倉庫的外部(部分)視圖;
    • 通過複制;
    • 特定的應用領域;
  • OLAP
    • 基于概念資料模型的探索的、互動的分析;
  • 商務智能
    • Data Warehousing + Reporting + 分析(OLAP、資料挖掘);
    • 公司中自動生成報告;

26. 區分操作型系統與分析型系統

  • 響應時間表現:操作源資料系統分析 → 性能差;
  • 企業資料曆史化 / 資料的長期存儲 → 時間序列分析;
  • 獨立于可操作資料源通路資料(可用性、內建問題);
  • 資料倉庫中統一資料格式;
  • 在資料倉庫中保證資料品質。

27. 曆史:根源/起源

  • 60年代:主管資訊系統 / 經理資訊系統(EIS)
    • 為決策者提供定性資訊;
    • 操作型資料庫的小的、壓縮的提取;
    • 調整為靜态報告的格式;
    • 主機。
  • 80年代:管理資訊系統(MIS)
    • 大部分的是靜态報告生成器;
    • 引入階層(/結構層次)以評估Kennzahlen(譯為:特征值、參數、代碼)(Roll-up, Drill-down);
    • 用戶端-伺服器-架構, GUI(Windows, Apple)
  • 1992:由 W.H. Inmon 引入資料倉庫概念
    • 資料的備援狀态,源系統釋放;
    • 用于分析目的的資料限制;
  • 1993:由 E.F. Codd 定義OLAP的概念
    • 動态的、多元度分析;
  • 更多的影響範圍
    • 傳播面向業務流程的事務系統(SAP R/3) → 提供決策相關資訊
    • 資料挖掘
    • WWW(啟用網絡的資料倉庫等...)

28. 講座:目标

  • 介紹用于建構和實作資料倉庫的資料庫技術知識;
  • 使用熟知的資料庫技術
    • 資料模組化;
    • 查詢語言和查詢處理;
  • 特定的資料倉庫技術
    • 多元資料模組化;
    • 特殊查詢技術;
    • 索引結構
    • 物化視圖
    • 應用領域:商業智能

繼續閱讀