天天看點

DAMA-DMBOK 2 第十一章總結--資料倉庫和商務智能

一.引言

1.資料倉庫技術将組織中不同來源的資料整合到公共的資料模型中去。整合後的資料能為業務營運提供洞察,為決策支援和創造價值開辟新的可能性。

2.企業資料倉庫,提供了一種減少資料備援、提高資訊一緻性,讓企業能夠利用資料做出更優決策的方法。

3.相關技術起源于上世紀90年代,資料倉庫被認為是資料管理的核心,雖然有悠久的曆史,但是技術仍然在不斷發展,新的概念不斷湧現。

二.業務驅動因素

1.營運支援

2.合規需求

3.商務智能活動

三.目标

1.支援商務智能活動

2.賦能商業分析與智能決策

3.基于資料洞察尋找創新方法

四.原則

1.聚焦業務目标

確定資料倉庫用于組織最優先級的業務并解決業務問題

2.以終為始

讓業務優先級和最終傳遞的資料範圍驅動資料倉庫内容的建立

3.全局性的思考和設計,局部性行動和建設

4.總結并持續優化

5.提升透明度和自助服務

6.與資料倉庫一起建立中繼資料

7.協同(DG,DQ,Metadata)

8.不要千篇一律

五.概念

1.商務智能BI

1.商務智能指的是一種了解組織訴求和尋找機會的資料分析活動
2.商務智能指的是支援這類資料分析活動的資料集合

2.資料倉庫

1.兩個組成部分:一個內建的決策支援資料庫和與之相關的用于收集、清理、轉換和存儲 操作來自各種外部源資料的軟體程式。
2.企業級資料倉庫(EDW):集中化的資料倉庫,為整個組織的商務智能需求服務。EDW的建設遵循企業級資料模型,以確定整個企業内部決策支援活動的一緻性。
3.廣義上來說,資料倉庫包括為任何支援商務智能目标實作提供資料的資料存儲或提取操作。

3.資料倉庫建設

1.資料倉庫中資料的抽取、清洗、轉換、控制、加載等操作過程。資料倉庫建設還包括與中繼資料資料庫互動的流程
2.傳統上數倉主要關注結構化資料,現在大資料時代也包括半結構化資料和非結構化資料

4.資料倉庫建設方法

1.Inmon“面向主題的、整合的、随時間變化的、相對穩定的支援管理決策的資料集合”---用規範化的關系模型來存儲和管理資料
2.Kimball“為查詢和分析定制的交易資料副本”,它不是以規範化的實體關系模型來存儲和管理資料,又稱為多元模型
3.核心理念

1.資料倉庫存儲的資料來自其他系統

2.存儲行為包括以提升資料價值的方式整合

3.便于資料被通路和分析使用

4.需要讓授權的利益相關方通路到可靠的、內建的資料

5.建設目的涵蓋工作流支援、營運管理和預測分析

5.企業資訊工廠(CIF) Inmon

1.概念

“面向主題的、整合的、随時間變化的、包含彙總和明細的、相對穩定的曆史資料集合”

2.與業務系統的差別

1.面向主題的

2.整合的

3.随時間變化的

4.穩定的

5.聚合資料和明細資料

6.曆史的

3.組成部分

1.應用程式

2.資料暫存區

3.內建和轉換

4.操作型資料存儲

5.資料集市

6.操作型資料集市

7.資料倉庫

8.營運報告

9.參考資料、主資料和外部資料

4.數倉資料與 APP 的資料差異

1.資料的組織形式是按主題域而不是按功能效率需要

2.資料是整合的資料,而不是"孤立"的煙囪資料

3.資料是随時間變化的系列資料,而非僅目前時間的值

4.資料在資料倉庫中的延遲比在應用程式中高

5.資料倉庫中提供的曆史資料比應用程式中提供的多

6.多元資料倉庫 Kimball

“為查詢和分析定制的交易資料副本”,又稱為多元模型,多元模型通常稱為星型模型,由事實表和次元表組成

2.事實表&次元表

1.事實表包含有關業務流程的定量資料,比如銷售資料,資料倉庫90%以上的資料。

2.次元表存儲與事實表資料相關的描述性屬性,為資料消費者解答關于事實表的問題

3.元件

1.業務源系統

3.資料展示區

4.資料通路工具

7.資料倉庫架構元件

1.源系統
2.資料內建
3.資料存儲區域

1.暫存區

2.參考資料和主資料一緻性次元

3.中央資料倉庫

4.操作型資料存儲 ODS
6.資料立方體

8.加載處理方式

1.曆史資料加載

1.Bill Inmon:Inmon類型的資料倉庫建議所有資料存儲在單個資料倉庫層中。這一層中存儲己清洗過的、标準化的和受管控的原子級資料

2.Kimball:Kimball類型的資料倉庫中建議,資料倉庫由包含己清洗過的、标準化的和受管控資料的部門級資料集市合并而成

3.Data Vault:作為資料暫存處理的一部分,同樣進行資料清洗和标準化。曆史資料以規範化的原子結構存儲,每個次元定義代理鍵、主鍵、備用鍵

2.批量變更資料捕獲 CDC

1.時間戳增量加載

  • 複雜度低,表加載快

2.日志表增量加載

3.資料庫交易日志

4.消息增量

  • 複雜度極高

5.全量加載

  • 複雜度極低,表加載最慢
3.準實時和實時資料加載

1.涓流式加載(源端積累)

2.消息傳送(總線積累)

3.流式傳送(目标端積累)

4.總結:數倉建設涉及兩種資料內建處理類型

1.曆史存量資料加載

2.持續不斷的資料更新

六.活動

1.了解需求

1.發展的眼光

資料的使用方式會随着時間的推移、使用者分析和探索資料的需求發展而發展。在初始設計階段花些時間來思考與資料功能和資料來源相關的問題,實際使用資料源進行分析時,就能體會到初始階段所花的構思可以降低返工成本

2.對齊業務戰略

要考慮業務目标和業務戰略,确定業務領域并框定範圍;然後,确定并與相關的業務人員進行訪談,了解他們想做些什麼和這麼做的原因,記錄他們當下關心的具體問題和想要詢問的資料,以及他們如何區分和分類重要資訊

3.做有價值的需求

把需求分類并排出優先級,跟生産上線相關的排在前面,将資料倉庫相關的和那些可以等的排在後面。尋找那些簡單且有價值的項目,快速啟動它們以便在項目初始釋出階段就能獲得産出。

2.定義和維護資料倉庫/商務智能架構

定義和維護架構,不僅僅是技術工作,也涉及管理流程的配套。

描述資料從哪裡來、到哪去、什麼時候去、為什麼要去,以及用什麼樣的方式流入資料倉庫

2.技術架構

概念模型架構是一個起點。要将非功能需求和業務需求很好的結合起來。做好原型設計可以快速證明或駁斥某些需求的實作,避免對某些技術或架構做出昂貴的投入。

3.管理流程

理想情況下,資料倉庫項目團隊應将部署的資料産品的每一次更新作為一個提供附加功能的軟體版本來管理

4.兩個确定

1.确定資料倉庫/商務智能技術架構

2.确定資料倉庫/商務智能管理流程

3.開發資料倉庫和資料集市

1.三條建構軌迹

1.資料

2.技術

3.商務智能工具

2.資料處理

1.将源映射到目标

  • 1.建立各個源系統到目标系統的實體和資料元素之間的轉換規則。
  • 2.記錄了商務智能環境中每個資料元素和他們各自來源系統的血緣關系。
  • 3.映射工作最困難的部分是确定多個系統中資料元素之間的連結有效性或等效性。

2.修正和轉換資料

  • 1.對于涉及重要曆史資料的初始加載過程中,資料修正工作尤為必要。
  • 2.為了降低目标系統的複雜性,源端系統應負責資料的修複工作井確定資料正确。
  • 3.已經加載的錯位記錄,通常采用一條全新的替代記錄加載,避免破壞完整性。
  • 4.資料轉換重點關注技術系統中實作業務規則的活動,需要業務領域專家參與。

4.加載資料倉庫

确定加載方式考慮的因素

1.延遲要求、源可用性、批處理視窗或上載間隔、目标資料庫及時間幀的一緻性

2.加載方法還必須解決資料品質處理過程、執行轉換的時間、延遲到達的次元和資料拒絕等問題。

5.實施商務智能産品組合

為了在業務部門或者業務部門之間為正确的使用者社群標明合适的工具

2.方法

1.根據需要給使用者分組

2.将工具與使用者要求相比對

6.維護資料産品

1.釋出管理

釋出管理對增量的開發過程至關重要

2.管理資料産品開發生命周期
3.監控和調優加載過程

要注意數倉也需要歸檔

4.監控和調優商務智能活動

透明性和可見性是推動 DWBI 監控的關鍵原則

七.工具

1.中繼資料存儲庫

1.資料字典和術語
2.資料和資料模型的血緣關系

2.資料內建工具

1.資料內建
2.作業排程
3.工作流
4.報警處理

3.商務智能工具的類型

1.營運報表
2.業務績效管理
3.營運分析應用

1.OLAP&OLTP

  • 線上分析處理 (OLAP)是一種為多元分析查詢提供快速性能的方法。OLAP這一術語在某種程度上源于對OLTP(線上交易處理)的差別。

2.OLAP 常見操作

  • 常見的OLAP操作包括切片和切塊、向下鑽取、向上鑽取、向上卷積和透視等。

八.方法

1.驅動需求的原型

在産品實作之前,通過建立一組示範

2.自助式的商務智能

自助服務是商務智能産品的基本傳遞

3.可查詢的審計資料

為了維系資料血緣關系,所有的結構

九.實施指南

1.就緒評估/風險評估

1.有業務支援、與戰略保持一緻、有一個定義好的架構方法
2.明确資料敏感性和安全性限制;選擇工具;保障資源安全;建立抽取過程以評估和接受源資料

2.版本路線圖

資料倉庫是逐漸建構的。無論選擇何種實作方法,不管是瀑布式、選代式,還是靈活開發,都應該考慮到想要實作的最終狀态,路線圖是一種有價值的規劃工具。

3.配置管理

4.組織和文化變革

1.業務倡議
2.業務目标和範圍
3.業務資源
4.業務準備情況
5.願景一緻

十.數倉和 BI 的治理

1.業務接受度

成功的因素是:業務對資料的接受程度,包括可以了解的資料、具有可驗證的品質,以及具有可證明的血緣關系

2.客戶/使用者滿意度

3.服務水準協定

4.報表政策

1.報表政策包括标準、流程、指南、最佳實踐和程式,它将確定使用者獲得清晰、準确和及時的資訊。
2.解決的問題

1.安全通路

2.描述使用者互動、報告、檢查或檢視其資料的通路機制

3.使用者社群類型和使用它的适當工具

4.報表摘要、詳細資訊、例外情況以及頻率、時間、分布、存儲格式的本質

5.通過圖形化輸出發揮可視化功能的潛力

6.及時性與性能間的權衡

5.度量名額

1.使用名額
2.主題域覆寫率
3.響應時間和性能名額

版權聲明:未經許可,不得抄襲。轉載請此處留言或公衆号背景溝通。更多關于CDMP認證和資料治理的交流請關注公衆号(Data is King),公衆号回複‘dmbok思維導圖’ 可擷取思維導圖版知識點總結。

繼續閱讀