天天看點

大資料開發之資料倉庫架構分析

 概述

架構是資料倉庫建設的總體規劃,從整體視角描述了解決方案的高層模型,描述了各個子系統的功能以及關系,描述了資料從源系統到決策大資料教育訓練系統的資料流程。業務需求回答了要做什麼,架構就是回答怎麼做的問題。

架構的價值

大資料開發之資料倉庫架構分析
大資料開發之資料倉庫架構分析

資料倉庫架構

資料倉庫的核心功能從源系統抽取資料,通過清洗、轉換、标準化,将資料加載到bi平台,進而滿足業務使用者的資料分析和決策支援。資料倉庫架構包含三個部分:資料架構、應用程式架構、底層設施。

大資料開發之資料倉庫架構分析
大資料開發之資料倉庫架構分析

底層設施

底層設施為架構提供了基礎,底層設施包括硬體、資料庫平台、網絡和桌面系統。

硬體

硬體主要指伺服器硬體,主要有資料庫伺服器、etl伺服器、排程伺服器、報表伺服器、bi門戶伺服器、接口伺服器。

資料庫平台

資料庫平台分為二大類:聯機事務處理oltp(on-line transaction processing)、聯機分析處理olap(on-line analytical processing),olap是為資料分析而設計的資料庫管理系統。主要有oracel,mysql,teradata, greenplum,hive,kudu。

桌面系統

資料倉庫不同的應用對桌面系統也有不同的要求,開發工具主要有window、mac面系統,部署伺服器主要有unix桌面系統,系統bi應用程式主要有window、mac、移動裝置桌面系統。

網絡

網絡是底層設施的基礎,特别是大資料時代對網絡的要求越來越高。

bi應用程式架構

資料倉庫是資料處理的背景,業務使用者并不關心背景怎麼處理。bi應用是資料呈現的前台,是業務使用者進行查詢的入口。bi應用程式的體驗也是衡量資料倉庫是否成功的主要因素。

bi分析周期

業務分析從監視活動開始識别某個問題或時機,進而采取行動,最終回到監視該活動産生的結果上來,達到資料驅動業務增長的目的。分析周期把這個過程分為五個不同的階段。

大資料開發之資料倉庫架構分析
大資料開發之資料倉庫架構分析

bi應用分類

接口查詢

資料以接口的形式提供給上下遊系統,供上下業務系統進行查詢。主要有推和拉二種模式。

即席查詢

業務使用者根據自己的需求,自定義查詢請求,背景自動組織sql語句通路次元模型。

标準報表

根據業務使用者的需求,進行定制報表。

儀表盤

它是向企業展示度量資訊和關鍵業務名額現狀的資料可視化工具。

資料挖掘

為資料挖掘工具提供标準基礎資料。

營運查詢

為了減少業務系統的大資料量查詢壓力,資料倉庫為業務系統提供實時的查詢。

資料存儲

大資料開發之資料倉庫架構分析
大資料開發之資料倉庫架構分析

資料架構

資料架構主要描述資料從源系統抽取資料,然後經過清洗、規範化、送出形成标準模型,最終送出給業務使用者,以及對資料的管理。

源系統

資料倉庫一般會面臨多個、異構資料源的問題,主要分為結構化,半結構化以及非結構化資料。為了便于管理需要對源系統建立中繼資料資訊。

抽取

因為源系統的多樣性,源抽取階段一般選擇使用工具。在抽取之前還要做以下工作:

資料剖析是對資料的技術性分析,對資料的内容、一緻性和結構進行描述。對源系統的資料品質進行評估。

資料剖析和變化資料捕獲政策:為了減少對源系統的影響,一般隻抽取變化的資料,也需要識别實體删除的資料。cdc政策主要有:

添加審計列

在源系統追加日期字段,當資料發生變化的時候,系統會自動更新該值。如果由背景人員手工修改資料,可能就發生遺漏。

資料比較

比較源系統和資料倉庫的資料,隻抽取變化的資料。這種方法需要全量的資料,比較耗費資源。可以視資料量的大小而定。

讀取日志

讀取資料庫記錄檔資訊,同步到資料倉庫中。一般日志的有效期比較短,一旦發生要重跑的情況,可能以前的日志已經被清空了。

消息隊列

把事務資訊放到消息隊列裡,以流的形式同步到資料倉庫。這種方式即可以減輕源系統的壓力,又能做到實時同步。

資料轉換

資料從源系統抽取過來之後,就要進入資料轉換階段。這一階段是資料倉庫開發核心階段。主要有以下步驟:

清洗

資料清洗是制定轉換規則,篩選資料并糾正資料的過程。清洗的目的是改進源系統的資料品質,但是不要在資料倉庫做過多的清洗,源系統的資料品質應該在源頭處理。清洗的主要内容包括:

大資料開發之資料倉庫架構分析
大資料開發之資料倉庫架構分析

規範化

規範化就是整合各個源系統的資料,把資料統一命名,統一取值,建立企業标準版本資料。主要内容包括:

送出

送出就要根據次元模型生成次元表和事實表。送出主要内容包括:

選擇合适的緩慢變化維類型

為維表生成代理鍵

管理不同粒度的層次維

管理專項維

生成次元橋接表

生成代理鍵管道

選擇合适的事實表類型

處理延遲到達的事實

生成次元表

生成事實表

聚集

聚集是指根據事務事實表進行更高粒度的聚合以及生成相對應的次元表。主要内容包括:

大資料開發之資料倉庫架構分析
大資料開發之資料倉庫架構分析

資料存儲是指在在資料的生命周期内對資料的管理,主要内容包括:

大資料開發之資料倉庫架構分析
大資料開發之資料倉庫架構分析

繼續閱讀