天天看點

搭建資料倉庫的流程簡介

如何搭建一個資料倉庫? 下面大體說明了搭建的流程。

用一幅圖來表示:

搭建資料倉庫的流程簡介

資料倉庫是一套體系。可以建在oracle上,mysql上,hive上,maxcompute上,具體建在哪個平台根據資料量來定。對資料倉庫來說,建在哪個平台不重要,重要的是目的。

資料倉庫的目的,是對組織的資料進行統一的治理,歸納來講,就是:存、通、用。

存:是指資料的統一存儲。資料放在一起了,meta才能在一起,便于後續的計算。

通:是指資料的梳理,集中式的資料存儲自然而然帶來資料的集中管理。便于企業梳理内部的資料,這個是最能刺痛規模比較大,業務比較繁雜的企業的。

用:就是在梳理好内部資料資産後,可以看到那些資料可以做連結。那些業務可以合作。自己還缺少哪些資料。

存偏向于存儲,通偏向于資料管理,用偏向于資料計算,也就是業務創新。

業務的野蠻生長總會遇到瓶頸,這個時候就需要有内在驅動的業務創新。資料是指導組織二次創業的好依據。by 山水

簡單的來說,就是包括:資料源、ods、dw(dm)、報告這幾部分。

主要有這麼幾個流程:

資料源到ods,需要考慮:

資料源的平台有哪些,比如oracle,mysql,文本檔案,每個平台有哪些可用的同步工具

資料有哪些,資料字典有沒有

哪些表全量同步

哪些表增量同步,如何取增量資料

同步周期,按小時,按天,按周,按月?

資料量評估:存量資料有多大,增量資料每天有多少

曆史保留多久

資料正确性校驗

排程、監控、報警

ods到dw(dm),剛開始可以考慮建立資料集市(dm),待對資料,對業務足夠了解,人足夠多的時候,考慮建立資料倉庫(dw),需要考慮:

熟悉資料字典,了解業務,了解資料

事實表要建哪些

次元表要建哪些

更新周期,按小時,按天,按周,按月?

驗數

報告,這個是給業務、決策層看的,是展現價值的地方

統計口徑的确定

驗數:驗證資料是否正确

如何展示:是表格、圖形,還是大屏?

在建設資料倉庫的時候,需要使用一系列的工具。

資料源到ods

etl工具,比如kettle

ods到dw(dm)

sql

報告

報表平台

整個流程通過 排程工具 串起來

排程工具需要解決:

任務依賴

周期性執行

監控,報警

日志

疊代!

更多精彩内容請關注袋鼠雲微信微網誌:

搭建資料倉庫的流程簡介
搭建資料倉庫的流程簡介

繼續閱讀