如何搭建一個資料倉庫? 下面大體說明了搭建的流程。
用一幅圖來表示:
資料倉庫是一套體系。可以建在oracle上,mysql上,hive上,maxcompute上,具體建在哪個平台根據資料量來定。對資料倉庫來說,建在哪個平台不重要,重要的是目的。
資料倉庫的目的,是對組織的資料進行統一的治理,歸納來講,就是:存、通、用。
存:是指資料的統一存儲。資料放在一起了,meta才能在一起,便于後續的計算。
通:是指資料的梳理,集中式的資料存儲自然而然帶來資料的集中管理。便于企業梳理内部的資料,這個是最能刺痛規模比較大,業務比較繁雜的企業的。
用:就是在梳理好内部資料資産後,可以看到那些資料可以做連結。那些業務可以合作。自己還缺少哪些資料。
存偏向于存儲,通偏向于資料管理,用偏向于資料計算,也就是業務創新。
業務的野蠻生長總會遇到瓶頸,這個時候就需要有内在驅動的業務創新。資料是指導組織二次創業的好依據。by 山水
簡單的來說,就是包括:資料源、ods、dw(dm)、報告這幾部分。
主要有這麼幾個流程:
資料源到ods,需要考慮:
資料源的平台有哪些,比如oracle,mysql,文本檔案,每個平台有哪些可用的同步工具
資料有哪些,資料字典有沒有
哪些表全量同步
哪些表增量同步,如何取增量資料
同步周期,按小時,按天,按周,按月?
資料量評估:存量資料有多大,增量資料每天有多少
曆史保留多久
資料正确性校驗
排程、監控、報警
ods到dw(dm),剛開始可以考慮建立資料集市(dm),待對資料,對業務足夠了解,人足夠多的時候,考慮建立資料倉庫(dw),需要考慮:
熟悉資料字典,了解業務,了解資料
事實表要建哪些
次元表要建哪些
更新周期,按小時,按天,按周,按月?
驗數
報告,這個是給業務、決策層看的,是展現價值的地方
統計口徑的确定
驗數:驗證資料是否正确
如何展示:是表格、圖形,還是大屏?
在建設資料倉庫的時候,需要使用一系列的工具。
資料源到ods
etl工具,比如kettle
ods到dw(dm)
sql
報告
報表平台
整個流程通過 排程工具 串起來
排程工具需要解決:
任務依賴
周期性執行
監控,報警
日志
疊代!
更多精彩内容請關注袋鼠雲微信微網誌: