天天看點

1.資料中台-開篇

  Hi 大家好,我是大樊,一枚熱愛資料的,具有8年開發經驗的程式猿,目前就職于一家中型網際網路公司,主要負責部門内的資料倉庫建設,曆經多年時間,從0到1建設了整個部門的資料規範化流程和配套的倉庫管理工具體系,也沉澱了很多的實戰經驗,在這裡分享給大家。

  說到資料倉庫,大家一定不陌生,它的官方介紹 :是一個面向主題的、內建的、相對穩定的資料集合,用于支援管理決策目的而建立的,我們在生産環境中一般會将資料導入到數倉,然後進行我們的業務資料流程的研發,最後輸出最終資料來指導我們的企業決策,幫助企業進行營運。

  那再說說我們進行資料倉庫建設的背景,我們為什麼要進行資料倉庫的建設?當時企業内的資料倉庫有哪些核心的痛點呢?總結起來有以下幾個方面:

  1.資料缺乏規範性,資料不統一和重複建設的現象嚴重

       由于缺乏規範化定義與強制措施,導緻資料表多,資料重複建設現象非常嚴重:當時的情況是:各個業務線可以自主随意建立表,且各個業務線之間資訊孤立,互相都不知道對方建立了什麼表,内部開發人員按照自己的認知對已經存在的表由底層開始建立(即煙囪式開發),這樣導緻各個資料流程孤立,整個資料體系臃腫龐大;

 2.資料名額膨脹和口徑定義模糊

    倉庫需要承接大量的來自于不同需求方的資料統計需求,由于缺乏資料名額規範,很容易導緻資料名額膨脹和定義口徑模糊,給資料使用方在使用資料時帶來歧義和混亂;

  3.資料字典和資料地圖不完整(中繼資料覆寫率低達1.3%)

       由于規範缺乏強制措施,同時資料進入資料倉庫的方式也多種多樣,開發人員建立表時候無注釋等等,導緻資料字典不完整;

  4.資料定位困難,研發效能低下

       由于前述2種原因,導緻業務線研發人員在資料研發時不容易快速定位到所需要的資料,開發資料流程總是從底層向上建設,導緻研發效能的低下;

  5.缺乏系統化工具體系來提效

      研發人員在進行資料開發時,不僅需要熟悉業務知識,還需要熟悉資料開發流程所涉及到的底層技術細節,這些都給研發過程帶來了較高的成本和門檻,不利于快速有效的支援資料化營運。

基于以上的痛點,并且進行了大量調研,确立了我們的目标:

在部門原有資料倉庫的基礎上進行更新,來提升數庫治理能力,保障資料口徑的規範和統一,建設資料全面(全),資料規範統一(統),資料打通(通)的商業資料倉庫:

1.資料全面:将資料入口統一管理,控制資料源頭,覆寫所有分析主題。 

2.資料規範:強制實施資料規範,解決資料不規範帶來的一系列問題。

3.資料融通:通過寬表和公共資料表實作資料的共享和打通,最大限度減少資料重複建設。

4.高效賦能:通過工具和平台固化和強制規範,為資料研發和資料的擷取查詢提供更好的功能和性能支撐,高效賦能業務;

   本專欄提供了從痛點通往目标的橋梁,是經過了完整驗證的企業級可落地執行方案,若你是一名企業資料管理者,存在和我司類似的痛點,想要達到相同的目标,卻又不知道如何下手,相信我的專欄可以幫助你有效建立高效開發規範化的資料體系,最終達到資料快速賦能業務,讓資料快速指導業務決策,幫助業務發展的終極目标。

   資料倉庫的規範化建設是非常複雜的體系,涉及到管理組織體系,資料定義體系,資料開發流程體系和支撐整個體系從方法到實施的工具體系,在本專欄中,我将内容統一切分為兩個篇章進行闡述:1.資料規範化建設,2.工具體系建設;事實上在我司進行規範化資料倉庫建設落地過程中,也是分為這兩個子項目并行去實作的,所有的上層業務資料建設均依賴于底層第1篇的資料規範化建設和第2篇的工具體系建設,在1,2步完成後便能規範化進行上層的業務資料建設,輸出到各個資料應用中去;在每個子章節中,我會結合理論和實踐一起進行說明,便于大家的了解:

1.資料中台-開篇

   在資料規範化方面,我會結合具體痛點分析,給出具體方案,從管理組織規範,資料定義規範,資料模組化規範,研發流程規範,以及規範推進多個方面闡述,結合一些方法來保障建立的規範化會一直持續,而不會因為時間的推進導緻規範化失效;

  在工具體系建設方面,旨在對資料的規範化進行管理,以及資料開發方面的提效,裡面會涉及到如血緣采集分析技術,通用BI系統建設技術等;總體分為5個大的方面:資料開發,資料管理,資料查詢,資料服務,資料輸出,我會講到各個子產品的作用以及實踐;

   通過該專欄的學習,你将會有如下收獲:

1.企業級标準化資料倉庫建設經驗;

2.規範化資料建設方法;

3.可落地的工具化技術體系;

 這些實踐經驗的沉澱,是我們資料組同僚共同努力的結果,經過大量行業調研,結合我們自身部門業務特點,所形成的具有通用性的解決方案,希望能幫助到大家。最後,有什麼問題,歡迎随時留言!~

繼續閱讀