天天看點

境外銀行-數倉模組化方法簡要總結

背景:

因近期境外銀行業務全面提速,各種業務項目、建站項目并行推進,資料團隊資料資産建設的需求也接踵而至,但我們一直跟随業務快速開發疊代,資料資産特别是中間層資産缺少統一的方法指導,造成各個項目負責同學被動建設,資料資産無法體系化,為後續使用和維護上帶來很多困難,是以本次先從數倉模組化方法方面為大家進行簡單的總結介紹,希望幫助大家形成相對統一的數倉模組化方法論。

常見的兩種數倉模組化理論:

【次元模組化】

次元模組化以資料分析需求為驅動,倡導總線架構:一緻的事實和一緻的次元,這種資料模型易于使用者了解和資料分析操作;但是這種模組化方法缺點很明顯,随着業務複雜度的增加以及分析的不斷深入,複雜的次元需求導緻資料體系混亂,增大了使用和維護的成本;強制一緻的次元也會造成資訊上的丢失,更容易造成資料口徑問題;

是以次元模組化比較适合的是資料統計名額的計算場景,适合聚合統計名額而不是聚合屬性資訊。

【實體關系模組化】

實體關系模組化以源系統資料為驅動,整合企業的所有資料,站在企業級的高度對資料進行抽象,整合,采用3NF的實體關系理論模組化,這種資料模組化方式以更為抽象的方式嘗試建立一個相對穩定的資料模型,并能描述企業級的資料關系。

實體關系模型是業務系統資料模組化經常采用的方法,是以數倉層面往往是采用基于主題域的實體關系模組化方法,也是目前大多數數倉模型設計的基礎,大家會在不同的數倉層次上基于實體對象進行模型的設計;

需要注意的是,業務系統往往從對象抽象層次對資料模型進行發散,形成了星型的或者雪花型的網絡結構,如果數倉基于這種結構設計,資訊會太過于分散,加工的鍊路太長,關系複雜度比較高,缺少了易用性。

各個層次适用的模組化方法:

數倉分層 分層目标 模組化方法
ODS貼源層 保留原始業務模型資訊,友善了解業務資料,快速支援基于業務口徑的資訊擷取 貼源鏡像模組化
DWD公共中間層 基于主題域的實體資訊整合,解決業務系統模型對象資訊過于發散的問題,統一底層業務資訊處理邏輯和口徑

主題域實體關系模組化

從易用性角度簡化主題域劃分

從粒度上整合實體對象資訊,保持主幹清晰,進行縱向表劃分

按資訊的重要程度,以衍生擴充的方式,進行橫向表劃分

保持主體結構穩定

DWD業務中間層 基于業務分類的過程資訊整合,解決業務過程資訊在業務系統中的分散存儲問題,統一進行業務鍊路資料關聯整合

實體次元融合模組化

對業務過程進行層次劃分整合,備援實體關鍵資訊及前後過程資訊

保持業務層次穩定

DWS統計中間層 基于分析視角的名額資訊整合,解決名額口徑不一緻和名額重複計算的問題,統一名額計算口徑和邏輯

次元模組化

從分析角度抽象原子名額

保留次元分析的最小粒度

ADM應用層 基于應用需求的資料整合,滿足不同人群、不同目的、不同系統的資料使用要求,靈活進行資料和資訊的組裝 從需求角度整合次元和名額資料

後期的疊代優化:

【一句老話:跑步前進,快速休整】

在目前資料計算與存儲成本越來越小的情況下,數倉資料資産的完整性和易用性就成為最核心的關注點;前期的模型設計主要用于架構的搭建,解決一些核心的資訊整合問題,更多考慮的是易用性,在後續過程中進行快速疊代,達到提升完整性的目的;

【保持中間層相關主體的結構穩定和業務層次的穩定】

關于疊代優化,在快速傳遞過程中,肯定會出現各種完整性問題導緻的重複開發,這就需要維護人員進行定期的疊代優化,如何降低疊代優化的成本,需要的是保持中間層相關主體的結構穩定和業務層次的穩定性,是以大家要統一模組化思想和目标,在實際工作開發過程中,減少對數倉模型穩定性的影響,降低疊代優化成本,進而保證數倉資料資産建設的品質和效率。