天天看點

資料倉庫架構分層1 資料倉庫架構

1 資料倉庫架構

資料倉庫标準上可以分為四層:ODS(臨時存儲層)、PDW(資料倉庫層)、DM(數 據集市層)、APP(應用層)。

資料倉庫架構分層1 資料倉庫架構

1)ODS 層: 為臨時存儲層,是接口資料的臨時存儲區域,為後一步的資料處理做準備。一般來說 ODS 層的資料和源系統的資料是同構的,主要目的是簡化後續資料加工處理的工作。從資料粒度上來說 ODS 層的資料粒度是最細的。ODS 層的表通常包括兩類,一個用于存儲目前 需要加載的資料,一個用于存儲處理完後的曆史資料。曆史資料一般儲存 3-6 個月後需要清 除,以節省空間。但不同的項目要差別對待,如果源系統的資料量不大,可以保留更長的時間,甚至全量儲存;

2)PDW 層: 為資料倉庫層,PDW 層的資料應該是一緻的、準确的、幹淨的資料,即對源系統資料 進行了清洗(去除了雜質)後的資料。這一層的資料一般是遵循資料庫第三範式的,其資料 粒度通常和 ODS 的粒度相同。在 PDW 層會儲存 BI 系統中所有的曆史資料,例如儲存 10 年的資料。

3)DM 層: 為資料集市層,這層資料是面向主題來組織資料的,通常是星形或雪花結構的資料。從 資料粒度來說,這層的資料是輕度彙總級的資料,已經不存在明細資料了。從資料的時間跨 度來說,通常是 PDW 層的一部分,主要的目的是為了滿足使用者分析的需求,而從分析的角度來說,使用者通常隻需要分析近幾年(如近三年的資料)的即可。從資料的廣度來說,仍然 覆寫了所有業務資料。

4)APP 層: 為應用層,這層資料是完全為了滿足具體的分析需求而建構的資料,也是星形或雪花結 構的資料。從資料粒度來說是高度彙總的資料。從資料的廣度來說,則并不一定會覆寫所有 業務資料,而是 DM 層資料的一個真子集,從某種意義上來說是 DM 層資料的一個重複。 從極端情況來說,可以為每一張報表在 APP 層建構一個模型來支援,達到以空間換時間的 目的資料倉庫的标準分層隻是一個建議性質的标準,實際實施時需要根據實際情況确定資料 倉庫的分層,不同類型的資料也可能采取不同的分層方法。

2 為什麼要對資料倉庫分層?

1)用空間換時間,通過大量的預處理來提升應用系統的使用者體驗(效率),是以資料 倉庫會存在大量備援的資料。

2)如果不分層的話,如果源業務系統的業務規則發生變化将會影響整個資料清洗過程, 工作量巨大。

3)通過資料分層管理可以簡化資料清洗的過程,因為把原來一步的工作分到了多個步 驟去完成,相當于把一個複雜的工作拆成了多個簡單的工作,把一個大的黑盒變成了一個白 盒,每一層的處理邏輯都相對簡單和容易了解,這樣我們比較容易保證每一個步驟的正确性, 當資料發生錯誤的時候,往往我們隻需要局部調整某個步驟即可。

繼續閱讀