天天看點

資料倉庫系列之總線架構

      總線架構是資料倉庫建設的總體規劃,從整體視角描述了解決方案的次元模型,描述了各個子系統的功能以及關系,描述資料從源系統到決策系統的資料流程,提供建立企業資料倉庫系統的增量式方法。業務需求回答了要做什麼,總線架構就是回答怎麼做的問題。

一、整體解決方案架構:

      資料倉庫的核心功能從源系統抽取資料,通過清洗、轉換、标準化,将資料加載到BI平台,進而滿足業務使用者的資料分析和決策支援。資料倉庫整體解決方案架構包含三個部分:源資料、 資料倉庫、資料應用。

資料倉庫系列之總線架構

二、資料倉庫分層架構:

  資料倉庫的資料來源于不同的源資料,并提供多樣的資料應用,資料自下而上流入資料倉庫後向上層開放應用,而資料倉庫可以是資料中心管控平台。

資料倉庫系列之總線架構

   源資料層(ODS):此層資料無任何更改,直接沿用外圍系統資料結構和資料,不對外開放;為臨時存儲層,是接口資料的臨時存儲區域,為後一步的資料處理做準備,一般隻會進行資料篩選和異常處理。

  資料轉換層(DSA):資料加工區域,主要涉及資料的轉換資料,清洗資料,過濾資料等操作。

  資料倉庫層(EDW):DW 層的資料應該是一緻的、準确的、幹淨的資料,即對源系統資料進行了清洗(去除了雜質)後的資料。

  資料應用層(DA 或 APP):前端應用直接讀取的資料倉庫;根據報表、專題分析需求而計算生成的資料,資料倉庫是資料處理的背景,業務使用者并不關心背景怎麼處理。資料應用是資料呈現的前台,是業務使用者進行查詢的入口。BI應用程式的體驗也是衡量資料倉庫是否成功的主要因素。好的資料倉庫搭建平台可以通過資料倉庫将資料發送到前端進行分析資料。

​    資料倉庫從各資料源擷取資料及在資料倉庫内的資料轉換和流動都可以認為是 ETL的過程,ETL 是資料倉庫的流水線,也可以認為是資料倉庫的血液,它維系着資料倉庫中資料的新陳代謝,而資料倉庫日常的管理和維護工作的大部分精力就是保持 ETL 的正常和穩定。

三、為什麼要對資料倉庫架構進行分層?

  資料倉庫的分層是在利用空間換時間,通過大量的預處理來提升應用系統的使用者體驗(效率),是以資料倉庫會存在大量備援的資料;不分層的話,如果源業務系統的業務規則發生變化将會影響整個資料清洗過程,工作量巨大。通過資料分層管理可以簡化資料清洗的過程,因為把原來一步的工作分到了多個步驟去完成,相當于把一個複雜的工作拆成了多個簡單的工作,将資料倉庫分層後更加友善處理每一層,這樣每一層的處理邏輯都相對簡單和容易了解,我們也比較容易保證每一個步驟的正确性,當資料發生錯誤的時候,往往我們隻需要局部調整某個步驟即可。當然分層也要适當,如果項目較小完全可以直接使用兩層架構來完成工作就沒有必要搭建三層架構。

四、架構的特點:

  1、易用性,資料倉庫的目的是決策支援系統(Decision Support System ,簡稱DSS),既然面向的的是分析使用者,那麼資料越容易了解,越能受使用者歡迎,而次元模組化包含具有描述特性的次元表可以讓使用者很容易了解資料,而不像範式模組化,由于太過規範化而導緻使用者對資料的了解有一定的難度,需要對業務的很深很細的了解。

  2、性能高,通過資料的處理,排序和整合,建構出來的次元表,不僅能夠讓使用者很友善的了解資料,使用資料,而且在計算所需要的資料的時候,不需要關聯太多的表,進而使得計算的性能很高。

  3、擴充性,具有非常好的可擴充性,以便容納不可預知的新資料源和新的設計決策。可以很友善在不改變模型粒度情況下,增加新的分析次元和事實,不需要重載資料,也不需要為了适應新的改變而重新編碼。

五、總結

資料倉庫系列之總線架構

       通過使用次元模組化,使用者可以得到很好的效果,隻有使用者滿意了,資料倉庫才能實作更大的價值。可以說次元模組化的核心是星型模型,星型模型所擁有的特點正是使用者友善使用的根源。次元模型也有缺點,比如資料一緻性很難保證,資料備援,次元資訊處理等,但這些相對于它的優點來講都是可接受的,而且也可以通過其他方式避免和簡化的。如果以維表為總線,事實表以維表為基礎的總線矩陣,建設出來的架構正是總線式架構。

       本文中如有錯誤或誤導的地方歡迎大家指出糾正。 希望這篇文章能夠給大家帶來幫助,最後感謝大家的閱讀。歡迎大家一起加入高效資料處理ETL交流群,一起讨論資料分析ETL過程的問題,一起學習一起成長。下一篇我們開始來了解中繼資料管理。

 掃碼加群:

資料倉庫系列之總線架構

小黎子,一個專注于資料分析整體資料倉庫解決方案的程式猿!

作 者:黃昏前黎明後

出 處:http://www.cnblogs.com/fly-bird/

歡迎關注個人公衆号:小黎子資料分析,轉載文章請務必注明出處。

繼續閱讀