天天看點

次元模組化基礎之規範定義

文章目錄

  • ​​前言​​
  • ​​規範定義的定義​​
  • ​​資料域​​
  • ​​業務過程​​
  • ​​時間周期​​
  • ​​原子名額​​
  • ​​次元​​
  • ​​派生名額​​
  • ​​總結​​
  • ​​總結​​

前言

最近在做一些關于資料倉庫的一些工作,我還是個初學者,一些基礎概念還分不清楚,這些概念了解不清楚,後面學習次元模組化方面的知識就會很吃力。是以就打算寫這篇文章來記錄下自己的學習,下面就開始了哈,一些定義參考了阿裡巴巴大資料實踐之路。

規範定義的定義

規範定義是指以次元模組化作為理論基礎,建構總線矩陣,劃分和定義資料域、業務過程、次元、度量/原子名額、修飾類型、修飾詞、時間周期、派生名額。具體的圖可以參考下面的圖,圖來自阿裡的書。

次元模組化基礎之規範定義

在開始之前,先給大家放一張原圖吧。後面是一些我的了解加上原圖的定義

次元模組化基礎之規範定義

資料域

指面向業務分析,将業務過程或者次元進行抽象的集合。業務過程可以概括為一個個不可拆分的過程,比如下單、支付、退款。資料域需要抽象提煉,并且長期維護和更新。在劃分新資料域時,既能涵蓋目前所有的業務需求,又能在新業務進入時無影響地包含進已有的資料域中或者擴充出新的資料域。

資料域劃分是非常重要的一部分。

次元模組化基礎之規範定義

業務過程

通過上面這個圖,相信你已經對業務過程有一個比較清晰的認識了。通俗點講,業務過程就是一個事件嘛,比如你在淘寶上下個單,會有下單、支付、退款等,這些都是業務過程。

時間周期

可以明确用來進行資料統計的時間範圍或者時間點,比如最近一周,最近30天,這些在進行産生派生名額比較重要

原子名額

原子名額和度量含義是相同的,在某一些業務上行為的度量,在業務定義中不可再拆分的名額,比如支付金額,這是不可再分的。了解好原子名額後面了解派生名額就不難了。

次元

次元是度量的環境,可以反映業務的某一類屬性,這類屬性的集合屬于一個次元,次元也屬于一個資料域(這個如果有細心看第一張圖的規範定義會發現)。一般次元會包括地理次元,時間次元等等,次元一般和who, what, where, when, why, how相關

派生名額

一般由原子名額+多個修飾詞+時間周期組成。一般對原子名額業務統計範圍的圈定。比如這一天的廣東買家成交額,這個就是派生名額。

派生名額一般分成三類:事務型名額、存量型名額和複合型名額。

事務型名額:是指對業務活動進行衡量的名額。比如新發商品數量。

存量型名額:是對實體對象某些狀态的統計。比如商品總數,注冊會員總數。這類名額需要維護原子名額及修飾詞。

複合型名額:是指對事務型名額和存量型名額的基礎上進行複合而成的。例如浏覽UV-下單買家數轉化率,可能有些還會建立一些原子名額。

總結

就小寫一些筆記,加深下自己的了解,打好良好的基礎,一步步來。

還會建立一些原子名額。

總結

繼續閱讀