天天看點

資料模組化-名詞解釋篇前言一、數倉術語二、命名規範總結

文章目錄

  • 前言
  • 一、數倉術語
    •   1.名額
    •   2.資料域
    •   3.業務過程
    •   4.業務限定
  • 二、命名規範
    •   1.名額命名規範
    •   2.資料模型命名規範
    • 3.任務命名規範
  • 總結

前言

本文通過阿裡的大資料開發治理平台 DataWorks,結合其中的資料模組化理論向大家簡單介紹一下名額體系建構過程的名詞概述及命名規範。

一、數倉術語

  1.名額

名額:對業務過程進行數值化的描述;

原子名額:基于業務過程的路徑成本(可衡量的數值),不可以再進行拆分的名額;

派生名額:對原子名額進行業務統計範圍的圈定(原子名額+修飾詞+統計周期);

事務性名額:指對業務活動進行衡量的名額;

存量型名額:指對實體對象某些狀态的統計,對應的時間周期一般為"曆史截止目前某個時間";

複合型名額:在事務性名額和存量型名額的基礎上複合而成。

  2.資料域

将業務過程或次元進行抽象的集合;

資料域是聯系較為緊密的資料主題的集合,是業務對象高度概括的概念層次歸類,目的是便于資料的管理和應用。

  3.業務過程

業務過程是組織執行的經營活動,例如接受訂單、處理保險索賠、注冊學員上課或每月對每個帳戶進行快照。

業務過程事件生成或收集度量,這些度量轉化為事實表中的事實。大多數事實表關注單個業務過程的結果。

選擇過程是很重要的,因為它定義了一個特定的設計目标,并允許聲明粒度、次元和事實。每個業務過程對應于企業資料倉庫總線矩陣中的一行。

業務過程是一個不可拆分的行為事件,業務過程就是企業活動中的時間。

  4.業務限定

統計的業務範圍,用于篩選出符合業務規則的記錄(類似于SQL中where後的條件,不包括時間區間)。

原子名額是計算邏輯的标準化定義,業務限定則是條件限制的标準化定義。

除了統計

二、命名規範

  1.名額命名規範

規則:名額命名使用英文簡寫,其次是英文,當名額英文名太長時,可考慮漢語拼音首字母(中國制造zgzc);

業務過程:用英文活英文縮寫或者中文拼音簡寫;

原子名額:英文名稱:動作+度量, 中文名:動作+度量 eg:總人資料(person_num);

時間修飾詞;

派生名額:英文名:原子名額英文+時間周期+其他修飾詞 中文名:時間周期+其他修飾詞+原子名額英文

eg:enter_duration_td/hidden_num_td/hidden_num_td_thanA

  2.資料模型命名規範

(1)命名選項

    1.{}表示變量 2.[]表示可選填 3.|表示或 4./表示且

(2)同步政策

    1.增量(i) 2.全量(f) 3.追加(a) 4.拉鍊|緩慢變化(z)

(3)資料模型

    ods:ods_[業務域_]{業務系統執行個體名}{業務系統表名}{同步政策}

    dwd:dwd_[業務域_]{資料域縮寫}{業務過程名稱}{同步政策}

    dim:dim_[業務域_]{資料域縮寫}{實體名稱}{模型自定義名稱(basic_info)}

    dws:dws_[業務域_]{資料域縮寫}{粒度}{分析主題名稱}{同步政策}

    ads:ads[業務域_]{分析域縮寫}{分析主題名稱}[同步政策]

3.任務命名規範

資料內建:imp_tablename

資料開發:tablename

資料導出:exp_tablename

資料服務:/業務域/tablename

主資料實施主要包含主資料分析、主資料模組化、主資料清洗、主資料應用、主資料歸檔五個部分,通過對主資料全生命周期的管理最終達到對主資料擷取、管理、應用、歸檔的目的。

1、主資料分析:識别主資料、明确主資料的需求、确定主資料範圍、确定主資料的源頭及資料抽取互動方式。

2、主資料模組化:主資料模型規劃、主資料模型設計、主資料模型釋出等。

3、主資料清洗:對源頭方抽取到的主資料進行同步清洗轉換的過程。

4、主資料應用:各使用方根據自身的需求對主資料發起使用申請、由主資料管理者主導組織審批、然後經由主資料管理系統分發服務等過程。

5、主資料歸檔:對主資料的模型、主資料的資料等進行版本控制、版本追溯的過程。

總結

這裡是結合阿裡的資料模組化理論進行描述,可以給我們在資料模組化過程中提供參考。如有描述不當或侵犯版權之處煩請指正。

繼續閱讀