天天看点

维度建模基础之规范定义

文章目录

  • ​​前言​​
  • ​​规范定义的定义​​
  • ​​数据域​​
  • ​​业务过程​​
  • ​​时间周期​​
  • ​​原子指标​​
  • ​​维度​​
  • ​​派生指标​​
  • ​​总结​​
  • ​​总结​​

前言

最近在做一些关于数据仓库的一些工作,我还是个初学者,一些基础概念还分不清楚,这些概念理解不清楚,后面学习维度建模方面的知识就会很吃力。所以就打算写这篇文章来记录下自己的学习,下面就开始了哈,一些定义参考了阿里巴巴大数据实践之路。

规范定义的定义

规范定义是指以维度建模作为理论基础,构建总线矩阵,划分和定义数据域、业务过程、维度、度量/原子指标、修饰类型、修饰词、时间周期、派生指标。具体的图可以参考下面的图,图来自阿里的书。

维度建模基础之规范定义

在开始之前,先给大家放一张原图吧。后面是一些我的理解加上原图的定义

维度建模基础之规范定义

数据域

指面向业务分析,将业务过程或者维度进行抽象的集合。业务过程可以概括为一个个不可拆分的过程,比如下单、支付、退款。数据域需要抽象提炼,并且长期维护和更新。在划分新数据域时,既能涵盖当前所有的业务需求,又能在新业务进入时无影响地包含进已有的数据域中或者扩展出新的数据域。

数据域划分是非常重要的一部分。

维度建模基础之规范定义

业务过程

通过上面这个图,相信你已经对业务过程有一个比较清晰的认识了。通俗点讲,业务过程就是一个事件嘛,比如你在淘宝上下个单,会有下单、支付、退款等,这些都是业务过程。

时间周期

可以明确用来进行数据统计的时间范围或者时间点,比如最近一周,最近30天,这些在进行产生派生指标比较重要

原子指标

原子指标和度量含义是相同的,在某一些业务上行为的度量,在业务定义中不可再拆分的指标,比如支付金额,这是不可再分的。理解好原子指标后面理解派生指标就不难了。

维度

维度是度量的环境,可以反映业务的某一类属性,这类属性的集合属于一个维度,维度也属于一个数据域(这个如果有细心看第一张图的规范定义会发现)。一般维度会包括地理维度,时间维度等等,维度一般和who, what, where, when, why, how相关

派生指标

一般由原子指标+多个修饰词+时间周期组成。一般对原子指标业务统计范围的圈定。比如这一天的广东买家成交额,这个就是派生指标。

派生指标一般分成三类:事务型指标、存量型指标和复合型指标。

事务型指标:是指对业务活动进行衡量的指标。比如新发商品数量。

存量型指标:是对实体对象某些状态的统计。比如商品总数,注册会员总数。这类指标需要维护原子指标及修饰词。

复合型指标:是指对事务型指标和存量型指标的基础上进行复合而成的。例如浏览UV-下单买家数转化率,可能有些还会创建一些原子指标。

总结

就小写一些笔记,加深下自己的理解,打好良好的基础,一步步来。

还会创建一些原子指标。

总结

继续阅读