天天看点

Apache Kylin权威指南3.2 设计增量Cube

<b>3.2 设计增量cube</b>

<b></b>

3.2.1 设计增量cube的前提

并非所有的cube都适用于增量构建,cube的定义必须包含一个时间维度,用来分割不同的segment,我们将这样的维度称为分割时间列(partition date column)。尽管由于历史原因该命名中存在“date”的字样,但是分割时间列既可以是hive中的date类型、也可以是timestamp类型或string类型。无论是哪种类型,kylin都要求用户显式地指定分割时间列的数据格式,例如精确到年月日的date类型(或者string类型)的数据格式可能是yyyymmdd或yyyy-mm-dd,如果是精确到时分秒的timestamp类型(或者string类型),那么数据格式可能是yyyy-mm-dd hh:mm:ss。

在一些场景中,时间由长整数unix time来表示,由于对该类型的支持存在争议(详情可参见https://issues.apache.org/jira/browse/kylin-1698),因此在目前的版本中并不支持使用长整数类型作为分割时间列。作为一种变通的方法,可以在etl过程中克服这个问题。具体来说,就是在hive中为包含长整数时间列的表创建一个视图,将长整数时间列转化为符合kylin规范的任意类型,在后续的cube设计中,应使用该视图而不是原始的表。

满足了设计增量cube的前提之后,在进行增量构建时,将增量部分的起始时间和结束时间作为增量构建请求的一部分提交给kylin的任务引擎,任务引擎会根据起始时间和结束时间从hive中抽取相应时间的数据,并对这部分数据做预计算处理,然后将预计算的结果封装成为一个新的segment,并将相应的信息保存到元数据和存储引擎中。一般来说,增量部分的起始时间等于cube中最后一个segment的结束时间。

3.2.2 增量cube的创建

创建增量cube的过程和创建普通cube的过程基本类似,只是增量cube会有一些额外的配置要求。

1.?model层面的设置

每个cube背后都关联着一个model,cube之于model就好像java中的object之于class。如同3.2.1节中所描述的,增量构建的cube需要指定分割时间列。同一个model下不同分割时间列的定义应该是相同的,因此我们将分割时间列的定义放到了model之中。model的创建和修改在第2章中已经介绍过,这里将跳过重复的部分,直接进入model designer的最后一步settings来添加分割时间列,如图3-1所示。

图3-1 定义分割时间列

目前分割时间列必须是事实表上的列,且它的格式必须满足3.2.1节中所描述的要求。一般来说如果年月日已经足够帮助分割不同的segment,那么在大部分情况下日期列是分割时间列的首选。当用户需要更细的分割粒度时,例如用户需要每6小时增量构建一个新的segment,那么对于这种情况,则需要挑选包含年月日时分秒的列作为分割时间列。

在一些用户场景中,年月日和时分秒并不体现在同一个列上,例如在用户的事实表上有两个列,分别是“日期”和“时间”,分别保存记录发生的日期(年月日)和时间(时分秒),对于这样的场景,允许用户指定一个额外的分割时间列来指定除了年月日之外的时分秒信息。为了区分,我们将之前的分割时间列称为常规分割时间列,将这个额外的列称为补充分割时间列。在勾选了“has a separate "time of the day" column?”选项之后(如图3-2所示),用户可以选择一个符合时分秒时间格式的列作为补充的分割时间列。由于日期的信息已经体现在了常规的分割时间列之上,因此补充的分割时间列中不应该再具有日期的信息。反过来说,如果这个列中既包含年月日信息,又包含时分秒信息,那么用户应该将它指定为格式是yyyy-mm-dd hh:mm:ss的常规分割时间列,而不需要勾选“has a separate "time of the day"column?”。在大部分场景下用户可以跳过补充分割时间列。

2.?cube层面的设置

cube的创建和修改在第2章中已经做过介绍,这里将跳过重复的部分,直接进入cube designer的“refresh settings”。这里的设置目前包含“auto merge thresholds”、“retention threshold”和“partition start date”。“partition start date”是指cube默认的第一个segment的起始时间。同一个model下不同的cube可以指定不同的起始时间,因此该设置项出现在cube designer之中。“auto merge thresholds”用于指定segment自动合并的阈值,而“retention threshold”则用于指定将过期的segment自动抛弃。3.4节将详细介绍这两个功能。