实时数仓基于一定的数据仓库理念,对数据处理流程进行规划、分层,目的是提高数据的复用性。
实时数仓的分层:
ODS(Kafka):原始数据,日志和业务数据。
DWD(Kafka):根据数据对象为单位进行分流,比如订单、页面访问等等。
DIM(HBase、Redis、MySQL):维度数据。
DWM(Kafka):对于部分数据对象进行进一步加工,比如独立访问、跳出行为,也可以和维度进行关联,形成宽表,依旧是明细数据。
DWS(Doris、ClickHouse、HBase):根据某个主题将多个事实数据轻度聚合,形成主题宽表。
ADS:把Doris、Clickhouse中的数据根据可视化需要进行筛选聚合。
Apache Doris 是一个基于MPP 架构的高性能、实时的分析型数据库,来自国内的顶级开源项目。