天天看点

《构建数据湖仓》读书笔记2/18

作者:半页弹
《构建数据湖仓》读书笔记2/18

《构建数据湖仓》(Build the Data Lakehouse)作者比尔·恩门(Bill Inmon),被称为数据仓库之父,最早的数据仓库概念提出者。这本书,是比尔继Building the Data Warehouse”(《建立数据仓库》)又一力作。

本书一共十七章,我将以18篇(加上引言)读书笔记的形式,连续介绍该书的主要内容和观点,敬请关注和参与讨论。

第一章 向数据湖仓演进

一、数据架构向数据湖仓的演进涉及以下主要技术的发展。

  1. 硬件技术的发展,如穿孔纸带(Paper Taper)、打孔卡片(Punched Card)、磁带(Magnetic Tape)、磁盘存储(Disk Storage);
  2. 应用系统越来越多,应用系统从在线系统(Online Transaction System)到在线事务处理(Online Transaction Processing,OLTP)的发展;
  3. 数据方面:早期,终端用户总抱怨没有数据;现在终端用户被大量应用系统包围甚至淹没,开始抱怨找不到合适的数据。数据存在可靠性问题。同样的数据出现在多个地方,却有不同的值,如何确保决策的数据准确和可信?
  4. 获取决策正确的数据的复杂性,需要新的架构和方法

二、数据仓库(Data Warehouse,DW)

  1. 数据仓库解决了上述问题,成为一种新的体系结构化的整体解决方案。
  2. 数据仓库的分析基础设施包括:
    • 元数据(Metadata),关于数据所在位置的指引;
    • 数据模型(Data Model),对数据仓库中所管理的数据的抽象;
    • 数据血缘(Data linage)数据仓库中所获取数据的起源和转换过程;
    • 汇总(Summarization),对于在数据仓库中创建的数据的算法工作的描述;
    • KPI,关键绩效指标
    • ETL,将应用系统数据extract、Transaction和Load。
  1. 数据仓库存在的问题

(1)数据仓库存储和处理的大多数对结构化、业务交易所产生的数据,局限性日益突出;

组织内的三类数据:结构化数据、文本数据和其他非结构化数据。

《构建数据湖仓》读书笔记2/18

(2)机器学习和人工智能的兴起,算法不是简单的基于SQL对数据直接进行访问和计算。

三、数据湖(Data Lake,DL)

  1. 数据湖是组织中所有不同类型数据的集合。
  2. 数据湖存在的问题

(1)缺乏关键基础设施特性的支持,比如不支持事务处理、未实施数据质量管理和数据治理、性能不佳等;

(2)企业中的数据湖,成为“数据沼泽(data Swamp)”,数据犹如一潭死水而无法使用,并随着时间的推移而“腐烂”。

四、当前数据架构面临的挑战

  1. 双重架构(数据湖--数据仓库)之间数据转移产生高昂的成本;
  2. 对机器学习的有限支持;
  3. 缺乏开放性

五、数据湖仓(Data Lakehouse)的出现

  1. 数据湖仓架构建立在现有数据湖的基础上,解决了当前数据架构面临的主要挑战;
  2. 数据湖仓架构图(略)
  3. 数据湖仓的主要特性

(1)采用数据湖优先的方法;

(2为数据湖提供可靠性和质量保障,如事务支持、模式支持、模式约束和模式演进;

(3)增强数据治理和安全控制;

(4)优化性能;

(5)支持机器学习;

(6)提供开放性。

六、数据仓库、数据湖和数据湖仓比较。

《构建数据湖仓》读书笔记2/18

总结,数据湖仓可以在开放的环境中管理数据,整合来自企业所有部门的各种数据,并将数据湖的数据科学焦点与数据仓库的终端用户分析结合在起来,这些独特的能力为组织带来惊人的价值。

[鼓掌]如果您觉得还不错,有所帮助和启发,请点击红星,给个赞;

​​[作揖]点击关注,第一时间阅读;

​[谢谢]欢迎在下方评论区,参与讨论,告诉我们您的想法。