天天看点

Databricks推Delta Lake 3.0,开放表格式Iceberg依然最大赢家?

作者:亲爱的数据
Databricks推Delta Lake 3.0,开放表格式Iceberg依然最大赢家?

原创:亲爱的数据

2023年峰会上能够很清楚地观察到:Databricks和Snowflake均张开双臂“拥抱”了开放表格式Iceberg。

表格式(format for tables)也叫文件组织管理的格式标准。它是流经湖仓所有数据的基础。

从整体考量,说“表格式”是两大厂商战略级别的大事也不过分。

数据湖表格式是存储架构的组成部分,如果选择开放式存储架构,这个表格式的选择就非常关键。

在开源数据湖仓的市场,除了Delta Lake,还有Iceberge和Hudi这两个Apache基金组织的两个顶级项目。

Delta Lake 3.0 也就是3.0版本增加了对 Apache Iceberg 和 Apache Hudi 开放表格式的支持。

可使用通用格式(UniForm)从任一源读取存储在 Delta Lake 中的数据。此举旨在简化湖仓背后复杂的集成工作,湖仓是一种开放的混合架构,结合了数据仓库和数据湖。

湖仓市场拥挤且快速增长。虽然没有找到湖仓的具体预测,但SNS Insider Pvt Ltd.估计:

去年数据湖市场的价值刚刚超过120亿美元,预计每年增长超过21%,到2030年将达到570亿美元。Databricks表示,Delta Lake是世界上使用最广泛的湖仓存储格式,每年下载量超过10亿次。

Databricks推Delta Lake 3.0,开放表格式Iceberg依然最大赢家?

元数据不匹配(Metadata mismatch)

Iceberg 和 Hudi 是两个最受欢迎的开源湖仓开放表格选项。他们和Delta Lake使用Apache Parquet开源格式,但“它们都会生成不同的元数据。”

Databricks营销副总裁Joel Minnick说:“用户与元数据的交互方式会影响连接到这些平台的引擎中的连接器类型。我们最终可能会陷入一场格式战争,导致湖仓进展变缓。

Delta Lake 3.0 可以自动生成所有三种格式的元数据,并了解连接器使用的源。“通过为Delta Lake构建,您可以为每个平台构建,”Joel Minnick说。

存储在Delta Lake中的数据,现在可以像Iceberg或Hudi一样读取。

(Data stored in Delta Lake can now be read from as if it were Iceberg or Hudi.)

Databricks的UniForm通用格式自动生成Iceberg或Hudi所需的元数据,因此不需要在格式之间进行手动转换。

名为 Delta Kernel 的组件为桥接不同数据管理引擎的连接器提供单个稳定的应用程序接口。该公司表示,针对核心Delta库构建并实现Delta规范的连接器不需要在每个新版本或协议更改时进行更新。

Databricks说,一种名为Liquid Clustering的新布局随着数据的增长提供经济高效的数据集群,以帮助确保满足读写性能要求。

Delta Lake还支持Delta Sharing,这是一种用于安全数据交换的开放协议,该公司表示,该协议被6000多名数据消费者使用。

Databricks正在倡导Hudi和Iceberg社区采用其方法。

“客户使用所有这些不同的系统,他们正在寻找使所有这些不同系统之间的翻译更容易的方法,”Minnick说。“通过使格式实际上无关紧要,可以迅速加快湖仓的采用。

当两家行业领头羊共同选择Iceberg的时候,一个重要的时刻随之出现。

数据湖元数据文件管理的三套标准,历时大概五年的纷争,已近定论。

Iceberg可能是最后赢家。

Databricks推Delta Lake 3.0,开放表格式Iceberg依然最大赢家?

继续阅读