天天看點

Databricks推Delta Lake 3.0,開放表格式Iceberg依然最大赢家?

作者:親愛的資料
Databricks推Delta Lake 3.0,開放表格式Iceberg依然最大赢家?

原創:親愛的資料

2023年峰會上能夠很清楚地觀察到:Databricks和Snowflake均張開雙臂“擁抱”了開放表格式Iceberg。

表格式(format for tables)也叫檔案組織管理的格式标準。它是流經湖倉所有資料的基礎。

從整體考量,說“表格式”是兩大廠商戰略級别的大事也不過分。

資料湖表格式是存儲架構的組成部分,如果選擇開放式存儲架構,這個表格式的選擇就非常關鍵。

在開源資料湖倉的市場,除了Delta Lake,還有Iceberge和Hudi這兩個Apache基金組織的兩個頂級項目。

Delta Lake 3.0 也就是3.0版本增加了對 Apache Iceberg 和 Apache Hudi 開放表格式的支援。

可使用通用格式(UniForm)從任一源讀取存儲在 Delta Lake 中的資料。此舉旨在簡化湖倉背後複雜的內建工作,湖倉是一種開放的混合架構,結合了資料倉庫和資料湖。

湖倉市場擁擠且快速增長。雖然沒有找到湖倉的具體預測,但SNS Insider Pvt Ltd.估計:

去年資料湖市場的價值剛剛超過120億美元,預計每年增長超過21%,到2030年将達到570億美元。Databricks表示,Delta Lake是世界上使用最廣泛的湖倉存儲格式,每年下載下傳量超過10億次。

Databricks推Delta Lake 3.0,開放表格式Iceberg依然最大赢家?

中繼資料不比對(Metadata mismatch)

Iceberg 和 Hudi 是兩個最受歡迎的開源湖倉開放表格選項。他們和Delta Lake使用Apache Parquet開源格式,但“它們都會生成不同的中繼資料。”

Databricks營銷副總裁Joel Minnick說:“使用者與中繼資料的互動方式會影響連接配接到這些平台的引擎中的連接配接器類型。我們最終可能會陷入一場格式戰争,導緻湖倉進展變緩。

Delta Lake 3.0 可以自動生成所有三種格式的中繼資料,并了解連接配接器使用的源。“通過為Delta Lake建構,您可以為每個平台建構,”Joel Minnick說。

存儲在Delta Lake中的資料,現在可以像Iceberg或Hudi一樣讀取。

(Data stored in Delta Lake can now be read from as if it were Iceberg or Hudi.)

Databricks的UniForm通用格式自動生成Iceberg或Hudi所需的中繼資料,是以不需要在格式之間進行手動轉換。

名為 Delta Kernel 的元件為橋接不同資料管理引擎的連接配接器提供單個穩定的應用程式接口。該公司表示,針對核心Delta庫建構并實作Delta規範的連接配接器不需要在每個新版本或協定更改時進行更新。

Databricks說,一種名為Liquid Clustering的新布局随着資料的增長提供經濟高效的資料叢集,以幫助確定滿足讀寫性能要求。

Delta Lake還支援Delta Sharing,這是一種用于安全資料交換的開放協定,該公司表示,該協定被6000多名資料消費者使用。

Databricks正在倡導Hudi和Iceberg社群采用其方法。

“客戶使用所有這些不同的系統,他們正在尋找使所有這些不同系統之間的翻譯更容易的方法,”Minnick說。“通過使格式實際上無關緊要,可以迅速加快湖倉的采用。

當兩家行業領頭羊共同選擇Iceberg的時候,一個重要的時刻随之出現。

資料湖中繼資料檔案管理的三套标準,曆時大概五年的紛争,已近定論。

Iceberg可能是最後赢家。

Databricks推Delta Lake 3.0,開放表格式Iceberg依然最大赢家?

繼續閱讀