天天看點

Apache Iceberg了解和應用

目錄

​​引言​​

​​Iceberg官網定義​​

​​Iceberg資料結構​​

​​與其他資料湖産品對比​​

​​參考文章​​

引言

 Apache Iceberg作為一款新興的資料湖解決方案在實作上高度抽象,在存儲上能夠對接目前主流的HDFS,S3檔案系統并且支援多種檔案存儲格式,例如Parquet、ORC、AVRO。相較于Hudi、Delta與Spark的強耦合,Iceberg可以與多種計算引擎對接,目前社群已經支援Spark讀寫Iceberg、Impala/Hive查詢Iceberg。本文基于Apache Iceberg 0.10.0,介紹Iceberg檔案的組織方式以及不同檔案的存儲格式。

Iceberg官網定義

Iceberg是一個通用的表格式(資料組織格式),它可以适配Presto,Spark等引擎提供高性能的讀寫和中繼資料管理功能。

從Iceberg的定義中不難看出,這類技術它的定位是在計算引擎之下,又在存儲之上。同時,它也是一種資料存儲格式,Iceberg則稱其為"table format"。是以,這類技術可以看作介于計算引擎和資料存儲格式中間的資料組織格式,通過特定的方式将資料和中繼資料組織起來,是以稱之為資料組織格式更為合理,而Iceberg将其定義為表格式也直覺地反映出了它的定位和功能。

Apache Iceberg了解和應用

Iceberg資料結構

Apache Iceberg了解和應用

與其他資料湖産品對比

Apache Iceberg了解和應用

參考文章