天天看點

Dremio使用資料反射提高查詢響應

1.描述

Dremio的資料反射是基于Apache Parquet和Apache Arrow的高性能柱狀資料結構,用來維護源資料的實體優化,可直覺了解為關系資料庫中的索引;Data Reflections使用列化,壓縮,排序,分區和聚合資料等技術,組織和優化Dremio查詢執行引擎的資料;是以的反射資料都存在于Dremio的Reflection Store中,及如下配置項:

## 可配置本地或HDFS等遠端存儲

paths: {
  # the local path for dremio to store data.
  local: ${DREMIO_HOME}"/data"

  # the distributed path Dremio data including job results, downloads, uploads, etc
  #dist: "pdfs://"${paths.local}"/pdfs"
}           

2.資料反射的類型

a).Raw reflections(原始反射)

原始反射包括Raw資料集中的一個或多個字段,按特定字段排序,分區和分布

b).Aggregation reflections(聚合反射)

聚合反射包括Raw資料集中的一個或多個次元和度量字段,按指定字段排序,分區和分布

c).External reflections(外部反射)

外部反射是一種非托管反射,允許使用者利用外部系統中内置的現有資料集和彙總表作為Dremio中的反射

3.建立資料反射

a).選擇資料源

Dremio使用資料反射提高查詢響應

b).配置反射

Dremio使用資料反射提高查詢響應

c).反射執行任務

任務概括

Dremio使用資料反射提高查詢響應

任務執行明細

Dremio使用資料反射提高查詢響應

任務資源

Dremio使用資料反射提高查詢響應

4.驗證反射

a).反射前聚合查詢

Dremio使用資料反射提高查詢響應
Dremio使用資料反射提高查詢響應

b).反射後聚合查詢

Dremio使用資料反射提高查詢響應
Dremio使用資料反射提高查詢響應

c).資料反射結果

資料反射可以明細提高聚合查詢的響應時間,但同時配置了資料反射會增加反射資料的磁盤占用;這也是一種以空間換時間的業務理念。