1.描述
Dremio的資料反射是基于Apache Parquet和Apache Arrow的高性能柱狀資料結構,用來維護源資料的實體優化,可直覺了解為關系資料庫中的索引;Data Reflections使用列化,壓縮,排序,分區和聚合資料等技術,組織和優化Dremio查詢執行引擎的資料;是以的反射資料都存在于Dremio的Reflection Store中,及如下配置項:
## 可配置本地或HDFS等遠端存儲
paths: {
# the local path for dremio to store data.
local: ${DREMIO_HOME}"/data"
# the distributed path Dremio data including job results, downloads, uploads, etc
#dist: "pdfs://"${paths.local}"/pdfs"
}
2.資料反射的類型
a).Raw reflections(原始反射)
原始反射包括Raw資料集中的一個或多個字段,按特定字段排序,分區和分布
b).Aggregation reflections(聚合反射)
聚合反射包括Raw資料集中的一個或多個次元和度量字段,按指定字段排序,分區和分布
c).External reflections(外部反射)
外部反射是一種非托管反射,允許使用者利用外部系統中内置的現有資料集和彙總表作為Dremio中的反射
3.建立資料反射
a).選擇資料源

b).配置反射
c).反射執行任務
任務概括
任務執行明細
任務資源
4.驗證反射
a).反射前聚合查詢
b).反射後聚合查詢
c).資料反射結果
資料反射可以明細提高聚合查詢的響應時間,但同時配置了資料反射會增加反射資料的磁盤占用;這也是一種以空間換時間的業務理念。