Apache Kylin 概覽
Apache Kylin 是一個開源的分布式分析引擎,提供Hadoop/Spark之上的SQL查詢接口及多元分析(OLAP)能力以支援超大規模資料,最初由eBay Inc. 開發并貢獻至開源社群。它能在亞秒内查詢巨大的Hive表。
Kylin是什麼?
- 可擴充超快OLAP引擎:
Kylin是為減少在Hadoop/Spark上百億規模資料查詢延遲而設計
- Hadoop ANSI SQL 接口:
Kylin為Hadoop提供标準SQL支援大部分查詢功能
- 互動式查詢能力:
通過Kylin,使用者可以與Hadoop資料進行亞秒級互動,在同樣的資料集上提供比Hive更好的性能
- 多元立方體(MOLAP Cube):
使用者能夠在Kylin裡為百億以上資料集定義資料模型并建構立方體
- 與BI工具無縫整合:
Kylin提供與BI工具的整合能力,如Tableau,PowerBI/Excel,MSTR,QlikSense,Hue和SuperSet
- 其他特性:
- Job管理與監控
- 壓縮與編碼
- 增量更新
- 利用HBase Coprocessor
- 基于HyperLogLog的Dinstinc Count近似算法
- 友好的web界面以管理,監控和使用立方體
- 項目及表級别的通路控制安全
- 支援LDAP、SSO
Kylin 生态圈
Kylin 核心: Kylin OLAP引擎基礎架構,包括中繼資料(Metadata)引擎,查詢引擎,Job引擎及存儲引擎等,同時包括REST伺服器以響應用戶端請求
擴充: 支援額外功能和特性的插件
整合: 與排程系統,ETL,監控等生命周期管理系統的整合
使用者界面: 在Kylin核心之上擴充的第三方使用者界面
驅動: ODBC 和 JDBC 驅動以支援不同的工具和産品,比如Tableau