學習目标:
《開源大資料技術之——openLookeng》
學習與安裝部署 華為開源資料虛拟化引擎openLooKeng
學習内容:
項目背景
2020年7月1日] 華為正式宣布開源資料虛拟化引擎openLooKeng,開源社群官網(https://openlookeng.io)同步上線。openLooKeng緻力于為大資料使用者提供極簡的資料分析體驗,讓使用者像使用“資料庫”一樣使用“大資料”。
2019年11月19日,華為宣布開源資料虛拟化引擎HetuEngine(開源版本的HetuEngine叫openHetu),當日,openHetu正式更名為openLooKeng,HetuEngine更名為LooKengEngine。openLooKeng是一款開源的高性能資料虛拟化引擎。提供統一SQL接口,具備跨資料源/資料中心分析能力以及面向互動式、批、流等融合查詢場景。同時增強了前置排程、跨源索引、動态過濾、跨源協同、水準拓展等能力。
随着大資料技術的應用和發展,資料種類越來越多,資料分布越來越廣,查詢場景也越來越複雜,這使得大資料使用更加困難。為了改善大資料的易用性,華為發起資料虛拟化引擎openLooKeng開源項目,旨在解決上述問題:
1)**統一SQL接口通路多種資料源
2)免資料搬遷,在資料所在地對資料進行處理,并且支援跨資料中心、跨雲處理
面向互動式、批、流等融合查詢的場景(第一個版本支援互動式查詢場景**)
3)此外,該項目還提供了Coordinator AA高可靠、可擴充的資料源connector架構等能力,讓使用者及大資料解決方案夥伴更友善的使用openLooKeng。
openLooKeng使用了業界著名的開源SQL引擎Presto來提供互動式查詢分析基礎能力,并繼續在融合場景查詢、跨資料中心/雲、資料源擴充、性能、可靠性、安全性等方面發展,讓資料治理、使用更簡單。
openLookeng社群首頁: https://openlookeng.io
openLookeng代碼托管位址:
https://gitee.com/openlookeng
https://github.com/openlookeng
項目内容
為實作跨域和跨資料中心的聯合分析查詢加速,需要一種具備高魯棒性和高容錯性的解決方案
大緻方案:
1.跨資料源查詢:JDBC 對接MySql,PostgreSQL,TBase、HIve、SparkSQL、H2、HBase、ES
2.SQL算子下推:常用SQL操作下推到資料源執行,如Project,Filter,Aggregrate、Join、Sort、Union、Intersect、Except、Except、Limit、Offset
3.SQL引擎CBO優化(Cost-Based Optimization,基于代價優化)
4.跨資料中心CBO優化
5.最優計算引擎(與計算解耦,将SQL優化、計算下推到不同的計算引擎)
可考慮對接不同類型的分布式計算引擎sparksql,Hive,Flink,Presto為每個SQL挑選最優執行引擎
6.網絡傳輸優化
7.資料安全
8.異構加速
文檔完善部分:
Hetu安裝與部署(手動,自動)
連接配接connected配置
HetuHA安裝部署
等。。。。。
學習時間:
全天,算法刷題兩小時
學習産出:
提示:這裡統計學習計劃的總量
例如:
1、 技術筆記 1 遍