天天看點

2020-12-02《開源大資料技術之——openLookeng》學習目标:學習内容:學習時間:學習産出:

學習目标:

《開源大資料技術之——openLookeng》

學習與安裝部署 華為開源資料虛拟化引擎openLooKeng

學習内容:

項目背景

2020年7月1日] 華為正式宣布開源資料虛拟化引擎openLooKeng,開源社群官網(https://openlookeng.io)同步上線。openLooKeng緻力于為大資料使用者提供極簡的資料分析體驗,讓使用者像使用“資料庫”一樣使用“大資料”。

2019年11月19日,華為宣布開源資料虛拟化引擎HetuEngine(開源版本的HetuEngine叫openHetu),當日,openHetu正式更名為openLooKeng,HetuEngine更名為LooKengEngine。openLooKeng是一款開源的高性能資料虛拟化引擎。提供統一SQL接口,具備跨資料源/資料中心分析能力以及面向互動式、批、流等融合查詢場景。同時增強了前置排程、跨源索引、動态過濾、跨源協同、水準拓展等能力。

随着大資料技術的應用和發展,資料種類越來越多,資料分布越來越廣,查詢場景也越來越複雜,這使得大資料使用更加困難。為了改善大資料的易用性,華為發起資料虛拟化引擎openLooKeng開源項目,旨在解決上述問題:

1)**統一SQL接口通路多種資料源

2)免資料搬遷,在資料所在地對資料進行處理,并且支援跨資料中心、跨雲處理

面向互動式、批、流等融合查詢的場景(第一個版本支援互動式查詢場景**)

3)此外,該項目還提供了Coordinator AA高可靠、可擴充的資料源connector架構等能力,讓使用者及大資料解決方案夥伴更友善的使用openLooKeng。

openLooKeng使用了業界著名的開源SQL引擎Presto來提供互動式查詢分析基礎能力,并繼續在融合場景查詢、跨資料中心/雲、資料源擴充、性能、可靠性、安全性等方面發展,讓資料治理、使用更簡單。

openLookeng社群首頁: https://openlookeng.io

openLookeng代碼托管位址:

https://gitee.com/openlookeng

https://github.com/openlookeng

項目内容

為實作跨域和跨資料中心的聯合分析查詢加速,需要一種具備高魯棒性和高容錯性的解決方案

大緻方案:

1.跨資料源查詢:JDBC 對接MySql,PostgreSQL,TBase、HIve、SparkSQL、H2、HBase、ES

2.SQL算子下推:常用SQL操作下推到資料源執行,如Project,Filter,Aggregrate、Join、Sort、Union、Intersect、Except、Except、Limit、Offset

3.SQL引擎CBO優化(Cost-Based Optimization,基于代價優化)

4.跨資料中心CBO優化

5.最優計算引擎(與計算解耦,将SQL優化、計算下推到不同的計算引擎)

可考慮對接不同類型的分布式計算引擎sparksql,Hive,Flink,Presto為每個SQL挑選最優執行引擎

6.網絡傳輸優化

7.資料安全

8.異構加速

文檔完善部分:

Hetu安裝與部署(手動,自動)

連接配接connected配置

HetuHA安裝部署

等。。。。。

學習時間:

全天,算法刷題兩小時

學習産出:

提示:這裡統計學習計劃的總量

例如:

1、 技術筆記 1 遍

繼續閱讀