天天看點

跨湖跨倉場景下如何實作海量資料分鐘級分析

摘要:華為開發者大會2021(Cloud)大會期間,華為雲FusionInsight MRS雲原生資料湖HetuEngine架構師武文博,分享了“跨湖跨倉場景下如何實作海量資料分鐘級分析”主題。

華為開發者大會2021(Cloud)于2021年4月24日-26日在深圳成功舉行。本屆大會以#每一個開發者都了不起#為主題,為衆多開發者帶來一場ICT方面的技術盛宴。

大會期間,由華為技術專家天團打造的《名師大講堂》系列專題演講,圍繞雲原生、大資料、人工智能等話題,探讨技術創新帶來的價值,分享創新實踐。其中,華為雲FusionInsight MRS雲原生資料湖HetuEngine架構師武文博,分享了“跨湖跨倉場景下如何實作海量資料分鐘級分析”主題。

跨湖跨倉場景下如何實作海量資料分鐘級分析

華為雲FusionInsight MRS雲原生資料湖HetuEngine架構師武文博演講

随着大資料技術的應用和發展,資料種類越來越多,分布越來越廣,查詢場景也越來越複雜,尤其在新興業務中,需要在一個平台上使用離線分析、實時分析、圖分析、文本分析、互動式查詢等多種引擎,多元異構的資料融合才能盤活資料,通過資料挖掘開發資料價值,發揮資料作為生産要素的作用。而傳統大資料平台在應對資料融合分析時逐漸顯露疲态,存在如下問題:

多資料源間存在資料牆:Hive、HBase、MPPDB、Oracle….資料元件衆多,元件間形成“資料牆”;為了應對不同場景的需求,資料重複存儲到多個資料元件:Hive(曆史資料),HBase(原始資料),MPPDB(專題資料),管理複雜,耗費存儲空間;

多中心資料難以打通:各類分析應用隻能基于本地資料;用外中心資料做碰撞分析需要先搬遷到本地,操作複雜,效率低;異地資料加工需要在當地部署和維護加工平台,架構複雜;

多資料中心難以形成合力:資料集中在主中心,造成主中心負載畸高,分中心卻空閑嚴重;緊急任務需要迅速處理,卻因為分中心資料還未同步,無法分析;多資料中心和多叢集的計算和擴充能力遠遠強于單個中心,但由于跨資料中心通路技術基本處于空白狀态,業務隻能依靠單中心支撐。

為了讓資料使用更簡單,跨湖協同更容易,解決上述三大問題,華為推出了、“HetuEngine”,于2019年11月釋出,2020年6月正式開源(開源名稱openLooKeng)。HetuEngine是統一高效的資料虛拟化引擎,與大資料生态無縫融合,實作海量資料秒級查詢;業界首創多源異構協同,實作一站式SQL融合分析。

HetuEngine具備如下特性:

• 高性能互動式查詢:傳統大資料通過Hive引擎建構即席查詢任務,查詢時間長, HetuEngine通過啟發式索引和執行計劃Cache,實作秒級查詢響應;

• 跨湖跨倉跨雲融合:傳統資料分析需先統一資料格式,HetuEngine可實作不同資料格式間的join,減少資料搬遷,較傳統方案提效30%;傳統DC分析要建手工擺渡資料,HetuEngine可通過DC Connector進行連接配接,資料全局可視,協同耗時從數天縮短至分鐘級;

• 多引擎融合:傳統大資料在進行多引擎元件開發時,需涉及多元件定制開發,HetuEngine可統一SQL接口通路大資料,降低用數門檻,開發提效2-10倍。

目前,華為雲FusionInsight MRS雲原生資料湖為政企提供湖倉一體的解決方案,一個架構可建構三種資料湖:離線資料湖、實時資料湖、邏輯資料湖。其中邏輯資料湖通過HetuEngine提供跨湖、跨倉、跨雲統一通路,減少資料搬遷,資料高效流動,全域資料分鐘級協同分析,業務上線效率提升10倍,由周級縮短至天級。

HetuEngine已在各行各業大規模使用,下面一起來看HetuEngine在金融領域的典型場景實踐。

工行金融資料湖承載總行及分行全量原始資料,供全行資料分析師進行資料探索分析。目前日查詢量5000條,查詢資料平均10億行,最大可達百億行,伴随數字化轉型進入深水區,多樣性業務訴求對資料融合分析提出了更高的要求。

在某些場景中,金融業務需要在資料湖内先使用批處理技術對原始資料加工成專題資料,然後跨叢集搬移資料集市,再從資料集市上做BI分析。傳統大資料平台中,SAS等工具通過Hive SQL通路資料湖資料性能差,平均響應時間5分鐘~2小時,并發能力不足10,且湖倉資料割裂,将資料加工後加載到OLAP集市,資料鍊路長,分析效率和開發效率都很低。

跨湖跨倉場景下如何實作海量資料分鐘級分析

該行通過華為雲FusionInsight MRS雲原生資料湖提供的HetuEngine,解決了資料湖與數倉間的資料協同分析問題,避免了不必要的ETL。

通過HetuEngine資料虛拟化實作湖倉互聯互通協同分析;

避免不必要的ETL流程,減少資料搬遷。

通過引入HetuEngine資料虛拟化引擎,在資料湖查詢分析方面該行提升了并發能力,僅1/5的資源即可支援45并發,峰值并發最大達200QPS,平均時延優化到8秒;在湖倉協同分析方面,通過HetuEngine打通資料湖與數倉間的資料壁壘,湖倉協同分析性能從分鐘級提升至秒級,同時減少80%的系統間資料搬遷同步,大大提升資料治理效率。

HetuEngine作為統一高效的資料虛拟化引擎,打通了多資料源間的資料牆,實作高性能跨湖跨倉跨雲資料融合分析,同時,HetuEngine提供統一通路入口,屏蔽了傳統複雜的通路接口,并統一使用 SQL 接口,降低大資料使用門檻,簡化用數!

華為雲FusionInsight MRS雲原生資料湖還将持續創新,做大數字世界黑土地,攜手800+ISV為客戶提供持續演進的湖倉一體解決方案,可以在一個架構上實作離線資料湖、實時資料湖、邏輯資料湖,在千行百業構築“一企一湖,一城一湖”。

 本文分享自華為雲社群《華為雲FusionInsight MRS跨湖跨倉場景下如何實作海量資料分鐘級分析》,原文作者:沙漏。

點選關注,第一時間了解華為雲新鮮技術~

繼續閱讀