天天看點

解密華為雲FusionInsight MRS新特性:一架構三湖

摘要:華為雲FusionInsight MRS産品經理陳祥在“華為雲TechWave雲原生2.0專題日”上發表《華為雲FusionInsight MRS,一個架構實作三種資料湖》的主題演講,分享了智能資料時代的資料湖發展趨勢、MRS雲原生資料湖技術創新實作一個架構建構離線、實時、邏輯三種資料湖,以及業務實踐中的成功案例等。

5月20日,華為雲FusionInsight MRS産品經理陳祥在“華為雲TechWave雲原生2.0專題日”上發表《華為雲FusionInsight MRS,一個架構實作三種資料湖》的主題演講,分享了智能資料時代的資料湖發展趨勢、MRS雲原生資料湖技術創新實作一個架構建構離線、實時、邏輯三種資料湖,以及業務實踐中的成功案例等。

進入智能資料時代,業界建設資料湖的十大共識

解密華為雲FusionInsight MRS新特性:一架構三湖

經過數十年的快速發展,大資料處理技術已日漸成熟,圍繞資料倉庫、資料湖衍生技術多如繁星,業界在多年的探索之中,也對未來資料湖形态有了十個重要共識,湖倉一體成為智能資料湖的首選架構。為應對智能資料時代對大資料技術提出的新挑戰,華為雲FusionInsight MRS雲原生資料湖進行全面更新,引入了Hudi、ClickHouse熱門元件,加強了自研的HetuEngine虛拟化引擎,同時新增IoTDB時序處理的能力,拓展資料使能應用的邊界。

華為雲FusionInsight MRS雲原生資料湖

解密華為雲FusionInsight MRS新特性:一架構三湖

華為雲FusionInsight MRS雲原生資料湖為政企客戶提供湖倉一體、雲原生的資料湖解決方案,建構一個架構可持續演進的離線、實時、邏輯三種資料湖,支撐政企客戶全量資料的實時分析、離線分析、互動查詢、實時檢索、多模分析、資料倉庫、資料接入和治理等大資料應用場景,使政企客戶高效用數、簡化用數,助力政企客戶實作一企一湖、一城一湖,業務洞見更準,價值兌現更快。

  • 離線資料湖:提供互動式、BI、AI等多個計算引擎,采用OBS實作存算分離,使得雲原生資料湖的架構更靈活。支援單叢集2萬+節點的超大規模,通過叢集聯邦,可支援10萬+規模。支援滾動更新,保障關鍵業務更新不中斷。
  • 實時資料湖:通過Hudi支援ACID資料實時增量入湖、ClickHouse毫秒級OLAP分析等建構實時更新處理能力,使得供數時效從T+1到T+0。
  • 邏輯資料湖:HetuEngine提供跨湖、跨倉、跨雲的協同分析,實作湖倉一體,減少80%資料搬遷,協同分析提效50倍。

一架構三湖新特性,覆寫資料分析全流程

  • Hudi:增量實時入湖,實作資料入湖時效快、開發易、性能高、資源使用率更高

傳統資料湖不支援資料更新,導緻資料采用T+1離線處理模式,完全無法滿足靈活多變的業務訴求,針對資料時效性問題,華為雲FusionInsight MRS雲原生資料湖引入Hudi。

Hudi可以支援資料更新、資料删除,還有ACID保證,保證資料實時入湖更新操作。它提供多種視圖,包括讀優化視圖、增量視圖、實時視圖,可以對不同的分析應用提供不同的視圖,基于這些技術可輕松實作增量表、拉連結清單,鏡像表這些資料存儲模型。引入Hudi後,帶來四大顯著效果:

  1. 資料時效更快:在業務系統,通過CDC的系統實作分鐘級資料入湖,資料時效性從T+1到T+0。
  2. 處理性能更高:面對資料有删除、更新的場景下,傳統采用Hive更新方式,僅處理一行資料也可能需要對整個表,至少要對整個分區進行處理,引入Hudi後處理效率提升10倍+。
  3. 開發更簡單:對于開發人員來說,傳統資料入湖不支援更新或者删除,開發人員需建立臨時表,将資料處理後再進行覆寫,對同一個任務可能需要寫很多代碼去完成,有了Hudi的加持之後,做一個資料更新的操作就跟使用資料庫一樣簡單,單條語句即可完成。
  4. 資源使用率更高:傳統T+1的模式并不是24小時跑任務,而是在晚上進行批量加工,早上出報表,整個處理過程中,計算高峰期僅晚上跑批的時間,而資源卻是按照高峰期的計算需求來配比,導緻白天的資源利用不足,引入Hudi後,資料實時采集入湖,把入湖處理的工作分散到全天的過程,實際上把整個資源消耗的高峰和低峰抹平掉。

某金融客戶基于Hudi建構資料湖,資料入湖時延降至分鐘級,且白天資源使用率提升2倍+,資料處理效率提升50%,開發人員通過單條語句即可完成開發,簡化開發難度。

  • ClickHouse:實時OLAP引擎,實作報表全自助高成本效益的實時分析

傳統的OLAP引擎因其處理能力有限,資料一般按照專題或者主題進行組織後再與BI工具對接,導緻BI使用者和提供資料的資料工程師脫節。比如BI使用者有一個新的需求,所需的資料沒有在專題集市中,需要将需求給到資料工程師,以便開發相應的ETL任務,這個過程往往需要部門間協調,時間周期長,協作效益低。

現在,華為雲FusionInsight MRS雲原生資料湖可以将所有明細資料以大寬表的形式加載ClickHouse,BI使用者可以基于ClickHouse大寬表進行自助分析,對資料工程師供數要求少,甚至在面對大部分新需求時,無需重新供數,開發效率和BI報表上線率都會得到極大提升。同時,ClickHouse在一張表裡的資料分析可達毫秒級。

基于ClickHouse實作自助BI在華為内部實踐也獲得了很好的效果。華為集團HIS資料湖原來基于傳統OLAP引擎模組化,受限于開發效率,幾年才上線了幾十個報表。在引入Clickhouse後,三個月時間開發上線了400+報表,業務上線效率提升50倍。目前,華為内部ClickHouse的整體使用規模已經達到2000+節點,資料量規模達10+PB,日增資料量100TB。

  • HetuEngine:資料虛拟化引擎,突破地理限制,打破資料“牆”

伴随企業發展與數字化轉型的需求,企業業務越來越複雜,創新需求越來越高。單系**立工作難以滿足業務的變化需求,企業内可能同時存在多個湖、多個倉、多個系統,但傳統方案煙囪式建設,湖倉之間、多引擎之間無直接的互聯互通能力,需要通過ETL資料來回搬遷,造成資料流轉鍊路長,資料多份備援,産生資料孤島。系統多份資料備援也難以保證資料的一緻性和可靠性。

為了讓資料使用更簡單,跨湖協同更容易,解決湖倉資料割裂的問題,華為推出了資料虛拟化引擎HetuEngine,實作跨湖、跨倉和雲上、雲下、多雲協同分析的能力,突破地理限制,打破資料“牆”,跨湖協同分析效率提升50倍,跨倉協同分析減少80%的系統間資料搬遷同步,分析性能從分鐘級提升至秒級。

金融某行通過引入HetuEngine資料虛拟化引擎,在資料湖查詢分析方面該行提升了并發能力,僅1/5的資源即可支援45并發,峰值并發最大達200QPS,平均時延優化到8秒;在湖倉協同分析方面,通過HetuEngine打通資料湖與數倉間的資料壁壘,湖倉協同分析性能從分鐘級提升至秒級,同時減少80%的系統間資料搬遷同步,大大提升資料治理效率。

  • IoTDB:時序資料庫,雲邊端協同輕松建構時序資料集市

時序資料具備兩大特點:在端、邊、雲都有處理,時序資料采集後不需要更新。傳統時序處理方案中,在端、邊、雲采用不同的技術棧,異構的技術棧必将帶來資料處理的複雜性。清華大學開發的時序資料庫IoTDB(又稱時序引擎),通過統一的時序資料檔案格式TsFile,實作一份資料相容全場景,一套引擎打通雲邊端、一套架構內建雲邊端。華為跟清華大學保持緊密的合作,最新釋出的IoTDB叢集版本,就是華為與清華主導開發的一個版本。

在上海、成都、重慶等城市均已采用IoTDB管理地鐵監控資料,原本144輛列車需要9台伺服器,現在僅需一個IoTDB執行個體即可滿足要求,測點的采樣時延也從原來的500ms降至200ms,日增4140億資料點管理,大大提升資源使用率。

結語

目前,華為雲FusionInsight MRS雲原生資料湖攜手800+生态夥伴,已服務于3000+政企客戶,廣泛應用于公用事業、金融、營運商、能源、醫療、制造、交通等行業。

​​點選關注,第一時間了解華為雲新鮮技術~​​

繼續閱讀