天天看點

賈揚清:雲原生讓資料湖加速邁入3.0時代

摘要:2021雲栖大會雲原生企業級資料湖專場,阿裡雲智能進階研究員賈揚清為我們

帶來《雲原生--讓資料湖加速邁入3.0時代》的分享。

賈揚清:雲原生讓資料湖加速邁入3.0時代
本文主要從存儲服務化、計算多元化、管理智能化等方面講述了資料湖的演講曆程。 直播回放 >>> 以下是精彩視訊内容整理:

資料湖演進曆程

資料湖1.0 2019年以前

  • 存儲:存算分離,冷熱資料分層,以Hadoop生态為主
  • 管理:無官方管理服務,使用者自行處理擴縮容、磁盤運維等管理工作
  • 計算:初步實作計算雲原生化,但缺乏計算的彈性以及多樣性

資料湖的概念想必大家都不陌生。2019年以前提到資料湖概念時,一定程度上是基于存算分離這樣一個樸素的想法,能夠彈性的做存儲規模的擴縮,根據計算需求靈活配置計算資源。在那個時候,存儲基本可以服務化标準化,計算也可以和存儲分開規劃,如何更好管理上層資料和計算彈性則相對比較缺乏。

資料湖2.0 2019~2021

  • 存儲:以對象存儲為中心,統一存儲承載生産業務,大規模、高性能
  • 管理:提供面向OSS/EMR等垂直湖管理系統,缺乏産品間關聯
  • 計算:計算彈性化,使用者根據負載進行計算伸縮

基于資料湖1.0的基礎,我們進一步建構了很多能力。尤其在存儲标準化後,像阿裡雲對象存儲OSS,開始成為一個資料湖非常标準的底層的存儲解決方案,它本身的穩定性、規模和性能,為資料湖底座提供了一個很好的基礎。可以在上面做一些單叢集,比如拉起 EMR 這樣一個叢集,進行一些資料的管理、控制,不過還是一個比較初步的狀态。隻要有計算叢集,就可以在計算叢集裡引用資料湖的資料,對中繼資料進行管理。同時,因為雲原生這樣的方式,更加彈性的計算也變得更有可能。在存儲、計算、管理三個名額中,存儲是走的最快的;計算多元化是走的比較好的;管理也在逐漸建構。

資料湖3.0 2021

  • 存儲:以對象存儲為中心,建構企業級資料、全相容、多協定、統一進制資料
  • 管理:面向湖存儲+計算的一站式湖建構和管理,做到智能“建湖”和“治湖”
  • 計算:計算不僅雲原生化、彈性化,同時實時化、AI化、生态化

在提到資料湖3.0的時候,基本上的思考是在存儲、計算、管理這三個名額上面都有進一步的發展。存儲,需要做更多的相容性、更好的一緻性,以及更好的持久性。更加重要的一點是在管理上,資料湖不光是百川彙聚,扔在那的一堆資料,而是能夠井井有條的管理。湖上存儲了哪些資料、這些資料在如何被使用、使用的頻率如何、資料的品質又怎麼樣,這些在傳統的資料倉庫領域經常考慮到的問題在資料湖中也同樣存在。湖也應該有像倉一樣的完整成熟的管理體系。至于計算,不僅是計算體量的彈性,更是一個計算的多樣化的過程。以前我們更多的在做ETL,現在則更多的開始做實時的計算、AI的計算,以及非常多的生态計算引擎和湖的結合。以上是資料湖3.0需要解的一些核心問題。

存儲從「成本中心」到「價值中心」的更新

  • 平滑上雲--100% 相容 HDFS,存量資料平滑遷移上雲
  • 降低運維難度--全服務化形态,降低運維難度
  • 極緻成本效益--冷熱分層,單桶萬億級檔案數量,成本降低 90%
  • 加速 AI 創新--資料按需流動,大幅降低計算等待時間,高效管理

基于對象存儲OSS這樣一個底層的存儲,我們實作了非常平滑的遷移上雲,降低了運維、管理等難度。一個統一且标準的存儲狀态使得很多技術可以沉澱。比如冷熱分層,在使用者不需要關心的情況下,自動依賴OSS的冷存和熱存的配置設定,以此降低存儲成本。包括在AI領域,很多時候大家可能對于不同的存儲形态不熟悉,更喜歡像 CPFS 這樣傳統的檔案系統。CPFS 跟 OSS 的打通,在存儲上提供了很多新功能,可以解決使用者的遷移煩惱。

賈揚清:雲原生讓資料湖加速邁入3.0時代

「建湖」 「管湖」 「治湖」的智能化更新

  • 資料智能入湖

多資料源一鍵入湖,支援離線/實時入湖方式

  • 資料計算的中繼資料服務化

服務化中繼資料,滿足單表百萬分區中繼資料管理

  • 統一的資料權限管理

對接多引擎,支援庫/表/列等細粒度資料通路控制

  • 湖倉一體資料治理

資料湖與資料倉庫的統一資料開發與全鍊路資料治理

我們花了一年多時間建構了一個新的産品,阿裡雲資料湖建構(Data Lake Formation,DLF),在建湖、管湖、治湖方面,更好的管理資料湖。首先關注的是資料如何更加标準化體系化的入湖,不光是寫一堆的腳本,還要更好的管理起來,以更簡易的方式将多元的資料彙聚到資料湖裡。第二個就是中繼資料服務。在數倉裡,中繼資料是和數倉整個建在一起的。建構一個資料湖時,存儲放在OSS裡面,針對中繼資料的管理,尤其是中繼資料的服務跟更加上層的例如 BI 之類的工具的組合,DLF 提供了一個更加服務化、标準化的中繼資料管理這一層。中繼資料所帶來的資料權限、資料品質等更好的治理了這一層。而Dataworks 跟資料湖的打通,也使我們可以做更好的資料治理。在一個企業裡面,資料形态非常多,有些在資料湖裡,有些在倉庫裡。大家或許在業界聽到過 LakeHouse 這樣一個詞語。很多時候是說,在湖上面來建立一個倉庫。其實一個企業的需求,不光是從0開始在湖上建倉,因為有很多傳統的資料倉庫的存在,包括很多時候井井有條的像excel表一樣的資料倉庫其實還是有用的。是以如何把湖的靈活性跟倉的結構更好的聯系在一起,支撐了我們在治湖、管湖、建湖的時候用到的一些工具和方法論。

賈揚清:雲原生讓資料湖加速邁入3.0時代

「單一計算」到「全場景智能計算」的更新

  • 實時資料湖

實作實時資料入湖,分鐘級别實時更新

  • 湖倉一體

打通湖與倉,提升企業資料業務能力,一份資料智能流動

  • 資料科學

從BI到AI場景,支援深度學習和異構計算架構

  • 計算引擎多元生态

支援Databricks、Cloudera 等多元化計算分析能力

資料湖如何更好的實時化?通過像 Hudi 這樣的開源元件來實作實時的資料湖的功能。如何更好地結合資料科學的需求?比如在AI這個領域,大家經常使用到一些資料科學家們比較喜歡的基于python、基于程式設計的一些開發的體驗,怎樣把它和底層的資料湖存儲、管理的這套體系結合起來?怎樣把像 Databricks,Cloudera 這種非常成熟的企業級的生态産品和我們底層的資料湖結合起來?這些是我們在過去一年中,在不斷的建構的一些企業級的能力或者說讓我們的開發者們、工程師們更加容易地使用資料湖的一些能力。怎樣做存儲?怎樣來做管理?怎樣做更多樣化的計算?這些都是資料湖發展到3.0階段,比較核心的點。

賈揚清:雲原生讓資料湖加速邁入3.0時代

萬千企業和阿裡雲一起開啟資料湖 3.0最佳實踐

  • 6000+資料湖客戶
  • EB 級資料湖容量
  • 分鐘級資料實時入湖
  • TB 級但資料湖吞吐

在阿裡雲上,有非常多的企業在使用資料湖。在上面用到了非常大體量的存儲和非常多樣化的計算。在使用過程中,一起打磨了這樣一個産品。從19年開始至今,資料湖的不斷疊代離不開合作夥伴的信任。感謝大家。

⭐資料湖建構DLF 官網

https://www.aliyun.com/product/bigdata/dlf

探讨更多資料湖相關技術問題,歡迎掃碼加入釘釘交流群!

賈揚清:雲原生讓資料湖加速邁入3.0時代