天天看點

官宣!阿裡雲重磅釋出雲原生資料湖體系

背景

“ 資料湖 ”正在被越來越多人提起,盡管定義并不統一,但企業們都已紛紛下水實踐,無論是AWS還是阿裡雲、華為。我們認為:資料湖是大資料和AI時代融合存儲和計算的全新體系。

為什麼這麼說?還要從它的發展說起。

資料量爆發式增長的今天,數字化轉型成為IT行業的熱點,資料需要更深度的價值挖掘,是以需要確定資料中保留的原始資訊不丢失,應對未來不斷變化的需求。目前以Oracle為代表的資料庫中間件已經逐漸無法适應這樣的需求,于是業界也不斷地産生新的計算引擎,以便應對大資料時代的到來。企業開始紛紛自建開源Hadoop資料湖架構,原始資料統一存放在HDFS系統上,引擎以Hadoop和Spark開源生态為主,存儲和計算一體。缺點是需要企業自己運維和管理整套叢集,成本高且叢集穩定性較差。

在這種情況下,雲上托管Hadoop資料湖架構(即EMR開源資料湖)應運而生。底層實體伺服器和開源軟體版本由雲廠商提供和管理,資料仍統一存放在HDFS系統上,引擎以Hadoop和Spark開源生态為主。這個架構通過雲上IaaS 層提升了機器層面的彈性和穩定性,使企業的整體運維成本有所下降,但企業仍然需要對HDFS系統以及服務運作狀态進行管理和治理,即應用層的運維工作。

因為存儲和計算耦合在一起,穩定性不是最優,兩種資源無法獨立擴充,使用成本也不是最優。同時,受到開源軟體本身能力的限制,傳統資料湖技術無法滿足企業使用者在資料規模、存儲成本、查詢性能以及彈性計算架構更新等方面的需求,也無法達到資料湖架構的理想目标。企業在這個時期需要更低廉的資料存儲成本、更精細的資料資産管理、可共享的資料湖中繼資料、更實時的資料更新頻率以及更強大的資料接入工具。

雲原生時代到來,我們可以有效利用公有雲的基礎設施,資料湖平台也有了更多的技術選擇。比如雲上純托管的存儲系統逐漸取代HDFS,成為資料湖的存儲基礎設施,并且引擎豐富度也不斷擴充。

除了Hadoop和Spark的生态引擎之外,各雲廠商還發展出面向資料湖的引擎産品。如分析類的資料湖引擎有AWS Athena和華為DLI,AI類的有AWS Sagemaker。這個架構仍然保持了一個存儲和多個引擎的特性,是以統一進制資料服務至關重要。

雲原生資料湖體系

基于此,阿裡雲正式釋出了雲原生資料湖體系,由對象存儲OSS、資料湖建構Data Lake Formation、E-MapReduce産品強強組合,提供存儲與計算分離架構下,湖存儲、湖加速、湖管理、湖計算的企業級資料湖解決方案。

  • 資料湖存儲用雲上的對象存儲OSS加上 JindoFS 取代HDFS,提升資料規模、降低存儲成本、實作計算和存儲分離架構;
  • 資料湖建構(DLF)服務提供統一進制資料和統一的權限管理,支援多套引擎接入;
  • EMR上Spark等計算引擎的雲原生化,可以更好的利用彈性計算資源;
  • 雲上的資料開發治理平台 Dataworks解決了資料湖中繼資料治理、資料內建、資料開發等問題。

資料是最好的佐證:阿裡雲雲原生資料湖體系可支援EB級别的資料湖,存儲超過10萬Database、1億Table以及10億級别的Partition,每天支援超過30億次的中繼資料服務請求,支援超過10個開源計算引擎以及MaxCompute和Hologres等雲原生數倉引擎。

同時,阿裡雲資料湖存儲成本相對于高效雲盤下降10倍以上,查詢性能相對于傳統對象存儲提速3倍以上,并且查詢引擎有着極高的彈性,能在30秒内啟動超過1000個Spark Executor。由此可見,阿裡雲強大的存儲和計算能力共同打造了業界領先的資料湖體系。這些背後都在告訴我們:想在大資料時代占據先機,你需要有一套系統,能夠在保留資料的原始資訊情況下,又能快速對接多種不同的計算平台。

在此之際,我們推出雲原生資料湖技術系列專題,将告訴大家如何基于阿裡雲OSS、JindoFS和資料湖建構(DataLakeFormation,DLF)等基礎服務,結合阿裡雲上豐富的計算引擎,打造一個全新雲原生資料湖體系。

官宣!阿裡雲重磅釋出雲原生資料湖體系

資料湖存儲 OSS

阿裡雲對象存儲 OSS 是資料湖的統一存儲層,它基于12個9的可靠性設計,可存儲任意規模的資料,可對接業務應用、各類計算分析平台,非常适合企業基于OSS建構資料湖。相對于HDFS來說,OSS可以存儲海量小檔案,并且通過冷熱分層、高密度存儲、高壓縮率算法等先進技術極大降低機關存儲成本。同時 OSS 對Hadoop生态友好,且無縫對接阿裡雲各計算平台。針對資料分析場景,OSS推出 OSS Select、Shallow Copy和多版本等功能,加速資料處理速度,增強資料一緻性能力。

更多閱讀:

【資料湖存儲篇】——基于 OSS 的 EB 級資料湖

資料湖加速

對象存儲系統在架構設計上和 HDFS 等分布式檔案系統存在一定差異,同時存儲和計算分離架構中 OSS 是遠端的存儲服務,在大資料計算層面缺少對資料本地化的支援。是以,在 OSS 對象存儲服務的基礎上,阿裡雲定制了自研的大資料存儲服務 —— JindoFS,極大的提升資料湖上的引擎分析性能,在TPC-DS、Terasort等常見的benchmark測試中,采用計算存儲分離架構的 JindoFS 性能已經達到或超過了本地部署的HDFS。同時JindoFS 完全相容 Hadoop 檔案系統接口,給客戶帶來更加靈活、高效的計算存儲方案,目前已驗證支援Hadoop開源生态中最主流的計算服務和引擎:Spark、Flink、Hive、MapReduce、Presto、Impala 等。目前 JindoFS 存儲服務包含在阿裡雲 EMR 産品中,未來 JindoFS 會有更多的産品形态服務于資料湖加速場景。

【資料湖加速篇】 —— 基于 JindoFS 建構高效資料湖 【資料湖加速篇】 —— 如何利用緩存加速服務來提升資料湖上機器學習訓練速度 【資料湖加速篇】 —— 資料湖結構化資料優化與查詢加速方案 【資料湖加速篇】 —— JindoDistCp:資料湖離線資料遷移最佳實踐

資料湖建構(DLF)

傳統的資料湖架構非常強調資料的統一存儲,但對資料的Schema管理缺乏必要的手段和工具,需要上層分析和計算引擎各自維護中繼資料,并且對資料的通路沒有統一的權限管理,無法滿足企業級使用者的需求。資料湖建構(DLF)服務是阿裡雲在2020年9月推出的針對資料湖場景的核心産品,主要為了解決建構資料湖過程中使用者對資料資産的管理需求。DLF 對 OSS 中存儲的資料提供統一的中繼資料視圖和統一的權限管理,并提供實時資料入湖和清洗模闆,為上層的資料分析引擎提供生産級别的中繼資料服務。

【資料湖建構篇】 —— 資料湖中繼資料服務的實作和挑戰 【資料湖建構篇】 —— 多引擎內建挖掘湖上資料價值 【資料湖建構篇】 —— 多資料源一站式入湖 【資料湖建構篇】 —— 資料湖建構服務搭配Delta Lake玩轉CDC實時入湖

雲原生計算引擎

目前阿裡雲上衆多雲原生計算引擎已經接入或準備接入資料湖建構服務,包括阿裡雲EMR上的開源計算引擎Spark、Hive、Presto、Flink 以及大資料計算服務 MaxCompute、資料洞察 Databricks 引擎和資料湖分析(DLA)等。以最常用的開源引擎 Spark 為例,阿裡雲 Spark 可以直接對接資料湖建構的中繼資料服務,運作在多叢集或多平台上的 Spark 任務共享同一個資料湖中繼資料視圖。并且 EMR 為 Spark 推出了Shuffle Service服務,Spark 引擎是以獲得雲原生平台上的彈性擴縮容能力。雲原生計算引擎結合資料湖架構可以獲得更高的靈活度并極大的降低資料分析成本。

另外,雲原生資料倉庫 MaxCompute 和實時 HSAP 分析引擎 Hologres 也準備接入資料湖建構服務,未來數倉和資料湖将會發生什麼樣的化學反應呢?敬請期待。

【資料湖計算篇】 —— 雲原生計算引擎挑戰與解決方案 【資料湖計算篇】 —— Serverless Spark的彈性利器 - EMR Shuffle Service

資料湖治理

DataWorks資料綜合治理可為阿裡雲客戶提供統一的資料視圖,用于掌握資料資産的現狀、助力資料品質的提升、提高擷取資料的效率、保障資料安全的合規并提升資料查詢的分析效率。可以有效支撐離線大資料倉庫的建構、資料聯邦的查詢和分析處理、海量資料的低頻互動式查詢和智能報表的建構,以及資料湖方案的實作。

【資料湖治理篇】 —— 資料開發治理平台DataWorks

綜上所述,利用阿裡雲的基礎元件和整體解決方案,使用者可以友善的建構一個資料湖平台,完成企業大資料架構轉型。

雲栖大會資料湖專場

點選下方連結預約線上直播,了解阿裡雲雲原生資料湖技術最新進展

https://yunqi.aliyun.com/2020/session137?liveId=44835
官宣!阿裡雲重磅釋出雲原生資料湖體系

資料湖建構·Data Lake Formation是阿裡巴巴資料湖團隊帶來的最新一站式入湖解決方案,了解更多資訊請加入産品釘釘交流群

官宣!阿裡雲重磅釋出雲原生資料湖體系