天天看點

重磅釋出,阿裡雲全鍊路資料湖開發治了解決方案

阿裡雲重磅更新全鍊路資料湖解決方案,主要包含開源大資料平台E-MapReduce(EMR) + 一站式大資料資料開發治理平台DataWorks + 資料湖建構DLF + 對象存儲OSS等核心産品。

近日,阿裡雲EMR重磅推出新版資料湖Datalake,100%相容社群大資料開源元件,具備極強的彈性能力,支援D資料湖建構DLF,資料湖存儲OSS和OSS-HDFS,支援Delta Lake、Hudi、Iceberg三種湖格式。同時新版本Datalake對接阿裡雲一站式大資料開發治理平台DataWorks,沉澱阿裡巴巴十多年大資料建設方法論,為客戶完成從入湖、模組化、開發、排程、治理、安全等全鍊路資料湖開發治理能力,幫助客戶提升資料的應用效率。

另外,解決方案提供了“統一進制資料管理、資料入湖、資料存儲、緩存加速、彈性計算、容器、資料分析、任務編排、運維管理,以及安全”等全面資料湖能力。通過了工業和資訊化部中國資訊通信研究院大資料能力專項評測,榮獲“雲原生資料湖基礎能力專項評測證書”。

阿裡雲全鍊路資料湖開發治了解決方案架構

阿裡雲全鍊路資料湖開發治了解決方案使用OSS/OSS–HDFS作為資料湖存儲,DLF作為資料湖建構和管理工具,JindoFS進行湖緩存加速,EMR作為彈性計算引擎進行湖計算,DataWorks進行資料開發和治理。DataWorks各子產品與DataLake深度內建,進而實作一站式資料湖開發治理。

重磅釋出,阿裡雲全鍊路資料湖開發治了解決方案

EMR新版資料湖叢集

核心運維管控能力介紹

彈性能力
  1. 彈性伸縮支援按叢集負載和按時間2種模式
  2. 彈性伸縮組支援多種執行個體規格
  3. 支援搶占式執行個體(相較按量付費成本降低80%以上)
  4. 支援成本優化模式(彈性比例的按量付費+包年包月)
叢集管控能力
  1. 分鐘級别建立和擴容叢集,無需手動部署和啟動服務
  2. 完善的叢集監控和告警體系,覆寫硬體和引擎服務,支援配置告警模闆

新版資料湖對比Hadoop叢集優勢

性能更優
  • 速度加快

新版資料湖叢集節點組擴容速度得到明顯提升,單批次大規模節點擴容速度提升80%

Hadoop DataLake
彈性擴容 10 節點 4分鐘 1分10秒
彈性擴容 50 節點 8分鐘 1分30秒
彈性擴容 100節點 10分鐘 1分50秒
  • 支援并發

支援任務節點(task節點類型)多節點組并行擴縮容,能夠覆寫多種使用場景,業務效率成倍提升。

功能更全
  • 彈性伸縮能力更強

可以同時配置按時間伸縮和按負載伸縮;支援優先下線負載低的節點;配置規則不依賴于是否運作彈性伸縮活動,可靈活修改配置(僅影響下一次觸發)。

  • 執行邏輯更貼近使用場景

多方位調研使用者真實使用場景,功能執行邏輯設計更貼近業務實際。如:

1)彈性伸縮擴容政策支援多執行個體選擇并按順序彈出(兜底庫存不足場景),彈性伸縮縮容支援配置優雅下線并預設按負載選擇目标節點下線(減少縮容時對叢集任務影響)

2)同一節點組多個彈性規則同時觸發時,預設按照使用者規則排序依次生效(靈活應對多種使用場景)

  • 操作體驗優化

更豐富的配置提示和操作引導,并新增配置項預校驗邏輯,降低使用者學習成本和操作失敗機率。

成本更省
  • 彈性伸縮性能更優,功能覆寫更廣泛的場景

彈性伸縮生效更快,支援功能更全。可以幫助使用者更快更好地對硬體資源進行靈活管理,根據業務需要設定相關政策,自動變更叢集規模,減少硬體資源浪費。

  • 通過靈活配置搶占式執行個體進一步壓縮成本

在新增節點組時,提供完善的搶占式執行個體配置政策和兜底政策供使用者配置,使用者可以根據其業務訴求靈活配置,通過配置搶占式執行個體能夠進一步壓縮成本。

與Hadoop叢集全面對比
子產品 功能項 新版資料湖叢集 Hadoop叢集
叢集 叢集建立時間 平均時間小于5分鐘。 平均時間小于10分鐘。
叢集節點組新增節點 平均時間小于3.5分鐘。 平均時間小于10分鐘。
開放API 支援。 支援。
域名支援 Private Zone。 hosts位址映射。
磁盤擴容 支援熱擴容,無需重新開機叢集服務。 不支援熱擴容,需重新開機叢集服務生效。
節點組 交換機 可以在建立節點組時選擇交換機。 僅支援在叢集建立時選擇,叢集建立後不可更改。
挂載公網
  • 可以在建立叢集的硬體配置頁面的執行個體區域,選擇是否為節點組開啟公網。
  • 沒有節點組類型的限制。
  • 僅支援在叢集建立時選擇是否開啟公網,建立後如果您需要使用公網IP位址通路,請在ECS上申請開通公網IP位址,詳情請參見彈性公網IP中的申請EIP的内容。
  • 僅支援Master節點組挂載公網。
附加安全組 支援。 不支援。
部署集
  • 可以在建立叢集硬體配置頁面的執行個體區域,選擇是否開啟部署集開關。
  • 可以在新增Core節點組時,選擇是否開啟部署集開關。
功能受限。
節點組狀态 支援。 不支援。
混合節點 支援同規格的不同機型混合。
  • 僅支援同規格機型。
  • 彈性伸縮節點支援混合節點。
彈性伸縮 彈性伸縮 彈性伸縮與節點組解耦,從獨立的功能子產品轉為節點組操作,使用更加便捷。 需要專用的彈性伸縮組,該節點組不可進行手動擴縮容。
伸縮規則
  • 配置規則不依賴于是否運作彈性伸縮活動,可靈活修改配置(僅影響下一次觸發)。
  • 同一節點組多個規則同時觸發時,會按照使用者規則排序依次生效。
  • 配置規則受到彈性伸縮狀态限制,修改後無法立即生效。
  • 同一節點組多個規則同時觸發時,随機生效。
伸縮記錄 豐富了彈性伸縮記錄資訊。在檢視詳情頁面新增了觸發規則快照和執行結果參數,能夠快速檢視觸發原因和變更節點資訊。 提供基礎的伸縮記錄清單。
名額采集頻率 每30秒采集一次。 每30秒采集一次。
伸縮活動生效時間 規則應用後1~30秒。 規則應用後1~2分鐘。
擴縮容 擴縮容活動
  • 彈性伸縮活動與手動擴縮容活動運作機制相同。差別僅在于觸發條件不同:
  • 彈性伸縮需要彈性伸縮規則觸發。
  • 手動擴縮容需要人為觸發。
  • 支援暫停彈性伸縮活動。
  • 多個Task節點組的擴縮容活動彼此獨立,互不影響。
  • 彈性縮容根據節點負載和建立時間,智能選中目标節點,減少業務影響。
  • 彈性伸縮活動和手動擴縮容活動是兩套機制,互不相容。
  • 彈性伸縮活動不支援暫停狀态。
  • 同時僅支援一個節點組進行(彈性)擴縮容。
  • 彈性縮容節點選擇具有随機性。
高可用與軟體應用 高可用 不再支援本地MySQL作為Hive Metastore資料庫。 支援本地MySQL作為Hive Metastore資料庫。
支援部署集,3台Master分布在不同底層硬體以降低硬體風險。 預設不支援部署集。
NameNode與Resource Manager部署于3節點,并不再支援2 Master模式。 Namenode與Resource Manager僅部署于2節點,支援2 Master模式。
叢集應用元件 支援可選 必選 + 可選。
Spark2與Hadoop3組合 支援。 不支援。
Spark3與Hadoop2組合 支援。 EMR-3.38.0之後版本支援同時部署。

DataWorks全鍊路開發治理能力介紹

DataWorks基于EMR-Datalake、EMR-Clickhouse、CDP等大資料引擎,為資料湖/資料倉庫/湖倉一體等解決方案提供統一的全鍊路大資料開發治理平台。作為阿裡巴巴資料中台的建設者,DataWorks從2009年起不斷沉澱阿裡巴巴大資料建設方法論,通過智能資料模組化、全域資料內建、高效資料開發、主動資料治理(資料品質、資料地圖等)、全面資料安全、快速分析服務六大全鍊路資料治理的能力,與數萬名政務/金融/零售/網際網路/能源/制造等客戶攜手,助力産業數字化更新。

重磅釋出,阿裡雲全鍊路資料湖開發治了解決方案

智能資料模組化

DataWorks智能資料模組化沉澱阿裡巴巴資料中台模組化方法論,以次元模組化為基礎,從數倉規劃、資料标準、次元模組化、資料名額四個方面,以業務視角對業務的資料進行诠釋,讓資料倉庫的建設向規範化,可持續發展方向演進。針對Datalake的智能資料模組化能力将在2022年8月份正式釋出。

重磅釋出,阿裡雲全鍊路資料湖開發治了解決方案

全域資料內建

DataWorks資料內建是開源DataX的商業化團隊,在資料湖場景下支援50+種資料源之間的離線同步,包含資料湖常見的HDFS、Hive、HBase、OSS、Kafka等資料源,MySql、Oracle、SQLServer等資料庫。同時,針對IDC>>雲上、雲廠商>>雲廠商、雲産品>>雲産品、雲賬号>>雲賬号等各種同步場景,提供網絡連通的解決方案,讓客戶在複雜網絡環境、豐富的異構資料源之間,依舊保持高速穩定的資料移動能力。

高效資料開發

DataWorks資料開發(DataStudio)與運維中心面向EMR-Datalake、EMR-CK、CDH等引擎,提供可視化開發的主界面,賦予使用者智能代碼開發、多引擎混編工作流、規範化任務釋出的強大能力,幫助使用者輕松建構資料湖、離線數倉、實時數倉與即席分析系統,保證資料生産的高效與穩定。

資料開發-核心開發排程能力

  • 支援EMR Hive、EMR MR、EMR Spark SQL、EMR Spark、EMR shell、EMR Presto、EMR Impala、EMR Spark Streaming共八種節點。
  • 遠超開源的超大規模排程穩定能力(雙11單日千萬級任務執行個體)
  • 分鐘/小時/天/周/月多種排程周期
  • 業務流程全局參數/節點上下文傳參
重磅釋出,阿裡雲全鍊路資料湖開發治了解決方案

資料開發-多種可視化資料對象管理及控制節點

  • 可視化資源檔案上傳(HDFS/OSS)
  • 可視化管理UDF(Java)
  • 可視化建表(支援HDFS/OSS)
  • 歸并、指派、順序、循環、分支等控制節點。
  • 多種排程周期混合編排
  • 可視化業務流程編排
重磅釋出,阿裡雲全鍊路資料湖開發治了解決方案

資料開發-智能SQL編輯器

  • 文法高亮
  • 關鍵詞自動補全
  • 表/字段資訊提示
  • 函數資訊提示
重磅釋出,阿裡雲全鍊路資料湖開發治了解決方案

任務運維-運作診斷

運作診斷可幫助使用者快速定位任務出錯原因,例如

  • 上遊依賴未完成
  • 排程資源不足
  • 資料品質規則攔截
  • 基線破線

同時擁有補資料相關能力,友善使用者快速處理運維情況。在告警方面,運維中心支援多種告警方式

  • 支援Webhook(釘釘、微信、飛書)、電話、短信、郵件等多管道告警
  • 支援基于值班表配置告警人員,
重磅釋出,阿裡雲全鍊路資料湖開發治了解決方案

任務運維-智能基線

智能基線是DataWorks獨創的監控技術,具備國家專利,使用者無需配置每個任務的告警時間,僅需配置最終産出節點的告警時間,智能基線會基于曆史的任務運作情況,在核心任務可能無法準時産出時,做提前告警,保障核心任務的生産穩定。

重磅釋出,阿裡雲全鍊路資料湖開發治了解決方案

主動資料治理

DataWorks資料治理包含資料治理中心、資料品質、資料地圖等多個産品,覆寫事前、事中、事後的資料生命周期,通過資料治理健康分、品質規則、資料大血緣等能力,将書面的資料治理規範落地成平台化的産品能力,讓資料治理不再一個 “階段性項目”,而是一個“可持續的營運項目”。

資料品質

EMR HIVE節點支援DataWorks資料品質規則,内置37種資料品質規則模闆,可以進行可視化、批量資料品質規則配置,提高資料品質規則配置效率。同時該子產品與資料開發排程深度內建,可通過排程觸發規則運作,節省計算資源,及時發現問題。

  • 支援37種内置資料品質模闆規則
  • 支援批量配置規則、規則模闆
  • 支援綁定排程引擎并在品質報警時阻塞業務流程
  • 支援動态門檻值(頂會論文技術,算法自動判定告警門檻值)
  • 支援SQL自定義規則
  • 支援短信、郵件、釘釘告警
  • 支援自定義資料品質報告
  • 支援品質問題處理記錄

同時,資料品質支援強弱規則設定,進行靈活的運維控制。

  • 強規則,直接阻塞下遊任務運作,防止問題資料污染下遊,浪費下遊執行的計算資源
  • 弱規則,隻告警,不阻塞任務運作,針對一些非核心任務。
重磅釋出,阿裡雲全鍊路資料湖開發治了解決方案

資料地圖

資料地圖支援完整的EMR-Datalake中繼資料體系,可以針對表名、字段名進行快速搜尋,基于表、字段血緣浏覽上下遊關系快速找表,包括:

  • 支援表基礎資訊、業務描述資訊、産出資訊等
  • 支援分區、字段的明細資訊與變更記錄
  • 支援表的産出資訊解析(包括對表寫入資料 或者 建立分區的排程任務)
  • 支援表、字段的血緣資訊解析(實時解析)
  • 支援對表進行分級分類、收藏等操作
  • 支援全局檢索、按類目導航檢索、按類目過濾

表基礎資訊:

重磅釋出,阿裡雲全鍊路資料湖開發治了解決方案

表血緣資訊:

重磅釋出,阿裡雲全鍊路資料湖開發治了解決方案

全面資料安全

在資料安全方面,DataWorks支援Datalake引擎資料全生命周期的安全管理。包括以下5個方面:

資料傳輸安全

  • 資料源通路控制

資料存儲安全

  • 存儲加密
  • 資料備份

資料處理安全

Ranger精細化資料授權管控

規範化開發流程,開發環境、生産環境執行身份獨立管理

資料交換安全

資料脫敏

通用資料安全

RBAC權限模型

操作行為審計

LDAP認證管理

快速分析服務

SQL查詢:完善的SQL查詢編輯器,支援即席查詢Hive、SparkSQL、Impala

重磅釋出,阿裡雲全鍊路資料湖開發治了解決方案

電子表格:即席分析資料,Web類型的Excel

重磅釋出,阿裡雲全鍊路資料湖開發治了解決方案

資料服務:低代碼快速搭建ClickHouse API

開通購買

快速開通使用

快速入門:​​https://help.aliyun.com/document_detail/445672.html​​

遷移助手

排程任務遷移

  • 支援Airflow,Oozie,Azkaban工作流遷移
  • 支援EMR資料開發一鍵遷移至DataWorks
  • 工作空間之間各種資料對象遷移