年獸帶領動物們攻入幸福能量管理公司!
——《年獸大作戰》
本文内容取自2019杭州雲栖大會《大資料企業服務專場》。
分會場開場演講的題目叫做《阿裡雲大資料企業服務架構》,阿裡雲專家研究了國内外企業大資料的需求現狀得出了以下結論:
- 單一引擎或單一存儲很難滿足客戶需要:資料/存儲千差萬别,計算引擎各種各樣,開發生态各不相同,需求百花齊放。
- 純線下建資料中心不符合潮流趨勢:成本、異地多活、容災、彈性擴縮容、可觸達性、實時、生态。
- 一次性上雲實施很難接受:業務中斷,切換風險,總體成本,資訊安全。
- 需要的變化:從單引擎到多引擎、單一資料源到多資料源、統一的資料管理和開發、生态。
- 目前最佳方式:跨引擎統一程式設計平台+跨資料源綜合治理。
下一步就引出本次分論壇的主題了:一站式跨引擎大資料智能研發平台。
現階段,企業使用者需要的不是同統一的大資料計算引擎,而是統一的大資料智能研發平台,阿裡雲管這個平台叫做DataWorks。
DataWorks的官網介紹如下:
DataWorks(資料工場,原大資料開發套件)是阿裡雲重要的PaaS平台産品,為您提供資料內建、資料開發、資料地圖、資料品質和資料服務等全方位的産品服務,一站式開發管理的界面,幫助企業專注于資料價值的挖掘和探索。
DataWorks支援多種計算和存儲引擎服務,包括離線計算MaxCompute、開源大資料引擎E-MapReduce、實時計算(基于Flink)、機器學習PAI、圖計算服務Graph Compute和互動式分析服務等,并且支援使用者自定義接入計算和存儲服務。DataWorks為您提供全鍊路智能大資料及AI開發和治理服務。
從下圖可以看到DataWorks在阿裡雲大資料和AI平台中的位置:

(圖檔來自雲栖社群)
DataWorks起到的作用包括:
- 最底層的統一進制資料管理。
- 中間層的統一排程、統一編排
- 最上層的資料綜合治理,包括:資料發現、資料建構、資料豐富、資料分類、資料剖析、資料血緣、資料分析、資料查詢、資料管理、資料交換
阿裡雲在本次雲栖大會上釋出了DataWorks V3.0,突出特點包括:
- 全面支援開源大資料生态
- 更新混合排程能力、支援跨引擎、跨地域、跨雲混合排程
- AI加持
- 更新資料綜合治理、包括中繼資料自動發現、資料探查、洞察、透視分析,完善資料品質控制與安全審計機制。
随着DataWorks3.0 的釋出,阿裡雲就是要打破資料量與成本的線性關系,通過性能優化、存儲空間優化和智能資料治理降低客戶上雲成本。國内最大的IT技術網站CSDN通過引入DataWorks實作了基于飛天大資料平台的新媒體資料中台,計算效率提升近3倍、輔助提升業務名額30-50%,成本降低30%。CSDN 通過DataWorks支援的業務線包括:商場、部落格、下載下傳、學院、論壇、問答、使用者等。
能否妥善解決資料的安全問題是企業上雲最大的顧慮之一,DataWorks的資料應用安全解決方案能夠提升企業使用者在權限管控、資料保護、風險治理方面的能力,防止企業的資料被洩露、濫用、誤用。
- 整個阿裡雲的大資料平台包括MaxCompute、DataWorks等,都基于MAC(強制通路控制),不同于DAC(自主通路控制),在MAC中所有的主體(使用者)、客體(資料)都被打上了安全标簽,隻有滿足系統安全政策定義的操作才被允許執行。
- 權限管控可以細化到表甚至字段級别,可以保證敏感資料不被低安全級别的主體所通路。
- 對資源的授權和使用操作都将計入行為審計日志中,可以根據使用者的行為随時回收權限。
- 針對資料内容的保護提供靜态脫敏和查分隐私兩種方案,針對普通的資料保護需求可以使用靜态脫敏,針對資料要提供給第三方進行大資料分析的場景可以使用差分脫敏技術,使得經過脫敏變換後的資料在統計學上與原資料具有相同的統計學特征。
差分隐私,脫敏後的資料和源資料具有相同的統計特征,使得資料可用不可見。
(圖檔來自雲栖社群)
最後是DataWorks3.0 功能細節的介紹,DataWorks3.0 的改進包括但不限于如下方面:
- 全域資料內建、新增異構資料源之間傳輸過程中的資料轉換能力,支援資料過濾、連接配接、聯合、聚合等操作,完整支援ETL能力體系。
- 全域資料開發平台XStudio、提供完全的插件化架構,支援各類計算引擎開發插件,提供智能代碼編輯器及DAG-SQL(界面拖拽和SQL語句)互相轉換、提供作業統一排程能力。
- 混合編排排程、支援跨引擎(支援開源和E-MapReduce)、跨雲混合編排排程和跨地域依賴排程,支援千萬級别的任務排程管理。
- 自定義計算節點接入、支援自建的計算節點接入DataWorks,支援資料庫、自建Hadoop/Spark叢集以及其他雲廠商的計算服務。
- 資料綜合治理、提供資料發現機制,支援統一的中繼資料采集和資料資産目錄建構,支援資料探查與資料分析、聯邦查詢及資源優化服務。
基于以上這些功能特性,阿裡雲提出了《DataWorks3.0 混合雲》和《DataWorks3.0 資料湖》兩個結局方案。混合雲解決方案通過将線下資料中心的計算節點接入到DataWorks實作全域資料內建以及統一的排程和開發。資料湖解決方案主要應用了資料治理和聯邦查詢方面的功能。
以上,就是我在2019杭州雲栖大會《大資料企業服務》分會場看到的主要内容。
今天是大年初一,祝大家新年快樂,緻敬還奮戰在一線的醫務人員們。