天天看點

資料的“靈活制造”,DataWorks一站式資料開發治理範式演進 | 《一站式大資料開發治理DataWorks使用寶典》

企業大資料技術發展至今,曆經了兩次蛻變。第一次蛻變從最初的“小作坊”解決大資料問題,到後來企業用各類大資料技術搭建起屬于自己的“大平台”,通過平台化的能力完成資料生産力的更新。第二次蛻變讓大資料從“大平台”向“靈活制造”的開發範式演進。基于DataWorks的一站式大資料開發治理的平台,就是這個蛻變最好的佐證。

資料的“靈活制造”,DataWorks一站式資料開發治理範式演進 | 《一站式大資料開發治理DataWorks使用寶典》

2021阿裡雲開發者大會主論壇

阿裡巴巴集團副總裁,阿裡雲計算平台事業部進階研究員賈揚清

誕生于2009年阿裡巴巴集團内部的DataWorks,不僅見證了阿裡巴巴十多年大資料幾次蛻變發展,更是阿裡巴巴資料中台建設的最佳實踐之一。DataWorks以一站式的理念,通過一條資料開發鍊路,一套資料标準架構,一套資料治理體系,與大資料計算引擎結合,讓企業擁有一站式的資料開發與治理能力。

資料的“靈活制造”,DataWorks一站式資料開發治理範式演進 | 《一站式大資料開發治理DataWorks使用寶典》
如今 DataWorks平台可以支撐阿裡巴巴内部上百個業務團隊的資料業務建設,每天穩定排程上千萬資料處理任務。阿裡巴巴每天有超過5萬名員工在DataWorks上完成資料分析、資料開發和資料治理工作。

一、企業數字化轉型的挑戰

企業數字化轉型發展到一定階段以後通常會面臨這些問題:

1)資料來自于不同地域的資料中心,比如阿裡雲上有公共雲、專有雲,對于企業來講也有自己的私域,同時又要服務企業外部的客戶與合作夥伴,資料非常分散。

2)大資料的引擎百花齊放,選擇多樣。不管是阿裡自研的SaaS模式雲資料倉庫

MaxCompute、互動式分析Hologres和分析型資料庫AnalyticDB,還是開源的

E-MapReduce、CDH、Flink、Elasticsearch等等,種類極為豐富,我們很難說哪一款産品是最好的,對于企業來說這種技術選型是多樣的,按需的。

3)資料與AI及應用如何更好地結合?大資料加工處理完的資料還需要結合AI算法,以服務化的方式給到資料應用,如何實作BI與AI一體化,釋放資料價值。

二、DataWorks核心能力

針對以上痛點,DataWorks可以幫助企業實作資料內建、資料開發、資料治理和資料服務,将大資料全生命周期管理整合到一條完整鍊路中。

(一)一條資料開發鍊路

資料的“靈活制造”,DataWorks一站式資料開發治理範式演進 | 《一站式大資料開發治理DataWorks使用寶典》

首先滿足企業資料打通的需求。DataWorks資料內建能夠在複雜網絡條件下,打通各個異構資料源的傳輸通道,實作近50種異構資料源的離線/實時的同步,且支援線下資料庫批量同步到雲上,提高資料上雲效率,讓企業更好地邁出大資料建設的“第一步”。

其次,DataWorks底層對接了MaxCompute、E-MapReduce、CDH、Hologres、AnalyticDB、實時計算Flink版等大資料引擎,讓多種計算引擎的資料開發治理工作都可以在同一個平台一站式的完成。在DataWorks上,開發人員可以通過DAG圖拖拽節點的方式開發資料節點,按照企業業務流程設計編排資料任務節點依賴關系,對資料進行一站式地抽取、處理、轉換後産出業務所需的結果表。

開發好的任務可以釋出到運維中心定時自動排程運作,DataWorks強大的任務排程能力可以提供每日千萬級的大規模、周期性任務的排程,經曆多年“雙11”千萬級排程考驗,能夠滿足企業資料任務穩定産出的需求,保障資料生産的時效性與穩定性。在任務運維上,DataWorks提供了資料發現、資料安全、資料品質、智能監控、資源優化等豐富的功能,可以很大程度上降低企業任務運維的難度和成本。

資料的“靈活制造”,DataWorks一站式資料開發治理範式演進 | 《一站式大資料開發治理DataWorks使用寶典》

最後,大資料平台加工好的資料集可以無縫對接到機器學習平台中進行AI訓練與線上預測服務,也可以通過資料服務以API形式零代碼實作資料分享,在保證安全的情況下,去進行不同部門或者不同業務、不同應用間的資料共享,支撐BI、大屏等各類資料應用,而“低代碼化”的資料分析和資料服務化工具可以幫助業務人員快速從資料中獲得商業洞察。

(二)一套資料标準架構

對于企業而言,資料絕不是簡單地堆積在一起,阿裡巴巴通過資料中台建設,規範了集團統一的資料标準架構,将資料進行清晰的結構分層,每一層又有明确的範圍與邊界。在貼源層,企業将完成全域資料的彙聚,保留所有的原始資料。在整合層,企業通過資料标準、資料模組化等方式确立資料的規範體系。在彙總層,企業将基于業務需求對資料進行彙總加工,提煉公共的資料名額。在應用層,面向前台業務應用建構資料集市,為應用提供源源不斷的高品質資料服務。這一套架構本身不具備産品化能力,但企業可以基于DataWorks,快速複制這套資料标準架構。

資料的“靈活制造”,DataWorks一站式資料開發治理範式演進 | 《一站式大資料開發治理DataWorks使用寶典》

(三)一套資料治理體系

企業如何管理資料資産?如何保障資料品質?如何保障資料安全?如何有效地控制成本以及減少不必要浪費?這些問題都對資料治理提出了更高的要求。正常來講,各類資料治理工作通過人工的方式其實也能夠完成,但是阿裡巴巴現在每天處理EB級的資料,每天排程的任務數在千萬級,很難想象靠人工來完成所有的治理工作。DataWorks将阿裡巴巴十多年資料治理的實踐沉澱成産品化能力,完整覆寫模型設計、資料品質管理、中繼資料管理、安全管理等貫穿資料加工處理和使用的全鍊路所需的治理能力。一個平台,就具備一套完整的體系化的能力。

資料的“靈活制造”,DataWorks一站式資料開發治理範式演進 | 《一站式大資料開發治理DataWorks使用寶典》

此外,DataWorks資料模組化産品能力,可以讓企業從業務視角進行數倉規劃、資料标準定義、次元模組化和資料名額設計,用規範化的“圖紙”指導大資料“建設”工作,提升企業資料中台建設的規範性和标準性,大大降低企業資料中台建設門檻和成本。

DataWorks将持續加大與生态夥伴合作,推出具備不同行業屬性和不同模組化方法的資料模組化類産品,以支撐不同行業不同場景的數倉模型設計。

三、DataWorks産品架構

DataWorks覆寫了資料同步、中繼資料、資料開發、資料資産、資料品質、資料地圖、任務運維、資料安全、資料分析、資料服務、資源優化等資料全生命周期的治理能力。

資料的“靈活制造”,DataWorks一站式資料開發治理範式演進 | 《一站式大資料開發治理DataWorks使用寶典》

在這些能力之上,DataWorks提供了開放平台Open API,企業開發人員可以通過API調用的方式來使用DataWorks的能力,如此企業就可以将DataWorks強大的排程能力以及資料治理等功能內建到企業自己研發的資料平台中,基于Open API做定制化的功能,極大地提高了DataWorks功能使用的靈活性。

四、DataWorks産品商業化

DataWorks的收費模式是由兩部分組成的,第一個是産品版本,第二個是付費資源。

關于産品版本,DataWorks産品版本分為基礎版、标準版、專業版、企業版和旗艦版。基礎版免費,隻要開通DataWorks按量付費即可使用基礎版功能,其他版本都是包年包月形式,可以按月或者按年購買使用。

關于付費資源,DataWorks付費資源主要是按量付費和獨享資源。按量付費使用DataWorks的公共調用資源池,屬于争搶資源,可能會出現等待資源的情況,費用按實際執行個體使用量計算;獨享資源為包年包月的付費形式,使用者可以按需購買使用,屬于購買使用者專用的機器資源,如果需要定時産出報表、定時大量資料同步時,推薦購買獨享資源,獨享資源有水位的監控,在運維中心可以看到,可以保證資料任務按時排程執行。

此外,DataWorks付費資源和MaxCompute等引擎的資源是不同的,引擎資源産生的費用主要為資料存儲和計算費用,而DataWorks的付費資源用于滿足任務的排程執行。

五、總結

以上是關于DataWorks産品的全部介紹内容,後續會有針對DataWorks各個産品子產品能力的詳細介紹。

事實上,DataWorks已經應用到各行各業的數字化轉型中。在工業行業,DataWorks幫助三一重工打通86個核心業務系統,處理每月50PB的各類圖像、視訊、物聯網資料,建設業内場景最全的資料中台。在能源行業,DataWorks幫助企業建立10餘種資料中台營運規範,完成四大場景50+名額産出,規範資料治理流程,提升資料可用率。在鋼鐵行業,DataWorks讓資料在資料中台進行自由流動,保證資料準确、準時、一緻,讓企業綜合成本削減1億元。在網際網路行業,得物APP通過DataWorks OpenAPI建構全鍊路資料血緣,自主研發全鍊路解析能力,下線2萬張表與近千個計算任務,讓企業成本降低20%。

資料的“靈活制造”,DataWorks一站式資料開發治理範式演進 | 《一站式大資料開發治理DataWorks使用寶典》

未來企業的數字化轉型将對資料的治理與分析提出更高的要求,DataWorks将幫助企業快速建構資料中台,通過全鍊路的資料治理提供高品質的資料底座,讓資料的“靈活制造”成為企業數字化的“靈活轉型”。 

DataWorks官網:

https://www.aliyun.com/product/bigdata/ide

大資料&AI體驗館:

https://workbench.data.aliyun.com/experience.htm

繼續閱讀