天天看點

治理企業“資料懸河”,阿裡雲DataWorks全鍊路資料治理新品釋出

10月19日,在2021年雲栖大會上,阿裡雲重磅釋出DataWorks全鍊路資料治理産品體系,基于資料倉庫,資料湖、湖倉一體等多種大資料架構,DataWorks幫助企業治理内部不斷上漲的“資料懸河”,釋放企業的資料生産力。

治理企業“資料懸河”,阿裡雲DataWorks全鍊路資料治理新品釋出

阿裡巴巴集團副總裁 阿裡雲智能計算平台事業部進階研究員賈揚清現場分享

“當資料量變得越來越大,機關資料的價值會變得越來越小,全鍊路資料治理讓資料從低質低效向高質高效流動。”

阿裡巴巴集團副總裁,阿裡雲智能計算平台事業部進階研究員賈揚清在現場表示。黃河泥沙的淤積使河床不斷擡高,形成了河高于地平面的“地上懸河”,在河南開封,最高的懸河達到10米,并且河床每年都會以10厘米的速度增高,而随之而來的,兩邊的堤壩也在不斷地增高。在企業的數字化轉型中,資料量變得越來越大,機器變得越來越多,團隊變得越來越大,數字化轉型真的變得越來越好嗎?對于企業來說,表象的繁榮不代表未來不會發生一場“洪水”。在阿裡巴巴,雙11已經成為了日常,2021年大資料計算服務MaxCompute的日常資料處理的水位線已經超過2020年雙11的峰值,不斷增長的資料量已經造成了極大的成本與效率的壓力。

機器的效率+人的效率=資料的效率

面對每年如此膨脹的資料,阿裡巴巴的解法是通過大資料+AI一體化平台的能力,讓資料效率成為企業的核心名額。在機器的效率層面,MaxCompute作為離線數倉,單日資料處理量已經達到1.7EB,但是除了資料量,更應該關注的是MaxCompute僅用10%的機器增長,就支撐了75%的資料量增長。這裡面是MaxCompute在底層的存儲和性能不斷地追求極緻的優化,并且連續5年打破TPCx-BigBench 100TB規模性能世界記錄。同時Hologres作為實時數倉,峰值每秒寫入5.96億條,單表存儲高達2.5PB,基于萬億級資料對外提供多元分析和服務,99.99%的查詢可以在80ms以内傳回結果。Hologres與MaxCompute組成離線、實時、分析、服務一體化的資料倉庫,從底層就極大地簡化了大資料架構的複雜度。機器層面的效率往往容易被衡量,但是人的效率卻很難被量化。DataWorks從2009年開始成為阿裡巴巴集團統一的大資料開發治理平台,完成阿裡巴巴資料中台的搭建。對一個平台的完善性與易用性,使用者往往會用腳投票。目前在DataWorks上建構的大規模協同資料中台的每日活躍使用者數已經超過5萬,平均每3個阿裡巴巴員工就有1個在使用DataWorks,服務阿裡巴巴内部幾乎所有部門,沉澱的全鍊路資料治理核心能力超過數百項。FY2020,阿裡巴巴通過資料治理的綜合收益超過10億元,可以說大資料開發治理平台DataWorks與計算引擎MaxCompute、Hologres組成了大資料架構下的“Wintel聯盟”,共同提高企業資料的效率。

治理企業“資料懸河”,阿裡雲DataWorks全鍊路資料治理新品釋出

建設經驗:從小作坊到大平台到靈活制造

資料治理也好、資料中台也好,從來也不是一個從象牙塔裡想出來的産品,而是經過很多年磨出來的。阿裡巴巴的數字化轉型也經曆過刀耕火種的年代,每個業務團隊維護多套Hadoop叢集,像一個個小作坊:有什麼用什麼,需要什麼加什麼,各種技術元件像搭積木一樣逐漸堆砌起來。而在這個過程中,經常會非常痛苦,平台釋出了一個新的功能,不知道什麼原因把另一個元件搞挂了,然後技術人員花很長時間去排查另一個元件有什麼問題,修複了一個元件,釋出了一下,又把另一個搞挂了,問題不斷冒出就像“按下葫蘆浮起瓢”,好像永遠沒有盡頭。于是,阿裡巴巴開始轟轟烈烈的平台統一計劃,搭建起了大平台,把開源的架構改成自研的架構,資料逐漸都遷移到MaxCompute上。這個時候資料中台的概念也開始在集團内推廣,逐漸将3個ONE的資料中台方法論落地到DataWorks,完成了阿裡巴巴整個資料中台的搭建。至此,從核心的電商天貓淘寶,到餓了麼、優酷、盒馬等各個業務團隊都在同一套大平台上進行一站式的協同資料開發。但是随着大平台的普及,使用的人數越來越多,資料的治理也會越變得更加複雜。在不斷産生成千上萬張表中,企業無法知道有多少條不規範的語句像白蟻一樣正在消耗大量的計算資源;有多少張表正在重複地被複制,制造表象的“資料繁榮”;有多少髒資料在不斷生産污染資料的品質;有多少張表正在被不斷申請權限使用,面臨資料安全的風險。這些問題都對大平台提出了嚴峻的挑戰。于是,大平台逐漸往靈活制造不斷演進,通過全鍊路的資料治理能力,以全局的視角進行管控,并同時實作資料的決策的下放。

治理企業“資料懸河”,阿裡雲DataWorks全鍊路資料治理新品釋出

DataWorks全鍊路資料治理新品釋出

2021雲栖大會全鍊路資料治理峰會,DataWorks在十二年積累的數百項資料開發治理能力之上,重磅釋出全鍊路資料治理系列新品。

資料治理中心

資料治理對于企業的大資料團隊,不單是一個技術問題,更是組織和管理問題。對于整個組織來說,如何來衡量資料治理最終的效果?如何更好地發揮組織的主動性?在一些企業當中,會成立了專門的資料委員會,制定一些資料治理的規範,但是發現平台并不能很好地支援這些規範,又或者說企業購買了一個資料平台,但是卻不知道如何通過平台來完成資料治理的工作。在阿裡巴巴内部經常會參考一個健康分的概念,從組織設計上,資料委員會下面有平台團隊,業務團隊,以及風控、财務等協同團隊。那對于某個業務團隊來說,會制定一個今年的目标比如說把健康分從80分提升為90分,從計算、存儲等方面入手,不單從業務側、生産側開展治理優化工作,有需求也會提給資料平台團隊,對引擎和資料平台産品進行優化演進,大家一起朝這個目标努力。組織有了可測量的方式,這些部門就可以把這些數字放到自己的目标裡去。同時各類的資料治理戰役,各個團隊的比武等等長效的營運工作,也可以通過健康分做不斷地延展,達到組織資料協同的目的,發揮資料治理組織的主動性。

治理企業“資料懸河”,阿裡雲DataWorks全鍊路資料治理新品釋出

DataWorks全新釋出的資料治理中心,針對企業計算、存儲、研發、品質、安全五個方面形成企業資料治理健康分,以問題驅動的理念,覆寫事前、事中、事後的全鍊路主動式資料治理和資料治理健康度評估。企業的資料治理不再一個 “階段性項目”,而是一個“可持續的營運項目”。

治理企業“資料懸河”,阿裡雲DataWorks全鍊路資料治理新品釋出

智能資料模組化

企業建了一個平台,做了很多規範治理,對于業務人員的價值到底是什麼?省了多少成本,治理了多少問題,對于業務人員相對是無感的。業務方隻希望更快地拿到想要的資料,于是原先的資料倉庫建設方式更多的是自底向上小步快跑,快速滿足需求為先。而如今的全鍊路資料治理,讓資料倉庫的建設向規範化,可持續發展方向演進,強調面向業務視角自頂向下進行規範模組化與面向開發視角自底向上建構數倉雙管齊下。

治理企業“資料懸河”,阿裡雲DataWorks全鍊路資料治理新品釋出

DataWorks全新釋出智能資料模組化,沉澱阿裡巴巴資料中台建設方法論,從數倉規劃、資料标準、次元模組化、資料名額四個方面,以業務視角對業務的資料業務進行诠釋。智能資料模組化支援快速資料模組化,包含正向模組化與逆向模組化,提供分鐘級的模型建立能力。同時打通資料開發,可以直接将資料模型釋出到多個引擎,一鍵生成品質規則,直接釋出表并自動生成ETL簡代碼。企業的業務人員可以友善地了解資料全貌,快速擷取所需的資料名額以及基于資料模型進行資料分析和探查,企業内所有的員⼯可以實作“數同⽂”的快速了解與流通,讓資料決策可以實作真正有效的下放!

治理企業“資料懸河”,阿裡雲DataWorks全鍊路資料治理新品釋出

盒馬鮮生通過DataWorks智能資料模組化落地新零售行業資料模型Rex-LDM

同時,現場還釋出了DataWorks資料內建實時同步能力、智能資料查詢、隐私安全計算、DataWorks開放平台、資料作業遷雲工具與遷雲專家服務等多項功能。

治理企業“資料懸河”,阿裡雲DataWorks全鍊路資料治理新品釋出

中國信通院在2021年9月釋出的《全球數字經濟白皮書》報道,去年我國的數字經濟規模已經達到5.4萬億美元,占比GDP近1/3。在數字經濟時代,資料已經成為關鍵生産要素,就像在農業經濟時代和工業經濟時代中,土地、勞動力是關鍵的生産要素。DataWorks通過智能資料模組化、全域資料內建、高效資料生産、主動資料管理、全面資料安全、快速資料服務六大全鍊路資料治理的能力,承載千行百業數字化轉型的可能。目前,DataWorks已經在數字政府、新金融、新零售、能源、工業、交通、遊戲、教育、數字營銷等行業落地數千家客戶。

國家電網大資料中心通過DataWorks實作總部+27家省(市)公司PB級資料的統一管理,通過全鍊路資料中台的治理與監測營運體系,加快電網整體數字化轉型更新。

創夢天地基于開源的EMR引擎,用DataWorks替換自研排程系統,企業内部的技術人員可以更加專注業務,助力遊戲行業的資料化營運。

億滋中國通過DataWorks智能資料模組化進行全鍊路的資料模型治理,極大提升資料中台的自服務能⼒,讓企業資料決策實作下放,釋放新零售的數字化力量。

治理企業“資料懸河”,阿裡雲DataWorks全鍊路資料治理新品釋出

企業數字化轉型正在進入的深水區,“資料懸河”将逐漸成為企業的“達摩克斯之劍”,阿裡雲正在與各行各業的客戶與合作夥伴一起,通過全鍊路資料治理,管得好資料、用得好資料,讓資料向先進生産力集聚!

DataWorks産品官網:

https://www.aliyun.com/product/bigdata/ide

DataWorks釘釘交流群:

治理企業“資料懸河”,阿裡雲DataWorks全鍊路資料治理新品釋出

繼續閱讀