前言:
-更多關于數智化轉型、資料中台内容請加入
阿裡雲資料中台交流群—數智俱樂部 和關注官方微信公總号(文末掃描二維碼或 點此加入 )-阿裡雲資料中台官網 https://dp.alibaba.com/index
來源:數智化轉型俱樂部
阿裡巴巴集團很早就已經把大資料作為其戰略目标實施,而且其各個業務也非常依賴資料支撐營運,那麼阿裡巴巴究竟采取何種方法建構自己的資料倉庫模型呢?阿裡巴巴的資料倉庫模型建設經曆了多個發展階段。
1.完全應用驅動時代
第一個階段:完全應用驅動的時代,阿裡巴巴的第一代資料倉庫系統建構在Oracle上,資料完全以滿足報表需求為目的,将資料以與源結構相同的方式同步到Oracle(稱作ODS層),資料工程師基于ODS資料進行統計,基本沒有系統化的模型方法體系,完全基于對Oracle資料庫特性的利用進行資料存儲和加工,部分采用一些次元模組化的緩慢變化維方式進行曆史資料處理。這時候的資料架構隻有兩層,即ODS+DSS。
2.四層模型架構時代
第二個階段:随着阿裡巴巴業務的快速發展,資料量也在飛速增長,性能成為一個較大的問題,是以引入了當時MPP架構體系的Greenplum,同時阿裡巴巴的資料團隊也在着手進行一定的資料架構優化,希望通過一些模型技術改變煙囪式的開發模型,消除一些備援,提升資料的一緻性。來自傳統行業的資料倉庫工程師開始嘗試将工程領域比較流行的ER模型+次元模型方式應用到阿裡巴巴集團,建構出一個四層的模型架構,即ODL(操作資料層)+BDL(基礎資料層)+IDL(接口資料層)+ADL(應用資料層)。ODL和源系統保持一緻;BDL希望引入ER模型,加強資料的整合,建構一緻的基礎資料模型;IDL基于次元模型方法建構集市層;ADL完成應用的個性化和基于展現需求的資料組裝。在此期間,我們在建構ER模型時遇到了比較大的困難和挑戰,網際網路業務的快速發展、人員的快速變化、業務知識功底的不夠全面,導緻ER模型設計遲遲不能産出。至此,我們也得到了一個經驗:在不太成熟、快速變化的業務面前,建構ER模型的風險非常大,不太适合去建構ER模型。
3.公共層模型資料架構體系時代
第三個階段:阿裡巴巴集團的業務和資料還在飛速發展,這時候迎來了以Hadoop為代表的分布式存儲計算平台的快速發展,同時阿裡巴巴集團自主研發的分布式計算平台MaxCompute也在緊鑼密鼓地進行着。我們在擁抱分布式計算平台的同時,也開始建設自己的第三代模型架構,這時候需要找到既适合阿裡巴巴集團業務發展,又能充分利用分布式計算平台能力的資料模型方式。我們選擇了以Kimball的次元模組化為核心理念的模型方法論,同時對其進行了一定的更新和擴充,建構了阿裡巴巴集團的公共層模型資料架構體系。
資料公共層建設的目的是着力解決資料存儲和計算的共享問題。阿裡巴巴集團當下已經發展為多個BU,各個業務産生龐大的資料,并且資料每年以近2.5倍的速度在增長,資料的增長遠遠超過業務的增長,帶來的成本開銷也是非常令人擔憂的。
阿裡巴巴資料公共層建設的指導方法是一套統一化的集團資料整合及管理的方法體系(在内部這一體系稱為“OneData”),其包括一緻性的名額定義體系、模型設計方法體系以及配套工具。注:本書中出現的部分專有名詞、專業術語、産品名稱、軟體項目名稱、工具名稱等,是淘寶(中國)軟體有限公司内部項目的慣用詞語,如與第三方名稱雷同,實屬巧合。
節選自《大資料之路:阿裡巴巴大資料實踐》已受版權保護,未經授權不得轉載
**
連載:阿裡巴巴大資料實踐—資料開發平台>> 連載:阿裡巴巴大資料實踐—實時技術>> 連載:阿裡巴巴大資料實踐—資料服務>> 連載:阿裡巴巴大資料實踐—資料模組化綜述資料中台是企業數智化的新基建,阿裡巴巴認為資料中台是集方法論、工具、組織于一體的,“快”、“準”、“全”、“統”、“通”的智能大資料體系。目前正通過阿裡雲資料中台解決方案對外輸出,包括
零售、
金融 網際網路 政務等領域,其中核心産品有:
- Dataphin,一站式、智能化的資料建構及管理平台 ;
- Quick BI,随時随地 智能決策
- Quick Audience,全方位洞察、全域營銷、智能增長
- Quick A+, 跨多端全域應用體驗分析及洞察的一站式資料化營運平台
官方站點:
資料中台官網
https://dp.alibaba.com