天天看點

【技術史】資料中台的前世今生1、緣起2、發展3、從資料成本到資料價值4、集大成

前言:

-更多關于數智化轉型、資料中台内容請加入

阿裡雲資料中台交流群—數智俱樂部 和關注官方微信公總号(文末掃描二維碼或 點此加入

-阿裡雲資料中台官網 https://dp.alibaba.com/index

資料中台自14年至今,已然成為了2B、2G業務最熱門的話題,政府機構、企事業機關、網際網路公司等進行着數字化、資料化、智能化轉型。市場普遍認為,阿裡巴巴将自身資料中台建設能力對外賦能是拉起本輪資料中台浪潮的根本所在。

本文将帶你全面了解阿裡巴巴做資料中台的曆史。

1、緣起

在2014年以前,阿裡巴巴有很多條業務線,都有自己的ETL團隊,每個ETL團隊建設和維護自己的資料體系。當時許多人認為,這種自下而上的自給自足能夠最高效地滿足業務需求。也是以,各個ETL團隊之間缺乏互相信任,也缺乏最大化互通的可能性。

即便在2020年的很多公司,這種現象也普通存在。不同部門、不同業務、不同系統之間都有自己單獨的ETL處理體系,每個ETL體系隻關注與自己垂直業務相關的需求,并從底向上完整支撐業務體系。這種情況的出現,大多是由于業務發展迅速,為了快速低成本的滿足業務資料需求,單獨拉出資料支撐團隊造成的。

對于當時的阿裡巴巴而言,這種分散資料處理體系帶來了很多問題。以日志采集資料為例,就同時存在若幹份資料:淘寶資料基礎層、廣告資料基礎層、搜尋資料基礎層各有一份日志資料,不僅直接耗費了非常多的存儲資源,更重要的是扼殺了資料中間層和資料應用層等複用的可能性。

【技術史】資料中台的前世今生1、緣起2、發展3、從資料成本到資料價值4、集大成

圖2014年以前阿裡巴巴分業務自建資料體系的抽象圖

下圖展示的是2014年以前,阿裡巴巴各個資料團隊建設的資料任務關系圖。每個圓形代表着一條業務線的資料任務集合,任意兩個圓形之間的連線代表着兩者的關系。由此可見:資料處理流向是混亂的、無方向性的;資料管理是無序的,基本處于失控狀态;除了浪費研發資源和存儲資源,也必然滿足不了業務需求。

【技術史】資料中台的前世今生1、緣起2、發展3、從資料成本到資料價值4、集大成

圖阿裡巴巴資料公共層建設之初計算環境1上的資料任務關系圖

業務猛烈發展與資料支撐能力不比對産生了巨大的沖突,也促使阿裡巴巴内部開始進行資料公共層的建設,資料公共層旨在可持續地建設阿裡巴巴智能大資料體系。

2、發展

- 從零散的資料到統一的資料

從2014年起,阿裡巴巴啟動資料公共層建設項目,以OneData體系特别是方法論為指導。

資料公共層建設初期是為了消除因"煙囪式"開發給業務帶來的困擾和技術上的浪費。而OneData體系是保障和推進項目建設的關鍵。OneData體系一方面緻力于資料标準的統一,另一方面追求讓資料變為資産而非成本。OneData體系除了方法論,還包含工具型産品、規範等,具體展現為:資料規範定義、資料模型定義、模型智能化設計、規範ETL開發、落實資料規範和模型定義的研發工具、對于整個體系的自動化調優和監控。

通過建設統一的ODS資料基礎層,建設基于業務應用或需求來源端的抽象資料邏輯層來豐富資料中間層,允許資料應用層的百花齊放來打造阿裡巴巴資料公共層。進而将零散的資料變為統一的資料。

**- 從資料孤島到資料融通

**

在業務突飛猛進發展過程中,不同的事業部、業務條線會為了快速實作需求,資料單獨定義、存儲、使用,從客觀性來講,每個發展壯大的企事業機關都避免不了資料孤島的産生。資料孤島不僅包含實體孤島(獨立存儲、維護、使用),而且包含邏輯孤島(定義不一緻、計算邏輯不一緻)。

阿裡巴巴創新性的建立OneID體系,将所有業務範圍(電商、金融、廣告、物流、文化、教育、娛樂、裝置、社交等)中的人、貨、場、物、錢等實體打通,解決體系内邏輯性資料孤島問題。在阿裡雲的強力支撐下,集團内所有隔離資料進行統一的存儲和管理,解決體系内實體孤島問題。

從資料孤島到資料融通,使得資料擁有創造價值的可能性。

**- 從授人以魚到授人以漁

從以定制化開發的方式将資料傳遞到業務人員,到基于資料規範但需要配置,再到全鍊路資料打通,直到主題式服務,阿裡巴巴一次次努力追求的正式從授人以魚到授人以漁。

2012年前後,服務于1688有超過300多個API,梳理後發現這些API之間無法整合,因為每個API隻服務于一個業務應用而不能被共享,API應用的資料應用層資料表也不能被共享。

從2012年至2016年,阿裡巴巴通過OneService體系将API資料服務從實體表SQL模式更新至面向主體查詢邏輯模型的SQL模型,大大提升了系統的可用性,也使得資料中台面向業務人員使用變成了現實,達到了授人以漁的目标。

3、從資料成本到資料價值

對于大部分企業來說,業務系統創造的資料不僅需要占據大部分的存儲空間,而且還需要技術人員持續維護,是一筆不小的成本開支。

阿裡巴巴緻力于将資料從成本中心變為資産中心,在業務資料化與資料業務化兩大方向,資料賦能業務、驅動創新四大業務場景上取得了豐碩的成功。

資料中台賦能業務、驅動創新的四大典型場景包含:全局資料監控、資料化營運、資料植入業務、資料業務化。

全局資料監控,如戰略決策的智能方案:最大限度降低資料分析的難度,最大程度提高資料分析效果,同時不動聲色中傳遞品牌價值,以高效優質地輔助戰略決策和資料化營運。

【技術史】資料中台的前世今生1、緣起2、發展3、從資料成本到資料價值4、集大成

圖雙十一資料大屏&銀泰互動大屏

資料化營運,如使用者管理的智能方案:基于全鍊路全管道的資料建構、資料連接配接與萃取管理體系,對使用者進行全生命周期的精細化管理(如智能CRM)。

2017年熱播的一部電視劇,該電視劇在優酷洋芋獨家播放十天,播放量就突破了60億次,屬于"現象級IP"。但這樣的"現象級IP"并不是偶然産生的,除資本投入因素外,資料化營運在其中發揮了巨大的作用。

事前通過輿情分析鎖定IP,及時獨立采購IP;事中實時監控流量變化、播放情況,及時調整流量入口,有針對性的推送使用者;事後,及時總結和複盤,進行使用者沉澱,挖掘相似内容,形成閉環。

*資料植入業務:智能圖像鑒别,智能客服。

通過資料模型算法,将圖像鑒别從手工變為自動化,節省95%以上工作量。*

【技術史】資料中台的前世今生1、緣起2、發展3、從資料成本到資料價值4、集大成

圖資料智能植入業務系統

資料業務化,如零售管理的智能方案:規避傳統零售的松散式管理,将庫存、定價、補貨、銷售等統一協同,整體提升線上線下零售體驗和效果(如生意參謀)。

4、集大成

到今天為止,阿裡雲資料中台體系(核心産品:Dataphin、QuickBI、Quick Audience、Quick A+)經曆了阿裡幾乎所有業務的考驗,包含新零售、金融、物流、營銷、旅遊、健康、大文娛、社交領域。在此過程中,雲上資料中台除了形成自己的核心能力外,更向上"賦能業務前台"、向下與"統一計算背景"連接配接并與之融為一體,形成雲上資料中台業務模式。

同時,阿裡巴巴從2018開始,将自身的資料中台能力向外輸出賦能,對社會創造更多價值。

資料中台是企業數智化的新基建,阿裡巴巴認為資料中台是集方法論、工具、組織于一體的,“快”、“準”、“全”、“統”、“通”的智能大資料體系。目前正通過阿裡雲資料中台解決方案對外輸出,包括

零售

金融 網際網路 政務

等領域,其中核心産品有:

官方站點:

資料中台官網

https://dp.alibaba.com
【技術史】資料中台的前世今生1、緣起2、發展3、從資料成本到資料價值4、集大成