天天看點

資料中台演進的四個階段資料中台最終要幫助企業降本增效資料中台發展經曆了四個階段資料中台需要具備三大能力

口述者行在(張金銀),奇點雲CEO,阿裡巴巴第一個資料倉庫的建立者,阿裡巴巴第一個消費者資料平台TCIF的建立者,阿裡雲資料智能平台數加的創始人,2004年以資料技術專家身份加入阿裡巴巴以來,12年來一直投身于大資料事業。2016年離開阿裡巴巴,創立奇點雲,旨在用「AI驅動的資料中台」賦能線下,讓商業更智能。

資料中台演進的四個階段資料中台最終要幫助企業降本增效資料中台發展經曆了四個階段資料中台需要具備三大能力

2009年,阿裡雲開啟了中國的雲時代。

十年市場教育,中國的公有雲市場也已經從無到有,邁過了300億元大關,預計到2021年更是能達到900億元的規模。

「資料中台」已經從一個技術詞彙,慢慢轉變成為企業界的共識:如果想要在資訊商業中擁有一席之地,就必須要借助雲計算和資料的力量,完成企業的數字化轉型。

隻是,資料到底在轉型中扮演什麼樣的角色,要如何利用好資料,資料上雲後如何支援業務,企業需要哪些核心能力?這些問題,對于大多數的非技術業者而言,仍然是知其然不知其是以然。

一般而言,「資料上雲」更多強調的是資料的存儲和計算,而要讓資料能夠賦能業務,則更需要「資料中台」來進行資料處理,進而支援業務決策和優化營運。

這是「資料中台」和「資料上雲」最大的不同。

資料中台最終要幫助企業降本增效

作為資料業務領域的先行者,阿裡雲總裁張建鋒,在最新的演講中,把資料智能作為資料處理的核心能力:

今天處理資料絕大部分都不是單純靠算力,算力是基礎,而主要是靠上面的智能化的算法,算法跟各行各業的業務有密切相關,是以阿裡巴巴通過與各行各業合作,沉澱了一個完整的智能化平台。我們認為在基礎設施的雲化、核心技術的網際網路化以及在之上疊加大資料+智能化的平台和能力,完整地組成了阿裡雲智能的整體能力架構。這是我們核心的能力。

這裡面傳達出了幾個核心資訊:

1.雲計算為資料智能提供了基礎算力;

2.行業(經驗轉化而來的)算法是智能處理資料的主要工具;

3.資料+智能的平台和能力,前提是基礎設施的雲化和核心技術的網際網路化;

這是阿裡雲所認為的資料處理的能力架構,而在目前的市場上,我們通常把這種能力架構稱為「資料中台」。

輿論往往會更強調技術的作用,強調技術對業務的推動作用,但事實上,在商業領域,更多的時候,技術發展都是跟着業務走,技術的發展常常來自于業務需求和業務場景的倒逼。

例如,随着越來越多的企業把業務流程上雲,日益增長的資料存儲和仍然稀缺的資料應用就成為了企業的主要沖突之一,而且,這種沖突不是一天就能夠解決,需要從業務、技術、組織幾個不同的領域一起來探尋資料的解決方案。

簡單來說,「資料中台」就是這一系列解決方案的基礎設施。

資料中台不是一套軟體系統,也不是一個标準化産品,站在企業的角度上,資料中台更多地指向企業的業務目标,也即幫助企業沉澱業務能力,提升業務效率,最終完成數字化轉型。直白點說,中台隻講技術,不講業務,都是大忽悠。

這麼多年來,網際網路的發展都建立在更低成本、更高效率的連接配接之上,線下也一定會複制線上的發展邏輯,用更多連接配接帶來更多的資料。

比如,通過攝像頭,我們就可以低成本建立顧客的Face ID檔案,進而豐富人和店鋪的關系資料,店鋪進而可以根據資料分析結果,給顧客提供更有針對性的服務項目。

更多連接配接,更低成本,更高效率——所有跟流通相關的線下生意,資料中台的意義就在于降本增效,别無其他。

資料中台發展經曆了四個階段

在資料史上,2015年是一個重要的關口:2015年全年産生的資料量等于曆史上所有人類産生資料的總和,這是資料從乘數型增長全面轉向了指數型增長的方向标,海量資料處理成為全人類的挑戰;

同一時間,阿裡巴巴向外釋出了DT時代的提法,用Data Technology(DT,資料技術)替代了Information Technology(IT,資訊科技),強調資料技術将成為未來商業的驅動力。

一個标志性的事件是:阿裡巴巴用幾百人的營運團隊支撐了幾萬億的GMV,其中60%-70%來源于資料支援的機器決策,機器智能賦能業務,用更低的成本,更高的效率去服務顧客,提供千人幹面的個性化體驗。

未來學家認為,機器智能最終會超越人的智慧,而這兩者的臨界點就被稱為「奇點」。從這點來說,我們可以認為,阿裡巴巴已經跨越了奇點,真正成為一家資料公司。

下面我們從資料的角度來梳理下這個過程。

阿裡巴巴的資料處理經曆了四個階段,分别是:

一、資料庫階段,主要是OLTP(聯機事務處理)的需求;

二、資料倉庫階段,OLAP(聯機分析處理)成為主要需求;

三、資料平台階段,主要解決BI和報表需求的技術問題;

四、資料中台階段,通過系統來對接OLTP(事務處理)和OLAP(報表分析)的需求,強調資料業務化的能力。

資料中台演進的四個階段資料中台最終要幫助企業降本增效資料中台發展經曆了四個階段資料中台需要具備三大能力

(資料中台演進的四個階段)

第一個階段是資料庫階段。

淘寶還隻是一個簡單的網站,淘寶的整個結構就是前端的一些頁面,加上後端的DB(DataBase,資料庫),隻是個簡單的OLTP系統,主要就是交易的事務處理。

這個階段,網際網路黃頁才剛剛出現,資料來源大部分還是傳統商業的ERP/CRM的結構化資料,資料量并不大,也就是GB的級别。簡單的DB就能滿足需求。

這裡要說明的是,OLTP的交易場景和OLAP的分析場景差別在于,前者強調高并發、單條資料簡單提取和展示(增删改查),後者對并發的要求不高,但是需要打通不同的資料庫,比如ERP、CRM、行為資料等等,并且能夠進行批量的資料處理,也就是通常說的低并發,大批量(批處理)、面向分析(query+計算,用于制作報表)。

随着淘寶使用者超過100萬,分析需求的比重就越來越大。淘寶需要知道它的交易來自于哪些地區,來自于哪些人,誰在買淘寶的東西等等,于是,就進入了資料處理的第二個階段。

第二個階段是資料倉庫階段。

正如前文所述,OLTP和OLAP對資料存儲和計算的需求非常不一樣,前者處理的是結構化的交易資料,而OLAP對應的是網際網路資料,而網際網路裡面資料量最大的是網頁日志,90%以上的資料都是點選(log)什麼的非結構化的資料,而且資料量已經達到了TB的級别。

針對分析需求,就誕生了資料倉庫(DW,DataWarehouse),我2004年加入阿裡,用Oracle RAC搭建了阿裡巴巴第一個DW,解決大量資料的存儲和計算需求,也就是去把非結構化的資料轉化成結構化資料,存儲下來。

這個階段,DW支援的主要就是BI和報表需求。

順帶提一下,資料庫(DB)這時也在從傳統DB轉向分布式DB。主要原因是以前交易穩定,并發可控,傳統DB能滿足需求,但是後來随着交易量的增長,并發越來越不可控,對分布式DB的需求也就出來了。

随着資料量越來越大,從TB進入了PB級别,原來的技術架構越來越不能支援海量資料處理,這時候就進入了第三個階段。

第三個階段是資料平台階段,這個階段解決的還是BI和報表需求,但是主要是在解決底層的技術問題,也就是資料庫架構設計的問題。

這在資料庫技術領域被概括為「Shared Everything、Shared Nothing、或Shared Disk」,說的就是資料庫架構設計本身的不同技術思路之争。

Shared Everything一般是針對單個主機,完全透明共享CPU/MEMORY/IO,并行處理能力是最差的,典型的代表SQLServer。

Shared Disk的代表是Oracle RAC,使用者通路RAC就像通路一個資料庫,但是這背後是一個叢集,RAC來保證這個叢集的資料一緻性。

問題在于,Oracle RAC是基于IOE架構的,所有資料用同一個EMC存儲。在海量資料處理上,IOE架構有天然的限制,不适合未來的發展。阿裡巴巴的第一個資料倉庫就是建立在Oracle RAC上,由于資料量增長太快,是以很快就到達20個節點,當時是全亞洲最大的Oracle RAC叢集,但阿裡巴巴早年算過一筆賬,如果仍然沿用IOE架構,那麼幾年後,阿裡的預計營收還遠遠趕不上伺服器的支出費用,就是說,如果不去IOE,阿裡會破産。

Shared Nothing的代表就是Hadoop。Hadoop的各個處理單元都有自己私有的存儲單元和處理單元,

各處理單元之間通過協定通信,并行處理和擴充能力更好。中間有一個分布式排程系統,會把表從實體存儲上水準分割,配置設定給多台伺服器。

Hadoop的好處是要增加資料處理的能力和容量,隻需要增加伺服器就好,成本不高,在海量資料處理和大規模并行處理上有很大優勢。

綜上,用一個關鍵詞來概括第三階段就是「去IOE」,建立Shared Nothing的海量資料處理平台來解決資料存儲成本增長過快的問題。在阿裡巴巴,前期是Hadoop,後期轉向自研的ODPS。

第四階段是資料中台階段。

這個階段的特征是資料量的指數級增長,從PB邁向了EB級别,未來會到什麼量級,我也說不清楚。

主要是因為,2015年之後,IOT(物聯網)發展起來,帶動了視圖聲(視訊、圖像、聲音)資料的增長,未來90%的資料可能都來自于視圖聲的非結構化資料,這些資料需要視覺計算技術、圖像解析的引擎+視訊解析的引擎+音頻解析的引擎來轉換成結構化資料。5G技術的發展,可能會進一步放大視圖聲資料的重要性。

線下要想和線上一樣,通過資料來改善業務,就要和線上一樣能做到行為可監測,資料可收集,這是前提。線下最大量的就是視圖聲資料,而這些資料靠人來手工收集,肯定是不靠譜的,依靠IOT技術和算法的進步,最終會通過智能端來自動化擷取資料。

要使用這些資料,光有視覺算法和智能端也不行,要有雲來存儲和處理這些資料,以及打通其他領域的資料。

另一方面,從業務來看,資料也好,資料分析也好,最終都是要為業務服務的。也就是說,要在系統層面能把OLAP和OLTP去做對接,這個對接不能靠人來完成,要靠智能算法。

目前的資料中台,最底下的資料平台還是偏技術的,是中台技術方案的其中一個元件,主要解決資料存儲和計算的問題;在上面就是一層資料服務層,資料服務層通過服務化API能夠把資料平台和前台的業務層對接;資料中台裡面就沒有人的事情,直接系統去做對接,通過智能算法,能把前台的分析需求和交易需求去做對接,最終賦能業務。

綜合上述兩個方面,我認為未來要做好資料中台,隻做雲或者隻做端都不靠譜,需要把兩者合起來做。智能端負責資料的收集,雲負責資料的存儲、計算、賦能。端能夠豐富雲,雲能夠賦能端。

未來的資料中台,一定是「AI驅動的資料中台」,這個中台包括「計算平台+算法模型+智能硬體」,不僅要在端上具備視覺資料的收集和分析能力,而且還要能通過Face ID,幫助企業去打通業務資料,最終建立線上線下觸達和服務消費者的能力。

真正做到「一切業務資料化,一切資料業務化」。

資料中台需要具備三大能力

那麼,資料中台是怎麼來賦能業務使用資料的呢?這裡舉一個TCIF的例子。

現在大家可能都認識到了統一消費者資料的必要性,但是在幾年前,哪怕是在阿裡巴巴,消費者的資訊也分散在各個業務中,碎片化、散點化,而業務當時需要把這些分散的人的資料集中起來,進行人群畫像。道理很明白,人群畫像越清晰,服務就會越精準。

怎麼統一消費者資料?

首先,定義埋點規範,同一個人就用同一個辨別,ID打通,也就是所謂的One ID;

其次,還會碰上一家人使用一個登入帳号的問題,那麼就需要建立同人的資料模型,通過一些方式,比如,IP網段是不是一樣,來分辨出具體的那個人,建立AID(Alibaba ID);

再次,每個人還有各種網絡行為,要如何把這些行為結構化,裝到各種架構裡面?這個特别難,我們當時主要是跟人類學家合作,一起把行為的分類樹做出來。這個分類樹非常細,甚至能夠把一個人的發質都結構化了。

最後,就需要通過算法模型,把所有的标簽都貼回到人上面,當時TCIF用上述方式生産出了3000多個消費者标簽。

這些标簽被阿裡巴巴的其他産品所使用,比如阿裡媽媽的達摩盤就把這些标簽提供給廣告主,讓廣告主能夠通過标簽去建立人群畫像,進行人群細分,以及建立投放用的人群包。

從TCIF的例子來看,資料中台未來一定需要具備三種能力。

第一是資料模型能力。

在業務層面,業務抽象能夠解決80%的共性問題,開放的系統架構來解決20%的個性問題,但同時又要把平台上的業務邏輯分開,因為不同的業務邏輯之間可能有沖突。

這在資料中台就表現為資料的中心化,也就是資料的高内聚、低耦合,需要對共性問題抽象出業務的規則,建立資料模型,一個好的内聚子產品能夠解決一個事情,同時又要降低子產品和子產品之間的耦合度,讓子產品具有良好的可讀性和可維護性。

這裡的前提是要有真正懂業務能沉澱經驗的人,以及要在企業層面開展資料治理,讓資料能夠準确、适度共享、安全地被使用。

第二是AI算法模型能力。

要實作資料業務化,前提是做到資料的資産化。要能夠從資料原油裡面,去提煉出可以使用的汽油。

比如說資料的标簽化,背後就有投入産出比的考量:通過标簽,廣告主可以非常友善快捷地去建立自己的人群包,實作精準營銷,同時投放的ROI也是可見的、透明的,廣告主可以自己去評估資料資産的使用情況。

第三是行業的應用能力,也就是我們通常說的資料業務化能力。

和資料中心化類似,資料業務化也需要很強的行業經驗來指導,建立合适的業務場景,在場景裡面去使用資料,進而展現資料的價值,來大大擴充資料在行業中的應用能力。

在奇點雲和某酒類客戶的合作過程中,我們最大的收獲不是幫助客戶完成了資料中台的搭建,而是通過了解客戶的業務,把其經驗沉澱到資料中台,進而賦能客戶更多的端上的創新業務,帶來了生意的增量。

最後總結一下,未來的資料中台最重要的不單是資料的存儲和計算能力,而是要能從「存、通、用」的角度和業務結合,幫助企業從資料中擷取價值,沉澱資料資産,最終用資料賺錢。