天天看點

《大資料之路:阿裡巴巴大資料實踐》| 每天讀本書

大資料之路:阿裡巴巴大資料實踐

内容簡介:

在阿裡巴巴集團内,資料人員面臨的現實情況是:集團資料存儲已經達到EB級别,部分單張表每天的資料記錄數高達幾千億條;在2016年“雙11購物狂歡節”的24小時中,支付金額達到了1207億元人民币,支付峰值高達12萬筆/秒,下單峰值達17.5萬筆/秒,媒體直播大屏處理的總資料量高達百億級别且所有資料都需要做到實時、準确地對外披露……巨大的資訊量給資料采集、存儲和計算都帶來了極大的挑戰。

《大資料之路——阿裡巴巴大資料實踐》就是在此背景下完成的。本書中講到的阿裡巴巴大資料系統架構,就是為了滿足不斷變化的業務需求,同時實作系統的高度擴充性、靈活性以及資料展現的高性能而設計的。

阿裡巴巴資料技術及産品部 著

電子工業出版社

《大資料之路:阿裡巴巴大資料實踐》| 每天讀本書

圖書試讀:

大資料是什麼?在過去的5年裡,恐怕沒有另外一個詞比大資料更高頻;也沒有另外一個概念如大資料一樣,被紛繁解讀,著書立說。有趣的是,作為距離大資料最近的公司之一——盡管我們的初心或許和大資料沒有直接關系——在關于大資料的理論和概念的争論中,阿裡巴巴卻鮮有高談闊論。

因為自知而敬畏,因為敬畏而謙遜。甚至在大資料這個概念出現很久之前,阿裡巴巴就不得不直面、認知、探索,并架構和大資料有關的一切。資料作為一個生态級的平台企業最直接的沉澱,亦是最基本的再生産資料。如果沒有基于大資料的人工智能的應用,淘寶根本不可能面對每天億級的使用者通路數量。是以,僅僅因為本能,阿裡巴巴一開始就自然生長在這樣一個資料的黑洞中,并且被越來越多、越來越密集的資料風暴裹挾。阿裡巴巴在大資料方面所做的各種艱苦努力,其實就是力圖對抗這種無序和複雜的熵增,從中梳理結構,提煉價值。

這是一個曆經磨煉、也卓有成效的長期過程。如書中所提到的,阿裡巴巴不僅資料量超宇宙級,而且更是因為業務場景的複雜和多元化,其面對着甚至超過Google和Facebook的更複雜的難題。大部分時候,阿裡巴巴都是在無人區艱難跋涉。每一組功能和邏輯,每一套架構與系統,都與業務和場景息息相關。這個黑洞膨脹之快,以至于大部分時候都是在出現痛點進而刺激了架構更新。換言之,大資料系統——如果我們非要用一個系統去描述的話——其複雜度之高,是幾乎不可能在一開始就完整和完美地進行自上而下定義和設計的。從需求→設計→疊代→升華為理論,在無數次的疊代進化中,我們對大資料的了解才逐漸成形,慢慢能夠在将資料黑洞為我所用的抗争中扳回一局。

這個系統生長和進化的過程實際上已經暗暗揭示了阿裡巴巴對大資料真髓的了解。大、快、多樣性隻是表象,大資料的真正價值在于生命性和生态性。阿裡巴巴稱之為“活資料”。活資料是全本記錄、實時驅動決策和疊代,其價值是随着使用場景和方式動态變化的。簡單地把資料定義為正/負資産都太簡單。資料也不是會枯竭的能源。資料可以被重複使用,并在使用中升值;資料與資料連結可能會像核反應一樣産生價值的聚變。資料使用和資料聚變又産生新的資料。活資料的基礎設施就需要來承載、管理和促進這個生态體的最大價值實作(以及相應的成本最小化)。豐富的資料形式、多樣化的參與角色和動機,以及迥異的計算場景都使得這個系統的複雜度無限更新。阿裡巴巴的大資料之路就是在深刻了解這種複雜性的基礎上,摸索到了一些重要的秩序和原理,并通過技術架構來驗證和夯實。

如果說網際網路實作了人人互聯和通信,并沒有深度地協同計算,那麼這樣的一個大資料平台和架構就是一張更新的、智能的網際網路。這是人類自己設計出來的複雜的資訊處理系統,同時也将是真正意義上人類智力大聯合的基礎設施。這是一個偉大的藍圖,我們敬畏其複雜度和潛能。《大資料之路——阿裡巴巴大資料實踐》便是阿裡巴巴分享對大資料的認知、與世界共創資料智能的重要基石。資料技術及産品部作為阿裡巴巴集團的資料中台,一直緻力為阿裡巴巴集團内、外提供大資料方面的系統服務,承載了阿裡巴巴集團大資料夢想至關重要的資料平台建設。相信他們的實踐和思考對同行會有很大的啟發和借鑒意義。

繼續閱讀