天天看點

“NASA”計劃背後,阿裡巴巴大資料系統架構概述

dt時代,人們比以往任何時候都收集到更多的資料。據idc報告,預計到2020年,全球資料總量将超過40zb(相當于40萬億gb),這一資料量是2011年的22倍!正在“爆炸式”增長的資料,其潛在巨大價值有待發掘。它作為一種新的能源,正在發生聚變,變革着我們的生産和生活,催生了當下大資料行業的熱火朝天。但是我們如果不能對這些資料進行有序、有結構的分類組織和存儲,如果不能有效利用并發掘産生價值,那麼它也是一個資料災難,它猶如堆積如山的垃圾,給我們企業帶來的是極大的成本。 

現實情況是:阿裡集團的資料存儲已經逼近eb級别,部分單張表每天的資料記錄數高達幾千億條;阿裡内部,離線資料處理每天面對的是百萬級規模的作業,每天有數千位活躍的工程師在進行資料處理工作,加上阿裡大資料的井噴式爆發,給數模型、資料研發、資料品質和運維保障工作增加了更高的難度。

面對阿裡内部成千上萬對資料有着深刻需求的員工,以及外部千萬級對資料有迫切渴望的商家和合作夥伴,如何有效滿足他們的需求,提高他們對資料使用的滿意度,是資料服務、資料産品面臨的更大挑戰。

“NASA”計劃背後,阿裡巴巴大資料系統架構概述

注:阿裡巴巴資料體系架構圖

上圖是阿裡巴巴資料體系架構圖,可以清晰地看到我們的資料體系主要分為資料采集、資料計算、資料服務和資料應用四大層次。

1資料采集層

阿裡巴巴是一家多業态的網際網路公司,幾億規模的使用者(如商家、消費者、商業組織等)在平台上從事商業、消費、娛樂等活動,每時每刻都在産生海量的資料,資料采集作為阿裡資料體系第一環尤為重要。是以阿裡巴巴建立了一套标準的資料采集體系方案,并緻力全面、高性能、規範地完成海量資料的采集,并将其傳輸到大資料平台。

阿裡巴巴的日志采集體系包括兩大體系:aplus.js是web端日志采集技術方案;usertack是app端日志采集技術方案。

在采集技術之上,阿裡巴巴有面向各個場景的埋點規範,來滿足通用浏覽、點選、特殊互動、app事件、h5及app裡的h5和native日志資料打通等多種業務場景。同時,建立了一套高性能、高可靠性的資料傳輸體系完成資料從生産業務端到大資料系統的傳輸;在傳輸方面我們采用timetunnel(tt),它既包括資料庫的增量資料傳輸,也包括日志資料的傳輸;tt作為資料傳輸服務的基礎架構,既能支援實時流式計算、也能實時各種時間視窗的批量計算。另一方面,也通過資料同步工具(datax和同步中心,其中同步中心是基于datax易用性封裝)直連異構資料庫(備庫)來抽取各種時間視窗的資料。

2資料計算層

從采集系統中收集了大量的原始資料後,資料隻有被整合、計算才能洞察商業規律、挖掘潛在資訊、實作大資料價值,達到賦能商業、創造商業的目的。面對海量的資料和複雜的計算,阿裡巴巴的資料計算層包括兩大體系:資料存儲及計算雲平台(離線計算平台maxcompute和實時計算平台streamcompute)和資料整合及管理體系(onedata)。maxcompute是阿裡巴巴自主研發的離線大資料平台,其豐富的功能和強大的存儲及計算能力使得阿裡巴巴的大資料有了強大的存儲和計算引擎;streamcompute是阿裡巴巴自主研發的流式大資料平台,在内部較好的支援了阿裡巴巴流式計算需求;onedata是資料整合及管理的方法體系和工具,阿裡巴巴的大資料工程師在其體系下,建構統一、規範、可共享的全域資料體系,避免資料的備援和重複建設,規避資料煙囪和不一緻,充分發揮阿裡巴巴在大資料海量、多樣性方面的獨特優勢。

借助onedata方法體系,我們建構了阿裡巴巴的資料公共層,并可以幫助相似大資料項目快速落地實作。

從資料計算頻率角度來看,阿裡資料倉庫可以分為離線資料倉庫和實時資料倉庫。離線資料倉庫主要是傳統的資料倉庫概念,資料計算頻率是主要是以天(包含小時、周和月)為機關;如t-1,則每天淩晨處理上一天的資料。但是随着業務的發展特别是交易過程的縮短,使用者對資料産出的實時性要求逐漸提高,是以阿裡的實時資料倉庫應運而生。雙11實時資料直播大屏,就是實時資料倉庫的一種典型應用。

阿裡資料倉庫資料加工鍊路也是遵循業界的分層理念:包括操作資料層(ods,operational data store)、明細資料層(dwd,data warehouse detail)、彙總資料層(dws, data warehouse summary)和應用資料層(ads,application data store)。通過資料倉庫不同層次之間的加工過程實作從資料資産向資訊資産的轉化,并且對整個過程進行有效的中繼資料管理及資料品質處理。

在阿裡大資料系統中,中繼資料模型整合及應用是一個重要的組成部分。主要包含資料源中繼資料、資料倉庫中繼資料、資料鍊路中繼資料、工具類中繼資料、資料品質類中繼資料等。中繼資料應用主要面向資料發現、資料管理等,如用于存儲、計算和成本管理等。

3資料服務層

當資料已被整合和計算好,需要提供給産品和應用進行資料消費,為了更好的性能和體驗,阿裡巴巴建構了自己的資料服務層,通過接口服務化方式對外提供資料服務。針對不同的需求,資料服務層的資料源架構在多種資料庫之上,如mysql和hbase等。後續将逐漸遷移至阿裡雲雲資料庫apsaradb for rds(簡稱rds)和表格存儲(table store)等。

資料服務可以使應用對底層資料存儲透明,将海量資料友善高效地開放給集團内部各應用使用。現資料服務每天幾十億的資料調用量,如何在性能、穩定性、擴充性等多方面更好地服務使用者;如何滿足應用各種複雜的資料服務需求;如何保證雙11媒體大屏的資料服務接口的高可用;随着業務的發展,資料服務也在不斷前進。

資料服務層對外提供資料服務主要是通過oneservice平台。oneservice以資料倉庫整合計算好的資料作為資料源,對外通過接口的方式提供資料服務,主要提供簡單資料查詢服務、複雜資料查詢服務(類似使用者畫像(gprofile)等複雜資料查詢服務)和實時資料推送服務等三大特色資料服務。

4資料應用層

資料已經準備好,需要通過合适的應用提供給使用者,讓資料最大化地發揮價值。阿裡對資料的應用表現在各個方面,搜尋、推薦、廣告、金融、信用、保險、文娛、物流等。商家,阿裡内部的搜尋、推薦、廣告、金融等平台,阿裡内部的營運和管理人員等,都是資料應用方,各種應用産品百花齊放; isv、研究機構和社會組織等也可以利用我們開放的資料能力和技術。

阿裡巴巴基于資料的應用有很多。我們相信,資料作為新能源,為社會注入的改變是顯而易見的。我們對資料新能源的探索也不僅僅停留在狹義的技術、服務和應用上。我們正在挖掘大資料更深層次的價值,為社會經濟和民生基礎建設等提供資料層面的解讀。

轉載自alidata公衆号 

<a href="https://yq.aliyun.com/articles/72250" target="_blank">大資料打造你的變美頻道——數加平台上小紅唇的大資料實踐</a>

https://yq.aliyun.com/articles/72250

<a href="https://yq.aliyun.com/articles/70510">借助阿裡雲數加,小小的美甲行業被美甲幫玩出了天價</a>

https://yq.aliyun.com/articles/70510

<a href="https://yq.aliyun.com/articles/70509">與阿裡雲整個生态體系共同成長,更快更好的為房地産行業客戶提供高價值的服務</a>

https://yq.aliyun.com/articles/70509

<a href="https://yq.aliyun.com/articles/69333">蘇州協鑫與阿裡雲合作階段性完成,良品率已提升1%</a>

https://yq.aliyun.com/articles/69333

<a href="https://yq.aliyun.com/articles/68211">墨迹天氣-輕松處理每天2tb的日志資料,支撐營運團隊進行大資料分析挖掘,随時洞察使用者個性化需求</a>

https://yq.aliyun.com/articles/68211

<a href="https://yq.aliyun.com/articles/67275">阿裡雲數加讓企業更專注于業務,助力東潤環能高效利用大資料資源</a>

https://yq.aliyun.com/articles/67275

<a href="https://yq.aliyun.com/articles/70359">産品3周疊代一次,啟信寶駕馭8000萬企業征信的平台架構</a>

https://yq.aliyun.com/articles/70359

<a href="https://yq.aliyun.com/articles/70353">日交易筆百萬級,ping++的大資料平台架構</a>

https://yq.aliyun.com/articles/70353

<a href="https://yq.aliyun.com/articles/70412">專訪佰騰科技大資料團隊,談專利大資料領域的挑戰與實踐</a>

https://yq.aliyun.com/articles/70412

<a href="https://yq.aliyun.com/articles/70347">技術創業難?看彙合營銷如何玩轉大資料與機器學習</a>

https://yq.aliyun.com/articles/70347

“NASA”計劃背後,阿裡巴巴大資料系統架構概述