天天看點

阿裡巴巴下一代資料內建技術

摘要

資料內建是把不同來源、格式、特點性質的資料在邏輯上或實體上有機地集中,進而為企業提供全面的資料共享。在企業資料內建領域,已經有了很多成熟的架構可以利用。目前通常采用聯邦式、基于中間件模型和資料倉庫等方法來構造內建的系統,這些技術在不同的着重點和應用上解決資料共享和為企業提供決策支援。

阿裡巴巴下一代資料內建技術

資料工廠

阿裡巴巴下一代資料內建技術

資料工廠解決了雲上從資料的采集整合,到資料加工、分析與管理,再到資料應用和消費的整個流程。

上圖中紅色标注部分是資料內建的位置。資料內建既是把資料采到資料平台部分的資料通道,也是資料出去的通道。

中間就是所有資料的清洗轉換、排程、olap分析以及資料挖掘的常用工具和子產品。

最底層是中繼資料管理,是一個至關重要的子產品。

傳統資料處理有時候會叫做數倉,數倉是偏離線的。現在普遍叫資料平台,資料平台更強調它和線上系統的融合打通。

阿裡巴巴下一代資料內建技術

如上圖所示,極簡羅漢圖建構的體系就是資料工廠。大家要自己搭建一個大資料開發平台的話,這些是基礎子產品,也是必要的元件。

最上面是排程,兩側有開發測試的環境,和整個大資料開發的運維管理。中間的“神經系統”是中繼資料,沒有中繼資料所有東西都是無效的。再往下是整個大資料的計算引擎,阿裡巴巴早就已經用完全自研的maxcompute以及ads等一系列的計算引擎替換了開源部分。最底下是資料內建,決定了資料怎麼進來怎麼出去。

資料內建

阿裡巴巴下一代資料內建技術

上圖所示是資料內建的使用過程。從選擇資料源、選擇目标,到字段映射,然後進行通道流控的配置,最後就是看日志。

阿裡巴巴下一代資料內建技術

現在的資料內建已經超出了傳統資料內建的範疇,也就是說傳統資料內建的“屁股”是坐在資料倉庫上的,面向的是業務資料庫,對于多媒體檔案或整個任意檔案的支援還是比較少。現在非結構化資料的比重越來越大,尤其在阿裡雲上看到這種趨勢非常明顯。是以我們做了任意二進制檔案的支援和視訊檔案的支援。

跨公網的資料傳輸是在雲時代下一個非常重要的能力。當資料不在同城機房的時候,要想做一個簡單的資料內建都需要跨公網把資料傳輸到統一的資料倉庫中。

資料內建agent-datax

datax是阿裡巴巴集團内部被廣泛使用的離線資料同步工具/平台,實作包括mysql、oracle、hdfs、hive、oceanbase、hbase、ots、odps等各種異構資料源之間高效的資料同步功能。

datax是一個插件式架構,可以插拔,支援讀寫插件。我們會堅持開源,現在已經有了一定的影響力。它的性能很好,功能和穩定性遠超sqoop。最近使用的客戶案例有微網誌、金立、鬥魚直播,效果突出。

阿裡巴巴下一代資料內建技術

單機首先要把任務進行拆分,然後做到并發。也就是大家能看到的開源版本主要能力就在這裡。

阿裡巴巴下一代資料內建技術

我們服務端的模式支援水準擴充。

阿裡巴巴下一代資料內建技術

阿裡内部在大資料這一塊資料采集和傳輸的主打工具就是datax,是以它有更多的考慮。流控這方面操作還是有些難度的,很多開源工具不提供這種能力。

阿裡巴巴下一代資料內建技術

資料內建在處理的時候有髒資料管理并記錄,而且還有基于規則的判斷,自動把日志打出來,做基本的品質控制。

阿裡巴巴下一代資料內建技術

任意位置是指跨公網;任意存儲是資料內建一開始就堅持的一種能力;還有正交資料采集傳輸。

圖中畫的是從使用者機房到阿裡雲上的vpc。在阿裡雲上一旦引入vpc就會使網絡環境變得很複雜,當然也帶來很多好處。但是複雜性尤其是對資料內建這種工具的體驗是會産生很大影響的。

我們為了突破這些也做了很多工作,現在我們可以從任意位置打透使用者的機房以及阿裡雲上使用者自己的vpc。

數加.資料內建線上情況

每天有11萬+作業運作在di平台之上,di每天的同步資料量達到10.2tb。每天的同步記錄條數達到近500億,還在持續增長中。阿裡自從做資料平台以來,資料內建一直是它的主力工具。

數加.資料內建能力總結

支援的類型多。支援任意主流格式和二進制資料、音視訊、多媒體。

傳輸快。在傳輸方面我們做了斷點續傳、分塊傳輸和網絡協定加速等工作,現在也取得了一些效果。

網絡通。能夠穿透任意複雜的網絡環境,例如從vpc到region,還有跨公網。

一站式遷移。現在在接觸很多大客戶的時候,很多客戶不想再繼續自己維護hadoop了,希望我們能完整地一鍵把整個hadoop體系遷移到雲上,以及把db遷移到雲上。在這種情況下我們可以做到一些一站式的服務。

還有兩個更好的能力就是支援實時采集傳輸和支援用戶端、web端采集。

我希望能把資料內建做到極緻,做得更大。

以上就是我今天的分享,謝謝大家!

阿裡巴巴下一代資料內建技術

<a href="https://promotion.aliyun.com/ntms/act/maxcompute0907.html?spm=5176.100239.blogcont200968.19.watpak" target="_blank">點選活動連結</a>

<a target="_blank">---阿裡大資料博文,問答,社群,實踐,有朋自遠方來,不亦說乎……</a>

阿裡巴巴下一代資料內建技術
上一篇: HTML 5
下一篇: 關于main()

繼續閱讀