網上有很多講“如何建設資料中台”的文章,大家的觀點各不相同。
- 有的說,資料中台是一種資料建設的方法論,按照資料中台設計方法和規範實施就可以建成資料中台了;
- 也有人認為,資料中台的背後是資料部門組織架構的變更,把原先分散的組織架構形成一個統一的中台部門,就建成了資料中台;
- 此外,你可能還聽到過一些大資料公司說,他們可以賣支撐資料中台建設的産品技術。
那麼,資料中台到底如何建設呢?
六大核心問題的解決都在于兩大理念的推進
其實早在2016年,阿裡巴巴就提出了資料中台建設的兩大核心理念:One Data, One Service,這也是世界公認的解決數字化轉型現階段問題的方法,用一句話定義就是:所有資料隻加工一次,資料即服務。
01
One Data
One Data就是指所有資料隻加工一次。
例如,電商場景,資料中台就是要在整個電商業務形成一個公共資料層,協同跨部門的小數倉,實作資料的複用,不會因為不同的應用場景,不同的部門資料重複加工。
阿裡資料中台全景圖
那麼,如何去做才能實作資料隻加工一次呢?有以下五點:
- 分主題域管理
- 命名規範定義
- 名額一緻
- 資料模型複用
- 資料完善
試想一下,現在你着手搭建資料中台,第一步,面對企業存在幾萬張表,同時又有幾十個資料開發維護這些表,你如何來確定這些表的管理效率?
- 首先,你需要劃分主題域。我們可以将這幾萬張表劃到不同的主題域中,比如在電商業務中,商品、交易、流量、使用者、售後、配送、供應鍊都可以作為主題域。标準且準确的主題域劃分,是相對穩定的,盡可能地覆寫絕大多數的表。(我們可以了解為資料目錄)
資料目錄:友善進行表的管理以及基于目錄的資料檢索
- 除此之外,還要對表的命名進行規範化統一,表的名稱中最好能夠攜帶表的主題域、業務過程、分層以及分區資訊。
- 接下來,為了實作模型的複用,資料中台的資料存儲适合采用分層設計方式,常見的分層包括:ODS原始資料層、DWD明細資料層、DWS輕度彙總資料層、ADS/DM應用資料層/資料集市層。
- 最後,資料中台的資料必須盡可能的覆寫所有的業務過程,資料中台中每一層的資料也要盡可能完善,讓資料使用者盡可能的使用彙總後的資料。
統一資料規範
綜上,One Data 體系的目标是建構統一的資料規範标準,讓資料成為一種資産,而不是成本。
02
One Service
One Service即資料即服務,強調資料中台中的資料應該是通過API 接口的方式被通路。
那麼,為什麼資料一定要通過 API 接口的方式被通路,不通過 API 接口,直接提供資料表給使用者又存在哪些問題呢?
如果你是資料應用開發,當你要開發一個資料産品時,首先要把資料導出到不同的查詢引擎上:資料量小的使用MySQL;大的可能用到HBase;需要多元分析的可能需要Greenplum;實時性要求高的需要用到Redis。
是以,不同的查詢引擎,應用開發需要定制不同的通路接口。
使用資料API大大降低資料開發人員工作量
如果你是一個資料開發,當某個任務無法按時産出,發生異常時,想要了解這個表可能會影響到下遊的哪些應用或者報表,但是卻發現單純依賴表與表的血緣無法觸及應用,根本無法知道最後的這些表被哪些應用通路。
與此同時,當你想下線一張表時,因為不知道誰通路了這張表,無法實施,最終造成了“上線容易,下線難“的窘境。
而 API 接口一方面對應用開發屏蔽了底層資料存儲,使用統一标準的 API 接口查詢資料,提高了資料接入的速度。
另一方面,對于資料開發,提高了資料應用的管理效率,建立了表到應用的鍊路關系,一旦出現問題需要追查資料,便清晰地通過鍊路最終到指定的表和字段。
使用資料API将資料血緣延續到應用層,問題修複更加友善
那麼,如何實作資料服務化呢?有以下四點:
- 屏蔽異構資料源
- 把控資料網關
- 提供面向使用者的邏輯模型
- 保證性能和穩定性
屏蔽異構資料源:資料服務必須要能夠支撐類型豐富的查詢引擎,滿足不同場景下資料的查詢需求,常見的有 MySQL、HBase、Greenplum、Redis、Elasticsearch 等。
資料網關:要實作包括權限、監控、流控、日志在内的一系列管控能力,哪個應用的哪個頁面通路了哪個模型,要做到實時跟蹤,如果有一些模型長時間沒有被通路,應該予以下線。
使用資料的每個應用都應該通過accesskey和secretkey實作身份認證和接口權限的管理。另外,通路日志可以友善在通路出現問題時,加快排查速度。
邏輯模型:從使用者的視角出發,屏蔽底層的模型設計的實作,面向使用者提供邏輯模型。它可以幫助應用開發者屏蔽底層的資料實體實作,實作相同粒度的資料構造一個邏輯模型,簡化了資料接入的複雜度。
性能和穩定性:由于資料服務侵入到使用者的通路鍊路,是以對服務的可用性和性能都有很高的要求,資料服務必須是無狀态的,可以做到橫向擴充。
One Service 體系的目标是将散落的珍珠(資料)串成項鍊(鍊條),同時提高資料的共享能力,讓資料可以被用得好,用得爽!
篇幅有限,“資料中台的底層技術”和現在的行業趨勢“輕量級資料中台”将在後面陸續介紹,想要提前獲得關于資料中台的全套學習資料,可以點贊關注然後私信麥聰。
猜你想看:
資料中台:始于阿裡,興于DaaS
資料中台前世今生(四):從資料中台解決的問題考慮企業适配性
資料中台前世今生(三):網際網路下半場+數字化轉型=資料中台
資料中台前世今生二:從資料湖到大資料平台看資料應用需求發展
資料中台的前世今生(一):資料倉庫——資料應用需求的湧現
麥聰軟體,全球領先的DaaS廠商,輕量級資料中台上司者。世界500強集團中已有30多家選用,兩年内幫助近400家企業數字化轉型更進一步。核心産品麥聰DaaS平台包含統一資料管理和統一資料服務兩大子產品,具備資料內建、資料開發、資料品質、資料服務相關功能,歡迎大家帶着企業數字化問題與我們一起讨論。