天天看點

資料治理第3期|資料資産中心

作者:一個資料人的自留地

01 前言

在資料治理系列文章的第1期,我們聊了資料治理的基本概念、治理目标和治理政策(詳見:資料治理第1期 | 簡單聊一聊資料治理的政策)。這一期,我們來聊聊資料治理最最核心的部分——資料資産治理,本文主要闡述資料資産治理的政策和工具建設思路。

02 基本概念

廣義的資料資産涵蓋一切非結構化、半結構化和結構化資料,狹義的資料資産主要包括業務側的業務日志、流資料的topic、批資料的資料表、生産排程任務/作業,模型層的名額、次元和資料集,應用層的報表、API、應用/服務等,本文主要面向狹義的資料資産,其中又以大家接觸最多的資料表、資料名額、報表為主。

03 問題分析

1)使用者A是資料開發工程師,對資料表結構和内容較為熟悉,日常工作内容主要是資料采集、數倉模組化(ETL)和運維問題排查,主要需求查詢資料表上下遊生産鍊路及生産排程作業的執行情況,同時也會随機探查資料字段、枚舉值和定義函數等内容來輔助進行資料開發。

2)使用者B是業務側資料分析師,具備基本的資料挖掘分析能力,日常工作主要是面向業務一線産出資料分析報告、配置業務名額和報表,需要根據業務需求查詢的資料存儲在哪張資料表,以及知悉資料表内各字段的定義、枚舉值等,進而确定是否滿足查詢需求。

3)使用者C是資料管理人員,對數倉模組化規範和資料口徑定義比較熟悉,日常工作主要是規範資料開發流程、降低資料資源存儲和開發成本,同時保障業務報表産出及時性和品質,希望資産中心能提供統一的口徑維護、資産監控評測等能力。

資料治理第3期|資料資産中心

圖表1:資産中心典型代表使用者需求場景分析

04 治理目标

綜上,資料資産中心的核心使用者是各業務側的資料分析師、産品經理、資料營運等使用者,他們構成了資料資産中心的消費端,是資料資産得以流通并進而産生交換價值的關鍵,而資産中心供給端的使用者群體主要是資料開發者和資料管理者。

是以,面向消費端,資産中心主要解決找人找數和有好數的痛點,核心治理目标為保障資料資産元資訊的完整性、規範性和一緻性,面向供給端,資産中心主要解決生産開發提效、資源成本管控的痛點,治理目标為降本增效。

05 行業調研

研究近年來主要資料論壇上各大廠資料資産中心的建設經驗,特選取滴滴和騰訊作為調研目标,詳情如下:

1. 滴滴資料夢工廠

1)場景分析:如圖表2所示,滴滴主要資料資産分為人、路、車三類,主要呈現出資料量極大、結構化資料占比高、資料安全等級高等特點,主要需求為資料資産成本治理、資料安全治理和資料品質治理。

資料治理第3期|資料資産中心

圖表2:滴滴資料資産特點

2)解決思路:

如圖表3所示,滴滴内部将資料服務化、名額管理平台和資産管理平台統一為資料内容建設領域,定位為向上服務各類資料應用平台,向下對接資料開發平台的中間公共資料層,以資料内容為抓手,資産管理平台統一作為資料資産元資訊采集和管理的工具,通過名額管理平台規範資産口徑和品質,再通過資料服務化将資料資産服務到業務團隊。

資料治理第3期|資料資産中心

圖表3:滴滴資料平台業務架構

如圖表4所示,滴滴将資料資産平台的使用對象設計為兩類,一類是資料的加工者,一類是資料的管理者,數加工者承擔各類資産的日常生産管控,資料管理者承擔各類資産的資源成本和安全管控工作。

資料治理第3期|資料資産中心

圖表4:滴滴資料資管理平台使用對象設計

3)産品介紹:圖表5為滴滴資産管理平台主要功能子產品的分享樣圖

資料治理第3期|資料資産中心
資料治理第3期|資料資産中心

2. 騰訊遊戲資料資産管理平台

1)場景分析:如圖表6和圖表7所示,騰訊遊戲旗下包含上百款各類端遊、頁遊和手遊,資料量極大,存在資料多樣缺乏統一标準、口徑定義不一緻、鍊路品質不高無法快速定位問題、資料價值和成本難以評估等痛點。

資料治理第3期|資料資産中心

圖表6:騰訊遊戲大資料營運概況

資料治理第3期|資料資産中心

圖表7:騰訊遊戲資料資産問題痛點

2)解決思路:騰訊遊戲對資産治理主要建構了兩大體系,分别是資料資産的中繼資料管理體系和資料資産價值的評估體系,其中中繼資料管理體系涉及中繼資料應用、中繼資料管理、中繼資料存儲和中繼資料采集等範疇,資料資産價值評估體系則主要從熱度、廣度和收益度三個視角進行評估,詳情如下:

資料治理第3期|資料資産中心

圖表8:騰訊遊戲資産管理平台中繼資料管理體系架構設計

資料治理第3期|資料資産中心

圖表9:資料資産價值評估體系架構設計

資料治理第3期|資料資産中心

圖表10:資料資産熱度“冰-冷-溫-熱”評估模型

資料治理第3期|資料資産中心

圖表11:資料資産廣度“微-小-中-大”評估模型

資料治理第3期|資料資産中心

圖表12:資料資産收益度“差-中-良-優”評估模型

3)産品介紹:

資料治理第3期|資料資産中心
資料治理第3期|資料資産中心
資料治理第3期|資料資産中心

圖表13:騰訊遊戲資料資産管理平台主要子產品分享樣圖和功能描述

3. 調研總結

分析滴滴和騰訊的分享内容,發現兩家頭部公司對資料資産治理都有一個相同點,即将各類資料資産治理通過平台化的手段去落地實施,都關注到了資産的中繼資料規範性、安全性和成本,都提供了資料資産檢索和血緣鍊路檢索等服務。在側重點上,滴滴的資産管理工具更加豐富和成熟,考慮到了資料生産者和管理者的痛點,而騰訊的亮點在于對資料資産價值評估體系的獨特設計,以上經驗均值得我們借鑒和學習。

06 産品架構

如圖表14所示,資料資産中心一共分為三層,分别是服務層、管理層和采集層,其中服務層面向資料分析師、資料産品、業務營運等資料消費端使用者,提供資料資産檢索相關服務能力;管理層主要面向資料資産管理者,主要代表為各業務線産品/技術團隊的資料産品經理、研發工程師和主要負責人,提供資料資産錄入和維護能力,提供資産成本治理服務;采集層主要面向各資料來源方,包括但不限于埋點元資訊采集、業務資料庫元資訊采集、報表/名額元資訊采集、人員組織資訊采集等等,同時,采集完的元資訊,需要資産維護和管理者按照管理層提供的統一模型進行定義落庫。

資料治理第3期|資料資産中心

圖表14:資料資産中心産品架構設計圖

07 産品設計

1. 資料接入

産品定位:如圖表15,資料資産中心核心是各類資料資産元資訊的中央資料庫,各類資料資産的元資訊采集主要分為上遊業務系統自動采集和資産中心前端頁面手工輸入兩部分,是以,資料接入子產品承擔了資産中心開源和标準定義的職能。

資料治理第3期|資料資産中心

圖表15:資料資産中心元資訊采集示意圖

規範定義:資料資産中心需要采集hive、kafkatopic、clickhouse、druid、報表、名額、API等等結構各異的資産元資訊,針對各類異構資料進行統一定義并整合分析繪制出資料地圖是資産中心需要解決的主要問題,系統設計伊始便要考慮各類資産的複雜性和差異性以及未來的通用性,是以,如果不定義一套統一的元資訊收錄采集标準,則随着資料資産的收錄一定會出現資源管控成本和元資訊品質降低等問題。在此,如圖表16和圖表17,我們抽象出一套可以通用化定義各類資料資産的元資訊模型,以解決上述問題:

資料治理第3期|資料資産中心

圖表16:資料資産中心元資訊采集模型設計圖

資料治理第3期|資料資産中心
資料治理第3期|資料資産中心
資料治理第3期|資料資産中心
資料治理第3期|資料資産中心

圖表17:主要類目屬性定義舉例

2. 資料地圖

資産檢索:如圖表18所示,支援普通搜尋、進階搜尋,同時向使用者推薦結構化整理的知識圖譜

資料治理第3期|資料資産中心

圖表18:資産檢索首頁DEMO

資産詳情:資産詳情頁展示資産的基礎資訊、業務資訊和技術資訊,同時提供權限申請、資産收藏、血緣鍊路查詢、快捷取數、SQL模闆生成等能力

圖表19:資産詳情頁DEMO

資料治理第3期|資料資産中心

圖表19:資産詳情頁DEMO

3. 資産維護

如圖表20,資料資産中心提供了管理者視角的資産錄入和維護界面,支援以資産中心為統一維護平台進行資産維護,保障資産元資訊的及時更新

圖表20:資産元資訊維護DEMO

資料治理第3期|資料資産中心

圖表20:資産元資訊維護DEMO

4. 資産治理

品質分析:資産治理提供資料資産品質測評和分析報告,通過計算資産元資訊完整度、規範性、重複性等來進行分析評估

資料治理第3期|資料資産中心

圖表21:資料資産品質測評和分析報告DEMO

治理榜單:分為個人榜和團隊榜,綜合計算所負責資産的品質(完整性、規範性、唯一性等)分、成本分(存儲成本和增長趨勢等)、評價分(使用者評價、查詢熱度等)來進行排名,提供日排名、周排名和月排名,每個月重置一次資料。

資料治理第3期|資料資産中心

圖表22:資料資産治理榜單DEMO

5. 資産交接

資産中心提供一站式資産交接處置能力,減少因離職造成的資産無人維護和安全隐患

資料治理第3期|資料資産中心

圖表23:資産交接子產品DEMO

08 未來展望

通過以上内容介紹,目前國内作者能接觸到的主流資料資産管理平台的主要功能就都基本介紹完畢了,展望未來,我認為,資産中心基于它資料内容采集和管理的特點,其實是可以深入到資料應用和服務領域,通過先進的搜尋和AI算法,快速提供輕量化的資料可視化、資料分析和歸因預測等服務,在滿足業務找人找數的需求上,直接回報資料結論,簡化後續業務找到資料後再去分析資料的流程,提高資料分析效率。

參考國外已有産品,比如ThoughtSpot(一款基于搜尋引擎的資料報表自動化生産的工具),如圖表24所示,以搜尋為切入點,基于中繼資料之間的關聯和建構,快速推薦和繪制可視化圖表,提供輕量化配置能力,快速滿足使用者資料分析需求:

資料治理第3期|資料資産中心

圖表24:智能搜尋分析産品ThoughtSpot

又比如Einstein Discovery(見圖表25),基于使用者的資料自動關聯,并從中對資料内容進行分析和解讀,并将分析結果以自然語言的方式為使用者提供解讀報告,快速且輕量化地回答使用者:“發生了什麼?為什麼會發生?即将發生什麼?需要怎麼做?”:

資料治理第3期|資料資産中心

圖表25:Einstein Discovery介紹

09 附錄:參考資料

1. 滴滴、騰訊分享材料來源于“2019中國資料智能管理峰會”對外分享材料

2. 資産治理政策參考美團技術團隊公衆号發文:資料治理一體化實踐之體系化模組化

3. 未來展望部分來源:

  • 資料智能搜尋推薦:https://www.thoughtspot.com/
  • 愛因斯坦發現:《Salesforce Einstein Discovery White Paper》

後人的成功是站在前人的肩膀上實作的,以上資料在作者對資料資産治理思路領悟過程中提供了非常重要的參考素材,在此特别鳴謝以上公司/團隊/個人/組織方!

10 下期預告

這是我資料治理系列文章的第3期内容,在此先特别感謝各位讀者一直以來對我在資料安全和資料治理系列文章的支援,由于工作原因,更新較慢,但還是希望大家繼續關注和支援我,下期,我将面向為資料口徑、産出和安全提供質檢監控服務的質檢監控中心,聊一聊DQC和SLA工具的建設思路,歡迎關注,我們下期見~