天天看點

網易數帆資料治理2.0實踐分享

作者:DataFunTalk

導讀:随着大資料的進一步發展,網易數帆大資料團隊提出了資料生産力的理念。秉承“人人用資料,時時用資料”的願景,建構了網易數帆資料中台支撐技術體系,支撐了網易雲音樂、嚴選、傳媒、有道、郵箱等資料中台項目建設。資料中台和資料治理有非常密切的關系,如果沒有做好資料治理,資料中台就好比空中樓閣,會出現各種各樣的問題,是以資料治理對于資料中台的建構非常的關鍵。本文将分享網易數帆在資料治理,包括資料中台、資料分析領域的一些實踐經驗,會圍繞下面五點展開:

  • 網易數帆大資料
  • 為什麼資料治理項目經常失敗
  • 網易數帆資料治理2.0
  • 網易數帆資料治理的實踐案例
  • QA環節

01

網易數帆大資料

首先介紹一下網易數帆大資料的背景。

1. 網易數帆大資料的發展曆史

網易數帆資料治理2.0實踐分享

網易數帆是網易杭州研究院孵化的ToB業務的商業化品牌,主要是為企業提供數字化轉型所需的技術和服務。網易杭州研究院成立于2006年,定位是網易網際網路業務的公共技術部門,在成立之初,我們主要做了三個分布式系統:分布式資料庫、分布式檔案系統、分布式搜尋引擎,作為三駕馬車支撐了後來網際網路2.0時代的網易一系列産品,包括我們熟知的網易部落格、相冊等。

2009年網易就率先開始基于Hadoop做資料分析和運維,網易的技術體系非常開放,我們看好開源社群對一個基礎軟體持續發展帶來的動能。2014年,網易大資料平台(内部有個更熟悉的名字叫網易猛犸)和網易有數BI上線,推動了網易資料分析的大規模應用,包括網易考拉、嚴選、音樂、新聞、有道都是基于這個平台去建構自己的資料分析體系的。

2017年網易大資料開始正式對外商業化。到了2018年,随着網易内部資料分析規模的快速增長,網易在資料分析領域遇到很多問題和挑戰,主要表現在資料使用效率、品質、成本和安全領域,面臨來自業務的巨大壓力,我們開始采用資料中台方式重塑整個資料架構,提出并釋出了“全鍊路資料中台”解決方案。在2020年網易數帆提出了“資料生産力”理念,強調基于資料中台之上,建構面向業務場景的資料産品矩陣,并進一步提煉出“資料産品化”的方法論,這也是資料生産力三大核心方法論之一。大規模的使用資料,加速了對資料治理的解決方案的迫切需求,在2022年,提出了“資料開發和資料治理一體化”理念,這也是網易數帆“資料治理2.0”最核心的内涵。

2. 網易數帆大資料産品矩陣

網易數帆資料治理2.0實踐分享

上圖是數帆大資料産品技術體系,包括四層架構:

(1)基礎設施層

大資料計算、存儲引擎,裡面包括了目前一些比較火熱的技術,例如存算分離技術,實時資料湖技術、離線和線上業務混合排程技術等,在網易新聞,我們已經實作了離線資料分析任務和線上事務處理業務統一采用k8s排程,在低峰期,把一些離線業務排程到線上業務的伺服器上,資源使用率得到了顯著提升。在網易雲音樂的海外業務上,我們和AWS合作,已經率先采用存算分離的技術,使用雲的對象存儲替換了HDFS,建構了雲原生的資料平台架構。在雲音樂,我們已經使用網易開源的arctic實時資料湖方案,使得資料湖具備分鐘級别的實時更新能力。

(2)基于DataOps全生命周期的資料開發平台

囊括了資料內建、開發、測試、釋出、運維的一整套完整的DataOps的工具鍊,可以實作DEV/SIT/UAT/PRD多套環境之間的高效測試和無縫釋出。

(3)資料治理技術平台

網易數帆的資料治理體系,既包括我們經常看到的傳統資料治理的三大件:資料品質、中繼資料管理、資料标準,還包括了資料中台的相關系統,例如名額系統、模型設計中心和資料服務,我們将其融合成網易數帆資料治理2.0的體系。

(4)資料産品層

BI是資料分析最重要的視窗,包括做一站式資料門戶、自助取數、資料大屏,還有一些通用資料産品,比如CDP等。此外,我們将機器學習平台也放入了資料産品層,主要是在資料之上,能夠接入一些智能算法,提高決策的精準性。

3. 網易數帆大資料商業化定位

經過網易集團内部業務的長期實踐,具備了領先的方法論,并積累了很多行業落地案例,同時也明确了網易數帆大資料的商業化定位。

  • 我們是一個基礎軟體提供商,我們不是一個雲廠商;
  • 我們必須支援跨雲的戰略;
  • 我們認為一個健康的大資料軟體市場一定是分層的。

4. 使用者案例牆

網易數帆資料治理2.0實踐分享

--

02

為什麼資料治理項目經常失敗

下面,重點分享下為什麼要做資料治理?

1. 我們為什麼要做資料治理

網易數帆資料治理2.0實踐分享

我們将一個企業的數字化轉型劃分為兩個階段,第一個階段是線上化,主要是使用資訊化系統取代線下流程,在這個階段會形成非常多的業務系統。第二個階段,我們将其定義為數智化,就是利用資料和算法,取代拍腦袋決策。要實作數智化,就必須要做到資料生産力,而我們将資料生産力定義為,通過使用資料帶來組織生産力的提升。我們觀察了很多的企業後發現:凡是真的能做到資料生産力的企業,他們都有一個相同的特征,就是做到了企業人人用資料,時時用資料,是以我們将其作為資料生産力的願景。而要實作這個願景,網易數帆提出,必須要靠三大方法論:

  • 資料研發(DataOps):全資料生命周期研發體系
  • 資料治理(DataFusion):資料治理2.0
  • 資料産品(DataProduct):資料通過産品化,讓使用者很容易把資料用起來

2. 網易數帆資料生産力架構

網易數帆資料治理2.0實踐分享

在整個資料生産力架構中,有三個角色,業務系統、資料中台和資料産品。業務系統主要負責流程的管理,不同的業務系統,産生了資料孤島,當我們要想按照業務的全流程進行資料分析的時候,我們就必須将這些不同業務系統的資料彙聚到一個統一的資料中台中,形成一個企業的公共資料底座。資料中台最重要的職責是建構一個企業的公共資料層,産出高品質,口徑一緻的名額,呈現在資料産品之上。資料産品,主要負責将資料轉化為業務決策,使得業務流程的運轉更加智能化。是以在整個架構中,資料來源于業務,最終資料轉化為決策,又會回到業務,這個循環就是我們所說的數智化循環。

那這個跟我們今天要講的資料治理又有什麼關系呢?資料治理在這個裡面發揮了什麼作用?這個還要從我們遇到的問題講起。我們前面說,要讓一些的業務人員能夠真正把資料有效使用起來,但是業務人員真的能把資料用的起來麼?資料在使用過程中到底有什麼問題?

網易數帆資料治理2.0實踐分享

我們把問題歸結為:找不到、看不懂、信不過和管不住,其實背後是整個資料生産的效率低和品質差。

3. 傳統資料治理1.0

網易數帆資料治理2.0實踐分享

傳統資料治理,我們将其稱為三大件,包括中繼資料管理、資料品質和資料标準。一般的資料治理流程,會先從資料标準開始,制定資料标準的過程稱之為定标。定好标準之後,就要完成落标,這個過程中需要用到中繼資料采集、中繼資料注冊以及中繼資料審批釋出。落标完成了資料模型和資料标準之間的連接配接,接下來,我們就可以利用資料标準裡面定義的資料元限制,對資料品質進行稽核,将不符合标準的資料品質問題抓出來,推動進行整改。這就是一個非常标準的資料治理流程。這套流程對于存量資料有明顯的提升效果,但是忽視了增量資料的長效治理, 這就導緻企業需要不斷的通過資料治理項目來維持資料治理的效果。

是以,網易數帆認為,要實作資料的長效治理,就必須要從資料的生産環節來解決問題,確定生産出來的資料,本身就是符合标準的。

傳統資料治理1.0存在的問題總結如下:

(1)資料開發與資料治理脫節

具體表現在:

  • 資料品質與資料開發脫節:經常會有人問,如何確定資料品質稽核規則的完備性,我們發現,生産出來的資料,隻有10%的核心表有稽核規則,相同的資料項,不同的開發設定的稽核規則都不一緻。
  • 資料标準與資料模組化脫節:分享一組資料,在網易,37%的表存在命名不規範問題,相同的字段,有8種以上的字段命名。
  • 資料标準與資料安全脫節:資料安全政策與資料标準不一緻。
  • 資料開發與資料标準脫節:字典映射與ETL不一緻
  • 中繼資料與任務運維和開發脫節:任務無法按照資産登記進行有效管理

逆向的資料治理成本是非常高的,因為表已經建好了,任務已經上線了,再催着他們去改成本就相對比較高了。如果我們能夠在表或者分析任務上線之前進行模型設計,先進行資料标準化,再進行模組化,這樣出來的表一定是符合标準的,這樣的成本也是最低的,是以我們強調資料開發和治理一體化。

(2)缺少對不同平台的統一管理

不同計算、存儲引擎,增加了使用者找資料,了解資料,用資料的成本。

網易數帆資料治理2.0實踐分享

(3)忽視了資料開發過程中的效率、品質問題

網易數帆資料治理2.0實踐分享

上圖是兩個真實案例,由此可見在資料生産過程中就要融入資料治理,而不是上線後再去治理。

(4)沒有解決煙囪式的資料開發

網易數帆資料治理2.0實踐分享

煙囪式的資料開發會造成名額口徑不一緻,資料重複開發帶來的效率問題,以及資料重複計算帶來的資源使用問題。

(5)對資料價值和成本評估不足

網易數帆資料治理2.0實踐分享

(6)資料治理的過程缺少量化的手段

網易數帆資料治理2.0實踐分享

應該有一些量化的手段去監控整個治理的過程。

(7)資料治理的過程缺少持續回報的閉環

  • 中繼資料缺少持續改進的閉環
  • 資料品質缺少持續改進的閉環
  • 資源精細化管理缺少持續回報的閉環

--

03

網易數帆資料治理2.0

1. 到底什麼是資料治理?

網易數帆資料治理2.0實踐分享

行業權威機構DAMA規定了資料治理的11個職能象限,但它缺少具體的落地方法和經驗。

網易數帆資料治理2.0實踐分享

DCMM是大陸在資料治理領域的第一個國家标準,它給出了客觀的評價方法,但仍然缺少具體行動方法。

2. 網易數帆對資料治理的了解?

網易數帆資料治理2.0實踐分享

網易按照資料治理的目的将其分為兩個部分:

  • 面向業務系統的資料治理:解決業務系統的跨業務、跨系統、跨流程的企業核心資料一緻性、權威性和正确性問題。
  • 面向資料分析的資料治理:解決的是資料分析過程中效率、品質、安全、成本、标準、價值問題。

3. 網易數帆資料治理的方法論DataFusion

網易資料治理的方法論,将傳統的資料治理方法融入資料開發的全生命周期中,基于DataOps全生命周期資料開發底座,采用資料中台的資料架構,結合了網易特色的基于ROI的資料資産化實踐,我們将其稱為資料治理2.0

核心亮點:

  • 開發與治理一體化
  • 基于DataFabric的邏輯資料湖
  • 采用DataOps的資料開發底座
  • 資料中台架構,解決煙囪式資料開發
  • 基于ROI的資料資産沉澱

(1)資料開發與治理一體化

網易數帆資料治理2.0實踐分享
  • 通過資料探查、生成值域限制
  • 資料标準在資料元、元模型上綁定稽核規則
  • 資料模組化引用資料标準中資料元和元模型
  • 根據表綁定的資料标準所關聯的稽核規則,自動添加到表的稽核監控

(2)基于DataFabric邏輯資料湖

網易數帆資料治理2.0實踐分享

基于DataFabric邏輯資料湖的核心思想是建構一個跨平台的統一的資料集市。把HIVE、MySQL、Greenplum建構統一的聚合層,在此之上直接輸送給BI,通過圈選資料集、物化視圖完成業務開箱即用的效果,對使用者來說,能夠屏蔽底層不同資料源之間的資料實作過程。

(3)基于DataOps的資料開發底座

網易數帆資料治理2.0實踐分享

基于DataOps的資料開發底座,是将軟體工程中CI/CD的方法論應用于資料開發領域,覆寫了可持續內建和可持續傳遞、可持續部署。具體包括編碼、編排、測試、代碼審查、釋出稽核和部署上線六個階段。

(4)資料中台的架構

網易數帆資料治理2.0實踐分享

資料中台包括三大核心:統一名額管理體系,高複用、規範公共層模型,以及資料服務化。

(5)基于ROI的資料資産沉澱

網易數帆資料治理2.0實踐分享

基于ROI的資料資産沉澱,我們通過可視化分析頁面可以看到每個任務精細化的場景管理,能夠讓業務人員對于沒用的資料進行持續的治理下線。

  • 核算每個任務、查詢、表的計算、存儲資源消耗,并折算到錢,且分攤到每個資料報表,資料服務API應用層面;
  • “剝洋蔥”式資料下線:從下遊不再使用的資料應用開始,逐層向上遊任務和資料下線歸檔,釋放資源。
  • 任務和查詢成本預估,對于高消耗的任務和查詢,進行審批管控

4. 量化的名額監控和分析

網易數帆資料治理2.0實踐分享

通過監控儀表盤裡面的資料治理健康分,可以有不同次元的扣分,最終我們基于這個健康分,做不同業務之間的紅黑榜,也是績效管理的一種手段。

5. 持續營運-中繼資料品質發現和回報

網易數帆資料治理2.0實踐分享

我們在持續營運過程中,資料資産消費者發現資料品質有問題的時候,可以去申請資料治理。資料管理部門可以指派工單的形式要求業務部門在規定的時間規定的地點完成資料對應問題的修複。

6. 企業資料文化建設

資料文化:

  • 資料分析大賽、資料治理大賽、資料可視化大賽
  • 資料開發工程師、資料可視化分析工程師資格認證

組織建設:

  • 資料治理部,作為資料治理營運部門
  • 業務部門配備資料治理專員
  • 制定資料治理分數,作為紅黑榜,推動業務部門的重視
  • 與公司内部流程引擎結合,實作資料治理流程的工具化流轉

7. 資料生産力組織架構

網易數帆資料治理2.0實踐分享

8. 面向治理的體系建設

網易數帆資料治理2.0實踐分享

技術是資料治理的基礎,但有了技術還不夠,還需要上面的組織、流程、考核以及政策,完善整個體系,才能最終實作人人用資料、時時用資料的願景。

9. 資料戰略

網易數帆資料治理2.0實踐分享

10. 企業資料資産門戶——一站式的資料消費平台

網易數帆資料治理2.0實踐分享

通過一站式資料消費平台和門戶,業務人員可以在門戶上看到企業有哪些資料、哪些核心的報表、哪些核心的資料治理應用。

--

04

網易數帆資料治理的實踐案例

1. 某大型營運商

網易數帆資料治理2.0實踐分享

在引入網易數帆一站式工具平台前面臨的問題:

  • 資料标準、資料品質與資料開發嚴重脫節,規範隻能停留在字典層面,無法融入資料生産的流程中,不能有效的落地執行和監督。
  • 不同廠商,不同工具之間嚴重割裂,資料品質的稽核規則無法和資料标準中資料元的值域限制打通,資料标準中資料元無法跟資料模組化工具無法關聯,中繼資料管理中的資料安全等級和安全中心的資料脫敏無法關聯。

最終導緻反複做資料治理,沒有從根本上去解決問題。

2. 資料開發與治理一體化

網易數帆資料治理2.0實踐分享

引入網易數帆,由資料中台統一為倉庫、經分、網絡叢集提供資料采集、模組化、開發、排程、治理等一體化能力。在生産過程中對于程式上下線,建表等操作實作線上化、流程化操作,一方面減少人工提升效率,一方面完善資料管控的過程。

重點是把資料治理整個過程融入到資料開發的全鍊路上,在設計之前先去做資料的标準化,然後再去做資料模組化,圍繞資料标準去做資料品質和資料安全以及資料資産,實作了整個開發治理一體化的資料治理場景的落地。

3. 成果一覽

網易數帆資料治理2.0實踐分享

上圖展示了我們資料治理的成果。大家也可以從品質、價值、安全、成本、标準和效率這些方面去發現問題。

--

05

QA環節

Q1:面向業務的資料治理和面向分析的資料治理怎麼去做協同?

A1:這個問題問得非常好,類似問題我們要不要做面向業務的資料治理?我們要不要做資料分析的資料治理?我到是先做業務的資料治理還是先做分析的資料治理?其實他們之間是有很強的銜接關系,因為資料來源于業務系統最終會回到業務系統。是以我們做了面向業務的資料治理,那在業務系統這邊其實也有對應的資料标準,資料标準裡面它也有對應的資料品質規則,資料資産等級。

當然做了業務的資料治理是不是我就不用做資料分析的治理?不是的!我剛才其實講了很很重要的一個點就是分析系統和業務系統的模組化方式是不一樣的,業務系統的模組化方式是采用的實體關系模組化,分析系統的模組化方式是采用的是次元模組化,這兩個之間是有一個銜接的關系的,是通過業務實體的方式可以銜接起來的。如果你在業務系統做資料治理以後,業務系統的資料治理可以直接應用到分析系統的資料治理上,我們可以把标準同步過來,可以把标準所對應的資料品質的規則同步過來,這些規則在分析系統裡面它會形成不同的資料品質稽核任務,但是定标這樣的一個過程,其實可以大大的降低工作的複雜度和難度,是以他倆之間的一個協同的關系,就是可以把面向業務系統去做的資料治理的這些資料品質的規則、資料标準、資料模型,同步給我們面向分析的資料治理,用同一個平台去管理,在同一個平台上的分析的和業務的能夠通過業務實體能夠關聯起來。這就是兩個之間的一個協同的過程,其實也是展現在一個工具、技術、産品上面去實作的。

Q2:資料測試這個環節你們是怎麼開展的,基于什麼樣的一個理念來落實和實施的?

A2:資料測試是我們整個CI/CD的一個非常重要的一個環節。就是我們去做資料測試,它是測試的一個非常重要的手段,我們會去做很多的卡點,怎麼來保證這個東西能夠實施到位,其實是需要有一些卡點的,就是有一些能夠卡住的一個點,讓他能夠必須去執行,就是我們去做資料測試,它是測試的一個非常重要的手段,我們會去做很多的卡點,就是怎麼來保證這個東西能夠實施到位呢,其實是需要一些能夠卡住的點,讓它能夠必須去執行。這裡面的卡點其實會根據什麼呢?你所有的資料都卡,不太現實。是以需要資料先設計再開發,你在設計環節就會去做資料資産的分類分級,定義好資料的安全等級。我們可以根據資料的影響的範圍和資料等級,去制定對應的審批流程,比如對于核心資料上線,我們必須要有對應的資料測試報告。包括了對應資料測試的一些業務規則和技術規則,比如說是不是主鍵唯一的,會不會存在空值等相關的一些情況進行稽核,我們會把這些對應的資料品質報告自動的通過平台在任務送出上線的時候,摻雜到業務的送出上線流程中,這時候上線的流程會根據它對下遊的影響範圍和對應的資料資産等級去自動的觸發審批流,審批的人就會去看他的資料測試報告和代碼是否比對,有沒有對應的資料測試的結果,如果資料測試結果符合預期,這個任務才能上線,通過這樣的一種方式,能夠強制性的保障我們所有的核心資料都是要進行測試的。

Q3:資料治理2.0在金融場景應用的案例,您覺得最成功的是什麼?

A3:實事求是地講,其實也看了很多的案例,包括證券行業、銀行理财、資管很多的行業,對于資料開發治理一體化這塊都是才剛開始摸索階段,包括前段時間我們跟很多證券行業的CIO、資料治理的負責人去交流,他們都特别希望把資料治理能夠落地,當然這個落地過程中會有很多的問題。比如說我們工具開發平台可能在很多年前就已經有了,那資料治理平台又是另外一個,那這樣會存在很多的不同的平台之間打通的問題,帶來非常高的成本,最終導緻沒辦法落地,就跟我剛才分享的營運商的案例一樣。但是從整體上來看,我覺得這是一個大家比較認可的趨勢和方向,就是在生産資料、生産環節中去完成整個治理過程的落地。而不是這種事後的反複的去做這種治理的過程。給大家分享一個心得,對于新資料來說,可能對業務的價值會更大,老資料,反而可能價值是比較有限的,是以我們要更加關注的是新資料的産生,新資料治理的過程。

今天的分享就到這裡,謝謝大家。

分享嘉賓:郭憶 網易數帆

編輯整理:曹文武 中科雲谷

出品平台:DataFunTalk

01/分享嘉賓

網易數帆資料治理2.0實踐分享

郭憶|網易數帆 大資料産品技術負責人

網易數帆大資料産品技術負責人,研究所學生畢業于天津大學,畢業後就加入網易團隊,在網易有超過10年的資料開發和管理經驗,幫助網易雲音樂、嚴選、新聞、有道等業務建構了資料中台。極客時間《資料中台實戰課》專欄作者,訂閱量超過19000+,長期受邀參與QCon、DTCC、ArchSubmmit、SACC、GIAC等行業峰會,分享網易在資料開發和資料管理方面的最新實踐。

02/關于我們

DataFun:專注于大資料、人工智能技術應用的分享與交流。發起于2017年,在北京、上海、深圳、杭州等城市舉辦超過100+線下和100+線上沙龍、論壇及峰會,已邀請超過2000位專家和學者參與分享。其公衆号 DataFunTalk 累計生産原創文章700+,百萬+閱讀,14萬+精準粉絲。

繼續閱讀