天天看點

資料治理與安全合規的實踐現狀與挑戰

作者:DataFunTalk

引言

資料治理的核心領域包括哪些?這些領域的發展現狀與落地挑戰是什麼?未來資料治理有哪些發展趨勢?

就這些問題,DataFun 與虎興龍、王慧祥、劉天鸢等三位資料治理專家進行了訪談,專家們提出了以下值得注意的觀點:

1. 中繼資料一開始是治理工具,如今也成為治理的目标;

2. 資料血緣龐大而複雜,難以全面覆寫,并兼顧準确性和可擴充性;

3. 資料品質将往内容品質、智能化的方向發展;

4. 資料安全的發展參差不齊,尚未形成可量化的評估名額;

虎興龍:騰訊 PCG 平台與内容事業群資料工程專家、研發組長,2011 年大資料領域從業經驗,擅長大資料平台技術架構、資料治理與分析平台建設,先後在百度、VIVO、騰訊負責大資料平台、資料治理平台研發工作,目前擔任騰訊資料工程專家、研發組長,負責騰訊歐拉資料治理平台的技術工作。

王慧祥:位元組跳動火山引擎 DataLeap 資深大資料工程師,負責位元組跳動資料品質、資源優化等大資料領域的資料治理平台的研發工作,在海量資料場景下的存儲資源治理、任務資源治理、資料 SLA 保障、離線及流式資料監控等場景上擁有較多的平台化、系統化解決經驗。

劉天鸢:阿裡雲大資料平台 DataWorks 産品經理,負責公共雲商業化與資料安全能力建設。

DataFun社群|出品

資料智能專家訪談 第16期|來源

01.

治理流程

虎興龍:

資料治理的基本流程是:第一步,定義一個治理周期内的治理目标,最好是簡單可量化的;第二步,基于目标搭建治理人員組織,治理是需要推動、協作的,也需要上司與業務支援的,治理的組織設計也很重要;第三步,确定治理的路徑、方案;第四步,周期性疊代推進落地。

王慧祥:

資料治理一般開始于事後,即出現了問題再治理,通過對問題做歸因,總結梳理出标準治理規則,定義治理的實施名額,并在組織内宣貫實施,定期複盤結果,即資料治理以組織驅動實施。

在全域資料治理的各個流程中,目前來說對于資料模組化和應用的規範性治理是業界關注但比較難達到統一的階段,原因在于合理性的資料規範有多套,每種規範在不同的業務場景中都有起應用價值,如果一刀切地做一套規範性要求,可能對于業務來說會影響起發展效率,背離了治理的初衷。

對此,位元組提出的“分布式自治”資料治理更好地避免了大規模組織建立規範實施“一刀切”式的治理,“分布式治理”更好地發揮了業務單元優勢,以提效治理、服務業務為核心目标,針對各個業務不同階段的不同痛點來進行有目标的治理。

02.

核心領域

1. 中繼資料

虎興龍:

資料治理的方方面面都需要中繼資料,對于治理資料的人,要弄清資料哪裡有問題,就需要分析和監控中繼資料;對于應用資料的人,要找到資料、了解資料的含義,也需要通過完善、規整的中繼資料;對于管理者,要知道資料治理的結果如何,也需要通過中繼資料彙集一些評價名額來觀測。舉個比較形象的例子:對于圖書館的書籍治理,書的内容需要治理,書的目錄、分門别類地正确擺放也是必須。

中繼資料管理從元模型開始,元模型可以簡單了解為是資料一系列規則、規範的定義。例如:定義數倉分層标準、定義資料之間的引用規則,定義名額模型的規則等。在資料治理領域,元模型的主要意義在于拉齊各業務、團隊的資料标準。

可觀測離不開完善、及時的中繼資料,實作可觀測才可以評價及發現問題,進而才可以有效治理。

王慧祥:

資料治理的工作離不開中繼資料,從中繼資料中描述的資料資訊能夠對資料進行較精準的描述,是以資料治理必須要通過中繼資料進行。

在中繼資料治理方面,中繼資料準确性和血緣準确性一直是大家關注的目标,也是需要一緻投入精力去做的;而基于中繼資料的各種名額體系,資産應用等等均是中繼資料治理之上的場景孵化,是業界比較熱的方向,利用好中繼資料,能夠更好地發揮資料的價值。

中繼資料治理是目前比較前瞻性的方向,随着資料的海量增長,中繼資料本身也成為了一個“大資料”,對中繼資料本身的治理及其應用,越來越成為業界焦點,現在比較多讨論的關于“主動中繼資料”(active metadata)就是一種中繼資料的應用表現。

2. 資料血緣

虎興龍:

資料血緣最大的挑戰是全鍊路、全場景資料血緣的串聯,因為資料流轉涉及的系統、路徑都比較多,且随着對資料價值挖掘的深入還會增加,導緻血緣很難 100% 覆寫所有常見的資料流轉。

王慧祥:

資料血緣的主要挑戰是血緣準确性,主要難點在 2 個方面:

(1)如何定義準确性

準确性,通常通過血緣準确率來定義,分母是理論上血緣正确的資産量,分子是實際做到的血緣正确資産量;這裡又要定義正确,也就是怎麼判斷血緣是正确的。在實踐中,通常做如下定義:

血緣準确率 = 血緣準确資産量 / 資産量

其中,資産量是針對特定可枚舉的資産類型的總資産類型量,比如 Hive 表數量、ClickHouse 表數量等。血緣準确資産,是指其上遊、下遊依賴正确,沒有缺失、沒有多餘。這一點要如何驗證,是相對困難的,常用的一種方式是抽樣驗證。

(2)如何擴充血緣能力

造成血緣不夠準确的問題是多方面的,如任務解析異常、非标準化任務建設等。是以另一個挑戰問題是如何擴充血緣能力,舉個例子,比如 Hive 表的血緣,假設所有 Hive 表的産出均以 SQL 99 标準任務産出,針對 SQL 99 的統一解析大機率能保障血緣。

但是,SQL 方言多,實際在業務支援中,由于業務特性需要的資産類型也很多,為了支援多種多樣的資産類型,資産選型會很多,比如 Hive、Hbase、ClickHouse、ES、Doris、Redis、Kafka 等等,這些引擎通常很難做到開發語言統一,即 SQL 統一,這就給解析帶來了難度。是以,血緣不準确的根本原因是資産類型的擴充導緻的。

3. 名額體系

虎興龍:

名額是最直接的資料應用,最常見的問題就是名額口徑不一緻、名額資料延遲等,現在 metric store 的概念也比較熱,其希望建構統一名額服務來收斂名額口徑。

名額體系目前的建構缺少系統化、平台化的解決方案,如果要收斂名額口徑、保障名額 SLA,大部分還是深度依賴數倉開發人員的人工保障。未來的方案可能是從數倉模組化、名額标準化定義、統一名額服務三個角度去用平台化的手段解決這個問題。

總結來講,資料血緣、名額體系、資料品質三者是資料治理最核心的部分,是互相促進的關系,單獨放棄一塊,也不能把另一塊做好。

4. 資料品質

虎興龍:

網際網路發展過了野蠻增值的階段,大家都需要通過資料驅動深挖增長點。過去隻看幾個大數(DAU、新增、留存)就夠了,現在需要非常詳細的資料分析,資料需求多了之後發現效率、品質是個大問題,自然資料品質就成了人人都關注的熱點。

資料品質從廣義方面講,包含資料内容的準确性、資料産出的及時性,資料的價值密度。資料品質的監控、品質管理平台也分為從埋點品質、數倉品質、名額品質、報表品質。目前大部分解決方案比較局限。

王慧祥:

在主資料的治理部分,目前最受關注的領域還是資料品質,其中及時性是品質領域的基本要求,做資料品質治理的第一步就是要把及時性做到滿足要求,之後再從另外的五個次元來進行主資料的治理。

資料品質的話題越來越轉向了資料内容的品質,在品質衡量的六個次元中對于及時性的治理已比較成熟,其他幾個次元描述的内容品質越來越對業務産生影響,是以核心原因還是資料内容品質的好壞直接影響業務。名額體系也是一樣的邏輯。

整體而言,資料品質目前處于較為成熟的階段,對資料的異常值、空值、波動等各方面的監控體系已較成熟,下一階段可能是對品質問題的事後歸因提效和基于品質曆史事件的品質問題預防。

資料品質的核心任務圍繞資料品質的 6 個次元,即及時性、完備性、準确性、合規性、一緻性、重複性來建設。

及時性方面以資料傳遞的 SLA 來衡量,由于大資料領域任務鍊路長、流量業務屬性強、資料量大,如何保障資料及時産出一直存在較大挑戰,這裡涉及一整條資料鍊路的編排、排程、任務優化等措施。

關于完備性、準确性、一緻性、重複性這幾個次元,主要關注的是資料内容的品質問題,即需要讀取資料的内容部分,來對其品質做判斷,主要的挑戰在海量資料規模下如何高效發現問題,具體來說是海量資料的處理能力和品質定義問題。

前者是一個工程問題,一般考慮的是如何加速計算,如使用 OLAP 引擎加速、使用預聚合方式加速、使用抽樣政策加速、有效利用中繼資料屬性來加速等;後者是一個政策問題,如何準确的定義品質問題,需要結合大量的經驗、曆史資料分析、業務要求等方面綜合定義,現在的一個熱門發展趨勢是利用機器學習能力分析、訓練、發現、告警,将品質問題交給 AI 來處理。

合規性方面,是近期安全領域比較熱的話題,主要受政策驅動,以敏感資訊為基準,難點是如何在海量資料下确認是否包含敏感、非合規資訊,現在這一問題也逐漸在考慮以機器學習的方式來解決。

可觀測性是設計資料生命周期全環節的整體能力表現,它是事後資料品質治理的擴充,通過對曆史資料的加工分析,對資料内容、品質等方面做出預測,更直覺的觀察、預測資料。

總的來說,資料品質問題正逐漸往智能化方向發展,這是一個必然趨勢,也是一個挑戰。

5. 資料安全

劉天鸢:

資料安全主要包括資料識别(資料分類分級)、資料審計(包括 API 層面)、資料防護、資料共享、身份認證、加密等子方向。

這些子方向常用的技術方法:

① 資料識别:自然語言處理(NLP)、圖像識别、知識圖譜(KG)等。

② 資料審計:使用者異常行為分析(UEBA)、全鍊路分析。

③ 資料防護:脫敏算法、水印算法、網絡 DLP、終端 DLP、隐私計算。

④ 身份認證:IAM、零信任、堡壘機。

⑤ 加密:透明加密、公鑰基礎設施 PKI。

常用的技術選型:

① 資料識别:ip+ 端口主動掃描,拆詞歸類。

② 資料審計:agent 流量解析、網絡流量解析。

③ 資料防護:脫敏(遮蓋、替換、加密、hash 等)、水印(僞行、僞列、空格)、網絡 DLP(解析 SMTP、HTTP、FTP、SMB 等)。

④ 身份認證:臨時密碼、多因素認證等。

⑤ 加密:密鑰管理服務、數字認證服務、密碼計算服務、時間戳服務、硬體安全服務。

核心技術環節:

① 高效率的資料分類分級,謂詞切分與語義識别技術。

② 全鍊路測繪+風險監測。

③ 同态加密、多方計算、聯邦學習、隐私求交等。

核心性能名額:

資料安全還沒有到拼性能名額的時候了,也沒有特别強的要求。

核心挑戰:

資料是流動的,挑戰就是要解決資料流動和資料安全天然存在的沖突。這個和網絡安全裡常用的暴露面收斂的思路是完全不一樣的。

常見的應用場景:

DSMM 成熟度模型裡定義的采集、傳輸、存儲、處理、交換、銷毀都涉及。資料安全治理優先解決資料采集、資料存儲、資料處理場景下的安全。

前沿趨勢:

① 資料分類分級和資料血緣的關聯。

② 全鍊路資料分析,有兩個難點:如何将端、應用、資料資産三個層面的資訊進行關聯分析;如何測繪出資料流轉,并從資料流轉中發現風險。

③ 隐私計算。

03.

智能化與自動化

王慧祥:

DataOPs、AIOPs 是資料治理的進階流程化表示形式,将資料治理要解決的問題進行子產品化拆解,并以流程做串聯,在各個子產品的部分,通過規則或者 AI 的方式來分析、預測資料治理問題。

虎興龍:

目前 DataOps 的概念比較受關注,DataOPs 是平台的建設理念和方法,是資料治理的手段。DataOps 和資料治理都比較強調要加強中繼資料管理,完善中繼資料。

同時國外也有比較熱的詞叫 Data Fabrics,從資料最終價值輸出上,建構一個高效的資料知識網絡(Data Fabrics)可能才是資料治理的目标,DataOps 是手段。

- End -

訪談人:虎興龍 騰訊PCG平台與内容事業群資料工程專家、研發組長

訪談人:王慧祥 位元組跳動火山引擎DataLeap資深大資料工程師

與談人:劉曉坤 DataFun

撰文:劉曉坤 DataFun

▌專家介紹

虎興龍

公司:騰訊

職位:PCG 平台與内容事業群資料工程專家、研發組長

個人介紹:11 年大資料領域從業經驗,擅長大資料平台技術架構、資料治理與分析平台建設,先後在百度、vivo、騰訊負責大資料平台、資料治理平台研發工作,目前擔任騰訊資料工程專家、研發組長,負責騰訊歐拉資料治理平台的技術工作。

王慧祥

公司:位元組跳動

職位:火山引擎 DataLeap 資深大資料工程師

個人介紹:負責位元組跳動資料品質、資源優化等大資料領域的資料治理平台的研發工作,在海量資料場景下的存儲資源治理、任務資源治理、資料 SLA 保障、離線及流式資料監控等場景上擁有較多的平台化、系統化解決經驗。

劉天鸢

公司:阿裡

職位:阿裡雲大資料平台 DataWorks 産品經理

個人介紹:負責公共雲商業化與資料安全能力建設。

▌資料智能專家訪談

“資料智能專家訪談”是 DataFun 新推出的内容系列,本系列旨在訪談不同公司的核心技術人員,得到專家在不同領域的洞察,包括但不限于行業重點、熱點、難點,增加讀者對行業技術的了解。

繼續閱讀