天天看點

技術不夠人來湊,“衆籌式”資料治理現狀還有救嗎?

作者:Aloudata大應科技

讓大廠也抓狂的資料治理,究竟什麼樣的企業能做成?這是一個問題。

資料治理這個話題似乎總是充滿了沖突。大家一邊吐槽它是髒活累活,一邊不得不面對一個事實——在約93%的企業開始探索數字化轉型的今天,資料治理變得比以往任何時候都更為重要,但也比任何時候都更加困難: 一方面,國家、行業監管對資料治理的要求趨嚴趨細的同時,資料與企業業務結合越來越緊密,資料問題帶來的業務影響越來越大,各方對資料治理的要求越來越高;另一方面,随着資料規模和複雜性的增加,以及企業内大範圍員工用數,企業資料環境的複雜性指數級上升,資料治理難度發生了質的變化。資料治理要求和難度發生了巨變,資料治理方法論的實際落地也成為了一個極富挑戰性的命題。我們在調研了近百家企業後發現,多數企業仍在使用過時的中繼資料技術,伴随着企業資料體系日趨複雜,多條業務線飛速發展,這樣的技術已經無法滿足企業今天的資料治理要求。

四大技術難題阻礙,讓資料治理“無解”

上下遊部門焦頭爛額,資料治理問題遲遲難以解決。尋根究底,無非是中繼資料的這幾個“老大難”問題制約着企業資料治理能力。

一、不夠細:表級血緣無法滿足精細化分析需求,使用者普遍感覺“不好用”

表級血緣是現在企業使用最廣泛的一種資料依賴分析技術,展現為“輸入表-輸出表”關系,但無法區分表中字段的加工關系,無法确定“直接和間接血緣”關系(或者強弱血緣關系)。在監管名額保障、安全合規分析、變更影響面評估、口徑溯源等場景中,由于表-表關系太泛化,無法滿足精細化分析需求,無法了解精細化的資料傳播路徑, 導緻使用者普遍感覺表級血緣“不好用”甚至“不敢用”。有些企業使用 Excel 人工盤點血緣鍊路,以彌補表級血緣的缺陷。但随着企業資料規模和複雜性增加,鍊路盤點工作難度也随之發生了“質變”:一個表有幾十個列、擴散幾萬個下遊、資料深度達到幾十層,如果要人工盤點全鍊路的資料加工和流轉鍊路,單憑 Excel 和人力已經遠遠無法支撐。

企業迫切需要至少到列級精細度的血緣資料以及 100% 準确的血緣關系,以支援精細化的資料治理場景。

二、不夠準:血緣解析覆寫低、準确性差,血緣資料不敢用

企業的資料平台呈現多樣性,例如一份資料的流轉會經曆 MySQL、Hive、Guass等多個資料庫平台;在 Hive 平台上,使用者也經常使用 SparkSQL、Python 等程式設計語言來處理資料,血緣解析要處理的往往不限于單一平台的 SQL 語句。另外,開源解析軟體對各資料庫文法支援程度參差不齊,一些特殊文法和程式設計方式都不支援。

以上原因導緻企業在血緣解析上面臨極大挑戰,例如某客戶用開源技術解析 Hive 列級血緣準确率最多 70% ,某些平台的任務腳本甚至根本不支援解析,這使得資料血緣隻能在極其有限的範圍内使用。由于血緣解析覆寫度低、準确性差,往往帶來 “影響面評估容易遺漏、來源去向看不準、基線打标失準”等等對資料治理工作影響極大的負面因素。

企業迫切需要 100% 覆寫資料流轉鍊路的血緣解析技術,達到 100%解析準确性。

三、不夠快:離線采集導緻中繼資料更新慢,治理管控及時性受到極大限制

很多企業還在按天更新或者捕獲中繼資料變更,例如一個表結構的變更要隔天才能在資産管理平台上看到。定制化的離線鍊路計算效率取決于開發者的個人經驗能力,中繼資料産出時效無法穩定保障,在離線鍊路上“越跑越慢”的任務比比皆是。中繼資料的産出時延大,導緻資料治理無法從“事後”走向“事前”,如釋出前的模型管控、新增敏感資料的識别、違規資料使用的防範等等,極易放過高風險變更,引發資料品質、合規風險。

企業迫切需要實時中繼資料,以在工作中第一時間規避高風險變更。

四、不夠全:中繼資料接入難、接入慢,企業缺乏一份統一、完整的中繼資料視圖

随着企業資料類型的增加,中繼資料采集需求也越來越多,縱觀整個采集入庫過程,存在着大量重複 ETL 工作,拖累了新中繼資料源內建的效率。例如資料庫元倉是标準的中繼資料模型,但是很多企業在對接這類标準模型時還需要人工逐個開發入庫;一些自研系統的非标準的中繼資料需要 ETL 加工處理和模組化,采集入庫的程式同樣需要人工逐個開發。在中繼資料建設上,企業也很容易進入“煙囪式的資料開發”陷阱,導緻曆史資料債務越積越多。當使用者進行中繼資料分析時,往往需要先學習現有模型關系,再關聯多個中繼資料的表才能取出所需的結果。

企業迫切需要中繼資料接入的标準方案,以快速、低成本的接入新的中繼資料源;建構統一進制資料模型,以提升中繼資料管理和分析的效率。

技術不夠人來湊, “衆籌式”治理難長久

由于上述中繼資料不夠細、不夠全、不夠準、不夠快等種種限制,在企業資料治理步入深水區的背景下,過時的中繼資料技術所帶來的制約性日益顯著,在很多實際工作場景中,由于中繼資料無法被依賴,“人肉式”、 “衆籌式”的資料治理成為了很多企業不得已的選擇,同時也帶來了大量的問題:

技術不夠人來湊,“衆籌式”資料治理現狀還有救嗎?

也正是由于缺乏一份好的中繼資料,企業隻能采取粗放的、被動的和運動式的資料治理方式來應對。之是以粗放,是因為中繼資料精細度不夠;之是以被動,是因為中繼資料時效性不夠,之是以依賴運動式治理,是因為中繼資料的全面度、精準度不足,隻能發動群衆“衆籌式”治理,帶來的後果便是高昂的成本、一次次的全體動員,一次次的 CIO 工程......

實踐證明,“堆人堆時間”的模式不僅成本高昂、出錯機率大,效果也無法持久,顯然并非良策。要想真正改善資料治理落地效果,破局的關鍵在于一份好的中繼資料,讓資料治理的效果在企業高效落地,支援資料治理走向長期和自治。

一套好的資料治理方案,需要一份好的中繼資料

在 2022年 Gartner 公布的頂級戰略技術趨勢中,Data Fabric 作為一種面向未來的資料管理架構思想入選為工程信任主題的關鍵技術趨勢,而主動中繼資料則被認為是實作 Data Fabric 和主動資料治理的基石。 Gartner 将未來的資料管理比喻成“具備自動駕駛能力的汽車”,資料管理政策在人的監視下自動運作,而資料管理政策的有效性絕大部分取決于主動中繼資料建設的好壞。

可見,企業落地 Data Fabric 和主動資料治理的首要任務就是建構全面、精細、準确、實時的主動中繼資料, 并持續優化以獲得更好的資料管理效果。

✦ 全面: 企業的數字資産都可以接入到中繼資料語義圖譜上,端到端看清資料流轉鍊路,在鍊路治理等場景中(資料溯源、影響評估)無遺漏無斷點。

✦ 精細: 主要的資料血緣鍊路要支援口徑級了解和精準擴散、精細化影響評估。

✦ 準确: 血緣解析結果、加工口徑分析結果和人工了解一緻、資料分類分級打标和傳播準确、變更評估結果和人工評估結果一緻。

✦ 實時: 實時捕獲和進行中繼資料變更,支援中繼資料實時應用場景,例如釋出管控、實時分類、鍊路異常預警。

有了這份全面、精細、準确、實時的主動中繼資料,企業資料治理就具備了從粗放式、被動式和運動式向精細化、主動化和智能化的資料治理能力演進的基礎。

Aloudata 大應科技創始團隊從 2019 年開始以 “用資料治理資料”的工作理念在螞蟻集團推進全域資料治理,在建構全面、精細、準确、實時的主動中繼資料能力上進行了大量實踐,在 EB 級資料體量上實作了安全合規治理、計存成本治理和資料品質治理 等領域的自動化和智能化,這些實踐經驗同時也在金融行業頭部企業得到了廣泛應用。

落地金融行業頭部企業,BigMeta 完成複雜資料環境下效果驗證

自 2021 年 5 月 Aloudata 成立後,團隊結合業界先進的 Data Fabric 架構理念 ,基于獨創算子級資料血緣技術,推出了 BigMeta 主動資料治理平台。 以業界領先的技術和理念,深入回答了如何為企業打造一份“好的中繼資料”,消除資料治理技術瓶頸,提升資料管理效率。BigMeta 目前也已落地多家金融頭部企業,在高複雜度的資料環境中實地驗證,達到了100%精準度的列級血緣和 99%精準度的口徑解析成果。

該企業以 Hive 平台為資料倉庫,視圖和表的數量達到 50萬+,Hive SQL腳本約 5 萬。 由于業務複雜,代碼的複雜性非常高;在多數腳本中,都包含了臨時表、宏替換、子查詢、多段Union、lateral View集合函數等用法,基本上涵蓋了 Hive SQL所有文法特性。在這樣高複雜度的資料環境之下,經客戶方數十人近一個月的産品使用後,最終一緻得出“目前在國内尚未看到同級别精準血緣能力”這一結論。

除了Hive 平台血緣解析,BigMeta 還設計了靈活可擴充的産品架構, “可插拔”多平台的 SQL 類文法解析器、支援主流資料庫的中繼資料的批量和實時采集,友善企業建構全面、統一的中繼資料服務底座。

與此同時,BigMeta 支援自定義資産對象和關系,對于Java、Python 等編譯類程式、名額報表等非标準關聯關系,使用者可自定義擴充實體屬性和關系中繼資料模型定義,通過産品導入到血緣圖譜中,建構端到端聯通的中繼資料語義圖譜。在這份“企業級中繼資料語義知識圖譜”上,BigMeta還提供了多種行業解決方案,幫助企業快速、高效開展資料治理業務。

技術不夠人來湊,“衆籌式”資料治理現狀還有救嗎?

BigMeta 改變治理工作模式,打開資料治理空間

Aloudata BigMeta 在複雜度爆炸性增長的資料生态體系下為企業提供全面、精細、準确和實時的中繼資料基座,也進一步帶來了自動化、自治化的治理能力更新。這讓傳統資料治理的工作模式發生了颠覆性的變化,以往嚴重依賴人工的資料盤點和鍊路分析工作都可以在中繼資料支撐下高效完成,幫助企業節省大量成本和時間投入,并持續獲得治理收益。

目前,Aloudata BigMeta 已經支援字段口徑溯源、精準影響面分析、自動化資産判重、可視化字段口徑和鍊路對比、自動化安全合規分類分級、精細化中繼資料标簽傳播等多種中繼資料智能能力,并圍繞上述核心子產品的實踐,正式釋出涵蓋資料資産盤點、主動模型治理、資料可觀測行、安全合規治理等【基于主動中繼資料的多場景資料治了解決方案】 ,詳解資料驅動型企業資料治理新方法,為企業提供長期、高效的應對措施去落地資料治理動作,快速打造高品質資料資産,實作數字化轉型更新。

BigMeta-基于算子級血緣的主動資料治理平台

繼續閱讀