天天看點

雲原生時代資料治理的變革與創新

作者:HashData

随着數字化程序的深入,企業對資料的依賴日益加深,資料資源的重要性愈發凸顯。如何管好、用好資料,做好資料治理工作,發揮資料資源價值,成為企業提質增效過程中的重要議題。

在本次直播中,我們介紹了資料治理體系、技術架構及雲原生資料平台在資料治理領域的優勢。以下内容根據直播文字整理成稿。

傳統資料治理體系及架構

在數字化轉型中,戰略驅動是根本,資料治理是基礎,資料智能是方向。

資料治理就是從組織、管理、技術的角度持續改變資料使用行為的過程,貫穿整個資料生命周期。資料治理的根本目标是確定資料安全,提升資料價值。

同時,資料治理更是一個體系,其關注于資訊系統的執行層面,以整合資訊科技部門與業務部門的知識和意見為目的,通過資料治理組織對企業的資訊化建設進行全方位的監管,進而疊代資料資産價值,賦能業務發展,達成業務戰略,保障資料安全,降低隐私洩露的風險。

資料治理體系涉及企業的組織、管理、技術等多個層面,和業務部門關系緊密。通常,企業的資料治理工作都是由業務部門牽頭,IT部門輔助執行。

雲原生時代資料治理的變革與創新

圖1 資料治理體系架構圖

如上圖所示,資料治理體系分為三個層級,分别是資料治理對象、資料治理任務和資料治理支撐。

  • 資料治理的對象圍繞主題進行劃分,不同企業的資料主題不盡相同,與企業自身組織和部門設定密切相關,這裡不再展開描述。
  • 資料治理支撐包括企業的組織架構、在資料治理過程中的角色、企業内部基于資料治理相關的制度與流程以及IT 技術架構與平台。
  • 資料治理任務,主要包含主資料管理、資料标準管理、資料品質管理、資料資産管理、資料安全管理、資料生命周期等。其中,主資料管理、中繼資料管理和資料品質管理是重點所在。
  • 主資料管理

主資料是指描述核心業務實體的資料,如客戶、産品、員工、賬戶等,具有高業務價值的、可在跨越各個業務部門被重複使用的資料,并且存在于多個異構的應用系統中。

主資料管理将從企業多個業務系統中整合最核心、最需要共享的資料(即主資料)集中進行清洗和豐富,并以服務的方式把主資料分發給企業範圍内的操作型和分析型應用。

主資料管理的目的是為了保證在跨系統和跨平台使用資料的時候,主資料能夠保持一緻。

  • 資料品質管理

資料品質管理體系包括資料品質的判斷以及所有對資料品質起到保證提升作用的活動、流程,力求實作全方位資料品質管理。

其中,資料品質優化提升是面向存量資料,按業務系統或者主題分批對資料進行分析、清洗,提高既有資料品質的資料品質管理活動。

資料品質管理的管控,首先需要企業内部制訂相關的規章制度,并将資料按照不同的主題域指定相應的歸口部門,確定資料品質是的持續提升。

雲原生時代資料治理的變革與創新

圖2 資料品質問題歸因溯源

通過上方的魚骨圖可以看出,資料品質問題産生的原因有很多,其中人員、流程、業務系統前段錄入屬于原生資料品質問題;業務系統後端資料庫設計、資料抽取、資料加載等屬于次生資料品質問題。

針對原生資料品質問題,可以通過提高錄入的自動化和易用性等手段,降低前端輸入時出錯的機率。

對于次生資料品質問題,通過在資料流轉過程中加入一些埋點校驗,進行資料比對,避免資料出錯。

  • 中繼資料管理

中繼資料用來描述資料的資料,相當于書籍的目錄,是資料的解釋說明資訊,使資料的使用者可以了解資料的特征、内容、作用,以及擷取方式等資訊,并對資料是否能滿足使用需求做出适當的評價。

在資料治理體系中,中繼資料可分為業務中繼資料、技術中繼資料、操作中繼資料和管理中繼資料四種類型。

中繼資料管理分為采集、管理、分類、服務四個層面,涉及标準制訂、補充維護、管理分類、血緣分析、查詢統計等諸多環節。

對于大型企業,中繼資料的規模比較龐大,要實作中繼資料管理需要投入大量的人力和時間,工程周期往往以年為機關。

此外,企業資料治理還涉及資料标準、資料安全、資料生命周期等,這裡不再展開贅述。

資料治理面臨的難題

随着新技術的不斷湧現和資料量的極速增長,傳統資料治理體系在實施時面臨着以下挑戰:

  • 中繼資料管理成本高:業務中繼資料的實施需要業務人員的介入與識别,每個資料平台都要錄入,資料流轉的操作中繼資料也需要進行錄入,導緻記錄成本高。
  • 資料品質難以保障:資料在平台間流轉的過程中會産生次生資料品質問題,需要進行大量的埋點校驗工作。
  • 資料标準落标複雜:每個資料平台都要進行資料标準的檢查,跨平台的資料标準一緻性難以保障。
  • 資料同步政策複雜:主資料平台必須向多個資料平台同步主資料,需要複雜的同步政策,否則可能面臨主資料的版本不一緻問題。
  • 敏感資料難以集中治理:需要定期對每個資料平台的敏感資料進行識别,資料跨平台流轉還需要加密解密,維護困難。
  • 資料服務響應周期長:資料服務要經過多個資料平台進行加工和etl,拉長了資料服務的響應時間。

雲原生資料平台下的資料治理

目前,雲計算對企業IT架構産生了深刻影響和變革,雲原生平台能夠在很大程度減輕上述資料管理與治理負擔,縮短響應周期,基于雲原生平台的資料治理應運而生。

雲原生時代資料治理的變革與創新

圖3 雲原生平台體系與資料治理

如上圖所示,與傳統資料體系相比,雲原生資料平台體系具有以下特點:

  • 一站式靈活資料服務:通過一站式的資料門戶,快速檢索資料資産,靈活開發新的資料服務與産品,快速釋出上線,和使用者互動疊代更新,滾動沉澱企業的資料資産價值。
  • 雲原生資料平台:采用存算分離架構,原生支援OneData,保證企業核心資料的一緻性,降低資料治理的複雜度;根據業務形态,實作資源彈性伸縮、動态排程與高并發,滿足各種業務場景的靈活要求。同時具備自愈能力,提高系統可用性。
  • 雲原生大資料支撐平台:為雲原生化的資料平台提供穩定支撐,實作存算分離、彈性排程、更好的資源隔離等能力,同時也支援混合雲等多種異構環境部署,保障業務的靈活性,幫助企業快速實作業務目标。

随着新技術的不斷成熟,應用場景不斷增加,業務模式不斷複雜化,全域資料治理的理念日益受到企業的重視。全域資料涵蓋了企業相關的内外部資料,與企業的業務和商業性質息息相關。

雲原生資料平台的“存算分離”,實作了企業内的全域資料融合,整合了分散的資料平台,徹底消除了資料孤島現象,并且可以集中進行資料安全管理,減少安全漏洞産生環節,同時也減少了次生資料品質問題;針對全域資料一站式地管理主、中繼資料、資料标準、資料架構與模型,大幅降低資料治理的複雜度;同時,雲原生的資料資産服務也使業務變得更加靈活,适應市場的瞬息萬變,不斷疊代資料資産,進而達成數字化轉型。

目前,HashData作為國内領先的雲原生資料平台,已在金融、電信、政務、能源、交通等衆多領域實作大規模商用,幫助企業高效、便捷地開展全域資料治理工作。

雲原生時代資料治理的變革與創新

圖4 HashData在國有大行生産落地執行個體

以某國有大行為例,使用HashData雲原生資料平台整合了所有P9分析平台,将全域資料按照主題域進行劃分,實作了資料集中管控,資料架構融合統一。

同時,上收所有分公司的資料平台,統一提供全域資料與計算資源。基于共享存儲管理着全行統一的、面向分析的企業級資料視圖,按應用場景的不同建立多個計算叢集,任意計算叢集在授權後均可通路共享存儲中的任意資料,以完成業務加工計算或線上查詢分析。

由于資料平台統一,可以在全行内使用統一的資料模型最佳實踐,避免不同技術棧産生的模型差異,減少了次生資料品質問題和中繼資料操作,大幅降低了資料管理成本。

未來我們期待為各行各業帶來最新的雲原生技術實踐,賦能企業實作OneData,輕裝上陣釋放資料價值!

繼續閱讀