天天看點

大資料治理需要具備哪些能力和關鍵技術?

在企業資料建設過程中,大資料治理受到越來越多的重視。從企業資料資産管理和提升資料品質,到自服務和智能化的資料應用,大資料治理的内容在不斷發展和完善,其落地實施的過程中會遇到各種各樣的難題和挑戰。本篇文章通過分析大資料治理建設中的溝溝坎坎,總結出了大資料治理需要具備的能力和關鍵技術。

一、困難重重卻充滿光明的大資料治理發展之路

1. 傳統資料治理一直無法逃脫的魔咒

大資料治理從建設内容和實施目标上可以劃分成不同的階段,每個階段完成不同的任務,随着階段的遞進,建設内容逐漸加深,不同的企業切入點和訴求也各不相同。大緻分為以下幾個階段:

(1) 摸家底階段

内容:企業中繼資料梳理和采集

目标:建構企業資料資産庫

(2) 建體系

内容:建立企業标準和品質提升體系

目标:提升資料品質

(3) 促應用

内容:自服務通道、建構企業知識圖譜

目标:資料智能應用

大資料治理需要具備哪些能力和關鍵技術?

然而,大資料治理建設之路并不是一帆風順的,甚至可以說充滿了各種問題和困難,如何管理企業級的資料資産、如何讓業務積極參與到資料建設中來、如何降低資料治理的落地難度等一系列問題,一直困擾着資料治理的發展,傳統資料治理的問題主要展現在以下幾個方面:

大資料治理需要具備哪些能力和關鍵技術?

(4) 管理範圍窄

要做資料治理首先要知道有哪些資料,傳統的資料治理往往隻管理了資料領域,很少關注業務、管理和開發相關的資料資産,資料管理範圍比較窄,而且,受限于技術實作,即使在資料領域的資料資産也很難做到精确管理;

(5) 業務難結合

業務中繼資料的廣泛缺失,導緻業務人員無法使用技術性的中繼資料系統,中繼資料缺乏業務使用者,使用者少;

(6) 應用場景缺

中繼資料被當成單獨的系統,而不是廣泛的技術基礎,導緻隻關心中繼資料本身的應用場景;

(7) 技術不完善

在技術層面存儲缺乏擴充性,采集自動程度不高,管理實時性不高。

2. 自服務大資料治理是解決問題之道

自服務的大資料治理平台具備管理、開發、共享、使用等能力,通過自動、自助、智能化的大資料治理,能夠實作對資料的找、供、用、治,進而一站式解決傳統資料治理在大資料時代的各種難題,具體涉及到以下幾個方面。

(1) 建好資料管理體系,快速識别資料

自服務大資料治理平台可以實作有資料可管理。現在的企業資料資産繁雜衆多,特别是建設大資料平台的企業,資料的類型、分布、實作技術、所屬部門等都很繁雜,通過手工一點點梳理是不現實的,如何低成本、快速有效地将資料梳理和管理起來?這是做大資料治理遇到的第一個坎。

自服務大資料治理平台可以通過自動化手段,自動識别企業資料資産并标明資料方位和屬性,建立業務能了解的資料服務目錄。

大資料治理需要具備哪些能力和關鍵技術?

(2) 建立資料治理體系,監控并快速發現問題

自服務大資料治理平台可以保障企業資料資産的品質。企業内資料環境複雜,很容易出現資料不一緻、資料不及時、資料缺失等一系列問題,如何識别并快速定位資料問題?特别是針對海量資料,如何在不影響性能情況下找出問題資料?這是做大資料治理遇到的第二個坎。

通過自服務大資料治理平台建立和支撐起基于資料名額、品質檢核、問題發現和監控的完善資料治理體系,從事前、事中和事後等各個環節規避、發現和解決資料問題,将能保證資料應用無後顧之憂。

大資料治理需要具備哪些能力和關鍵技術?

二、大資料治理技術需要不斷革新

資料治理的目标是把資料管起來、用起來、保證資料品質,這些目标離不開各種技術的支援,這些技術包括中繼資料自動采集和關聯、資料品質的探查和提升、資料的自助服務和智能應用等。

1. 管起來:資料資産的自動化采集、存儲技術要實作大資料治理的資産管理,需要做足三個方面的工作:

采集:指從各種工具中,把各種類型的中繼資料采集進來。

存儲:采集中繼資料之後需要相應的存儲政策來對中繼資料進行存儲,這需要在不改變存儲架構的情況下擴充中繼資料存儲的類型;

管理和應用:在采集和存儲完成後,對已經存儲的中繼資料進行管理和應用。

第一,針對資料資産的存儲,模型體系規範為中繼資料管理提供了基礎,通過模型管理可以實作統一穩定的中繼資料存儲,統一的标準和規範能很好地解決通用性和擴充性。

傳統資料資産管理采用CWM規範進行資料資産存儲設計,該規範提供了一個描述相關資料資訊中繼資料的基礎架構,并為各種中繼資料之間的通信和共享提供了一套切實可行的标準。但是,随着中繼資料管理範圍的不斷擴大,CWM規範已經不能滿足通用的中繼資料管理需求,針對微服務、業務等也需要一套規範支撐。MOF規範位于模型體系最底層,可以為中繼資料存儲提供統一的管理理論基礎。

大資料治理需要具備哪些能力和關鍵技術?

第二,中繼資料管理第二個核心問題是解決各類中繼資料的采集,由于中繼資料類型多種多樣,而且在不斷增加,是以,如何以最小代價,快速納入管理新類型中繼資料的能力,是中繼資料管理的核心。

采用可插拔的擴充卡方式實作中繼資料的采集是一個很好的選擇。其中,資料采集擴充卡應支援各類資料源的采集,當有一個新的資料源需要接入的時候,隻需按照規範快速開發一套針對性的擴充卡,就能實作新類型中繼資料的納入管理。

大資料治理需要具備哪些能力和關鍵技術?

第三,與人工相比,技術的最突出特點是速度快和精确。是以,如何通過技術手段精确地擷取資料資産是關鍵,特别是中繼資料關系,一般都存在于模型設計工具、ETL工具,甚至開發的SQL腳本中,是以需要通過工具元件解析(接口、資料庫)、SQL文法解析等手段完成關系的擷取和建立。準确解析後的關系,還需要通過直覺的關系圖展現出來。

大資料治理需要具備哪些能力和關鍵技術?

2. 有保障:資料品質探查和提升技術

通過大資料治理來提升資料品質的過程中,涉及到很多環節、工作和技術,其中包括:通過合理的技術找出資料問題并找到問題資料;從各個次元監控資料問題,并能通過最直覺和快捷的方式回報給相關責任人;實作問題發現、認責、處理、歸檔等資料問題的閉環解決流程等。中間主要涉及到以下兩個方面:

第一,要想及時全面地找到問題資料,不僅要關注關鍵點,還要有合适的方法。資料最容易出現品質問題的地方就是資料內建(流動)點,例如:性别在單系統中,有1和0或者男和女表示都行,但是系統間內建時就會有問題。是以,解決資料品質的關鍵,就在于在內建點檢查資料品質。另外,針對大資料量的資料品質檢查,即要保證明時性,也要保證不影響業務系統的正常運作,是以在對特别大的資料量進行檢查時,要采用抽樣檢查的方式。

大資料治理需要具備哪些能力和關鍵技術?

第二,資料問題發現後,還要直覺地将資料問題展現出來并及時通知相關人員。是以大資料治理平台應提供實時、全面的資料監控,實作多元度實時的資料資産資訊展示:

從作業、模型、實體資源等各方面進行全面的資料資産盤點;

對資料及時性、問題資料量等方面的資料健康環境進行全面的預警。

大資料治理需要具備哪些能力和關鍵技術?

3. 用起來:自助化資料服務建構技術

大資料治理的最終目标是為最終使用者提供資料,這需要快速找到資料,并快速建立資料交換的通道。

知識圖譜是一種非常好用、直覺的資料應用方式。人工智能的知識圖譜建構,可以從以下步驟考慮:

基于企業中繼資料資訊,通過自然語言處理、機器學習、模式識别等算法,以及業務規則過濾等方式,實作知識的提取;

以本體形式表示和存儲知識,自動建構成起資産知識圖譜;

通過知識圖譜關系,利用智能搜尋、關聯查詢等手段,為最終使用者提供更加精确的資料。

大資料治理需要具備哪些能力和關鍵技術?

基于中繼資料的自助資料服務開發,可以簡單快速地建立資料通道。通過自助化的資料生産線,資料使用方(業務人員)大大減少了對開發人員依賴,80%以上的資料需求,都能通過自己進行整合開發,最終擷取資料。讓所有用資料的人能友善得到想要的資料。其中,提供所需資料的自助查詢能力、自動生成資料服務、及時穩定的獲得資料通道、保證資料安全是實作自助化的大資料生産線的四個關鍵點。

大資料治理需要具備哪些能力和關鍵技術?

三、如何選擇合适的大資料治理工具?

工欲善其事必先利其器,大資料治理的落地開展離不開工具的支撐。大資料治理工具一般分為兩類:一類是單個工具,另一類是內建平台,用于不同的階段、場景和客戶。其中,單獨工具有:中繼資料、資料品質、主資料等,內建平台包括資料資産管理、資料治理平台、自助服務平台等。

大資料治理需要具備哪些能力和關鍵技術?

下面重點介紹其中兩個核心的工具:一個是中繼資料,另一個是自助資料服務平台;

1. 大資料治理的核心——中繼資料管理工具

中繼資料是大資料治理的核心,中繼資料管理工具應該支援企業級資料資産管理,并且從技術上支援各類資料采集與資料的直覺展現,從應用上也要支援不同類型使用者的實際應用場景,一個合格的中繼資料管理工具,需要具備以下幾項基本能力:

首先,中繼資料要有全面的資料管理能力。無論是傳統資料還是大資料,無論是工具還是模闆等,都應該是中繼資料的管理範疇。對于企業來說,要想統一管理所有資訊資産,還依靠原來人工錄入資産的方式肯定是不行的,企業需要從技術上提供各種自動化能力,實作對資産資訊的自動擷取,包括自動資料資訊采集、自動服務資訊采集與自動業務資訊采集等,這要求企業使用的資料管理工具支援一系列的采集器,并且多采用直連的方式來采集相關資訊。

大資料治理需要具備哪些能力和關鍵技術?

其次,盡管中繼資料是一個基礎的管理工具,也需要具備好的顔值和便捷的使用方式,以便給使用者帶來好的應用感受。作為一款中繼資料管理工具,能讓使用者能在一個界面全面了解到中繼資料資訊,通過圖像從更多元度、更直覺地了解企業資料全貌和資料關系是很重要的。除此之外,通過H5等流行的展現技術實作各浏覽器的相容,支援界面的移植也是中繼資料管理工具必不可少的能力。

大資料治理需要具備哪些能力和關鍵技術?

再次,中繼資料管理工具不僅僅是一個工具,還需要關注各類人的使用訴求,跟具體使用者的使用場景相結合。對于業務人員來說,通過中繼資料管理的業務需求管理,能更容易地和技術人員溝通,便于需求的技術落地;對于開發人員來說,通過中繼資料管理能管控系統的開發上線、提升開發規範性,自動生成上線腳本,降低開發工作難度和出錯幾率;對于運維人員來說,通過中繼資料管理能讓日常巡檢、版本維護等工作變得簡單可控,輔助日常問題分析查找,簡化運維工作。

大資料治理需要具備哪些能力和關鍵技術?

2. 大資料治理的最佳實踐——自助化資料服務平台

大資料治理最終目标不僅僅是為了管理資料,而是為使用者提供一套資料服務的生産線,讓使用者能通過這條生産線自助地找到資料、獲得資料,并規範化地使用資料,是以自助化資料服務共享平台是大資料治理必不可少的工具。

大資料治理需要具備哪些能力和關鍵技術?

作為大資料治理的落地工具,自助化資料服務共享平台不僅要為開發者提供一套完整的資料生産線,也需要給運維者提供易用的監控界面,畢竟系統的運維才是工具應用的常态。全局的資料資産監控能力和資料問題跟蹤能力同樣重要,通過全局的資料資産監控能力,能使客戶友善地了解到企業資料共享交換的全貌、系統間的資料關系和資料提供方和消費方的使用情況;通過資料問題跟蹤能力,能實作資料問題的智能定位,減少運維工作難度。

大資料治理需要具備哪些能力和關鍵技術?

四、總結

大資料治理對企業資料建設的重要性不言而喻,然而實作的困難有時也會讓人望而卻步,選擇合适的技術和工具會達到事半功倍的效果。希望通過本文介紹能夠幫助在建,或者準備規劃大資料治理的各位,在大資料治理的資産管理、資料品質保證、資料應用等方面的技術和工具選擇上有所幫助。

本文作者:佚名

來源:51CTO

繼續閱讀