天天看點

2018盤點之資料治理——企業數字化轉型的基礎

2018盤點之資料治理——企業數字化轉型的基礎

一轉眼,2018年就快要成為曆史了。回顧2018年中國IT界最熱的詞彙是什麼?“人工智能”、“物聯網”、“企業數字化轉型”應該能夠占據三甲。值得一提的是,無論是人工智能還是物聯網也都以資料為核心,是以無論如何,資料已經成為IT的核心,成為中國企業轉型更新的核心。

然而,人工智能行業的從業者有一句名言:“有多少人工,就有多少智能”——背後的意思大緻是要獲得智能,首先需要人工來治理資料。

換句話說,資料的治理,已經成為IT發展和企業發展的瓶頸之一。如今到底資料治理的市場是一個怎樣的情況,是本文探讨的重點。

資料治理的本質是協調和服務

根據Gartner的定義,“資料治理”(Data Governance)是“一種技術支援的學科,其中業務和IT協同工作,以確定企業共享的主資料資産的一緻性、準确性、管理性、語義一緻性和問責制”。

舉個例子,企業中經常能看到這樣的現象:幾個部門的主管在彙報工作時,同一名額的資料不盡相同,甚至可能截然相反,到底哪個資料是正确的資料?無從确認。造成這種現象的原因很多,比如統計口徑問題、資料品質問題等等。

什麼是治理?治理本身是源自于拉丁文的“掌舵”一詞,強調協調而不是控制,是一個聯合行動的過程,是以治理存在着權力依賴的多元主體之間的自治網絡;另一層含義:治理的本意是服務,通過服務來實作管理的目的,這和雲計算的模式十分吻合。

事實上,在雲計算、大資料時代,業界公認的全球資料年複合增長率近似于摩爾定律的增幅,即每18個月資料量會翻一番;即便是傳統的主資料,Gartner的預測是未來的年複合增長率至少在17%以上。

不僅如此,各類資料中共享和開放的資料量會越來越多,是以共享管理規則和資料方案的實施,以及安全與隐私保護,都将是企業數字化過程中的核心問題。

資料治理正進入智能化階段

說到資料治理的技術問題,我們有必要先來看一下Gartner的魔力象限。

在2017年10月釋出的主資料管了解決方案的魔力象限中,處于上司者象限的是Informatica和Orchestra Networks(TIBCO),SAP、IBM等緊随其後;

2018盤點之資料治理——企業數字化轉型的基礎
2018盤點之資料治理——企業數字化轉型的基礎

而在2018年8釋出的中繼資料管了解決方案的魔力象限中,Informatica和Collibra、IBM、Oracle等位于上司者象限,SAP、Infogix等緊随其後。

應該說,Informatica、IBM、SAP、Oracle等老牌資料治理和資料管理軟體廠商,一直是這一領域的核心玩家。而近些年,随着雲計算的大規模普及,AWS、微軟、谷歌和阿裡雲等雲計算IaaS提供商,也加入了資料治理的主流廠商行列。

在傳統定義裡,主資料(Master Data)是描述企業核心實體的共享資料,例如客戶、供應商、賬戶群組織部門的相關資料,需要保持一緻和統一的辨別符和擴充屬性。與記錄業務活動、波動較大的交易資料相比,主資料(也稱基準資料)變化緩慢。主資料管理一般稱之為MDM。

而中繼資料(Metadata)主要是指中繼資料,即描述資料的資料,主要是描述資料屬性的資訊,具備支援資源查找、檔案記錄、曆史資料、存儲位置等功能,比如文本标注也是一種中繼資料。

2018盤點之資料治理——企業數字化轉型的基礎

今天的大資料中80%都是非結構化資料,實際上主要是文本、圖像、視訊、音頻這樣的資料。對于企業來說,大量的非結構化資料比如視訊、音頻或者文字檔案存留下來,如何變現價值,非常重要的一點就是要進行文本标注,而文本标注的一大難點,其實是實體和關系的标注,最終為行業知識圖譜打好基礎。這個标注過程如今仍然是費時費力的工作,但市場上也有IBM等大廠和明略資料等衆多創新公司推出的文本資料标注抽取工具。

資料治理的智能化程度,

決定了企業數字化轉型的加速度

事實上,即便像Informatica這樣一家傳統的ETL專家,而今也不再單純談ETL,而是更多關注企業的業務方向,幫助企業做數字化的轉型。因為,無論是EIC、資料治理,還是面向客戶資訊的MDM、面向産品資訊的PIM,這些都不再僅僅是面向技術人員使用的,而是要推薦給客戶整體解決方案——比如通過CLAIRE這樣的資料內建的人工智能引擎,自動化地來為客戶提供服務。

國内在資料治理和知識圖譜領域也出現了越來越多的準獨角獸企業,譬如明略資料近日簽約陝西農信,落地農信系統首個信貸知識圖譜;助推華南區首個公安知識圖譜成功落地——在公安場景中,通過對大量筆錄做實體、事件、關系的智能化标注,可迅速建構筆錄中的人、事、地、物、組織的關聯關系,進而從文本資料角度快速建構公安知識圖譜,提高研判效率。

2018盤點之資料治理——企業數字化轉型的基礎

應該說,在今天以資料驅動數字化轉型的Data 3.0時代,資料治理的智能化程度,決定了企業數字化轉型的加速度——隻有具備了智能化資料治了解決方案和專業服務能力的廠商,才能幫助企業加速實作以資料為驅動的數字化轉型。

與此同時,治理的本意是服務,資料治理更應該通過服務來實作管理的目的。值得一提的是,明略資料日前推出了基于深度學習模型的文本資料标注抽取的SaaS工具——Raptor,明略資料成為目前極少數具備資料治理雲服務能力的廠商之一,在資料治理平台化、智能化的道路上邁出了關鍵一步。

在筆者看來,相較于傳統的用于特定業務應用的Data 1.0時代和支援業務流程的Data 2.0時代,今天的Data 3.0時代已經進入到了資料驅動企業數字化轉型的新時代——資料成為了發動機,成為了主角。這時候,不僅資料價值比以往任何時候都更具有颠覆力,成為了經濟發展的新動能;而且,助力企業挖掘資料價值的資料治理廠商,同樣處于風口浪尖,或将迎來市場重新洗牌的2019年。