天天看點

選型寶訪談:怎樣建構統一、共享的主資料平台,打造真正幹淨的資料治理能力?

今天,商業環境瞬息萬變,競争日益加劇。

無論你是什麼行業,你都無法回避的一個關鍵詞是“數字化轉型”。通過數字化轉型,讓企業變得靈活,成為一種時代精神,也是我們這代IT人的使命。

然而,無論是業務層面的創新需求,還是決策層面的資料分析需求,都要幹淨、準确的業務資料作為支撐。隻有擁有一個規範的、幹淨的資料基礎,才有可能談創新,才有可能在複雜多變的商業環境下,做出科學的決策,數字化轉型戰略才有機會落地。

在企業紛繁複雜的資料裡,有一類資料事關全局,例如:客戶資料、産品資料、員工資料…這些資料被頻繁複用、影響全局,正在成為資料治理中的難點、痛點。

主資料管理系統正是以這些共享的、靜态的資料為抓手,嘗試通過建立一個統一的、共享的管理系統,通過治理和規範,形成打造真正幹淨的資料治理能力。

然而作為一類重實施的項目,主資料管理的實施并不簡單,其中有諸多髒活、累活,項目實施風險很高。

主資料管理項目實施風險有哪些?

主資料産品選型關鍵注意事項是什麼?

帶着這些問題,選型寶采訪了Stibo Systems 大中華區專業服務總監張金良先生。

幹貨滿滿,盡在訪談實錄中…

本次訪談的觀點精華

選型寶:在您看來,什麼樣類型的資料屬于主資料,它跟其它的資料是一個什麼樣的關系?

張金良:主資料有三個标準,第一個就是唯一性,這個好了解,既然做主資料一定是唯一的,不能有重複的,這是唯一性。

第二個就是共享性,主資料一定要是在整個企業的業務系統中能夠一直在流轉的,各個系統都會使用的,這種是共享性。

第三個是靜态性,這個資料是相對于靜态,不是變化頻率特别高的,不像我們的交易資料可能一分鐘變幾十次這種,它的資料相對靜态。

一般來說我們會拿這三個标準來去進行一個梳理,這是傳統的主資料定義的一個概念。當然現在對于主資料可能有一些外延或者有一些管理方式的變化,但是它的資料層面界定,我們基本上還是以這個為主。

業務資料之間跟主資料的關系,其實就是主資料是業務資料的基礎,主資料到了各個業務系統,我會去補充它的一些業務屬性,這樣的話這個資料可能會更加豐富。

同時還有一些業務資料,交易性的資料,在跑的時候其實是拿主資料作為基礎資料來去生成的。是以主資料是所有資料裡邊最基礎、最核心的一部分。

選型寶:主資料管理跟資料治理這兩個概念,我們應該怎麼去了解它們之間的關系呢?

張金良:其實主資料跟資料治理,我們的簡單了解,它們互相合作,是共同幫助企業提高資料品質。

其實資料治理它屬于資料管理中的一部分,主資料管理又是資料管理中最核心的一部分。

企業在做資料治理的情況下,首先要有主資料管理,要有資料标準、規範,需要建立成熟的主資料管理流程,那基于這個,再做資料治理,包括資料清洗,至少我們說有法可依,你要依據哪一種标準來去進行資料的清洗,資料治理,那如果你的标準不定的話,你這資料隻能越來越亂,今天我是這個标準我要這麼去做,明天另外部門我另外一個标準,那資料肯定會亂的,一定要有一個統一的标準。

主資料管理,就是他把主資料層面的整個标準流程,包括一些定義落地,能保證這些資料的品質,那以這個為基礎,我再去做資料品質,那就更加容易一些。

我們認為主資料管理,是整個資料管理中最核心的基石部分。

選型寶:一般而言,企業實施主資料系統,會經曆怎麼樣的一個曆程?

張金良:一般來講,分為以下幾步:

第一步 主資料的界定

我們要去做一些宣貫,跟客戶讨論,他們什麼樣的資料是主資料,這個過程叫主資料的界定,或者叫主資料識别。界定的标準就是剛才說的唯一性、共享性、靜态性。

第二步 确定主資料的維護流程、标準規範

訪談完之後,确定其這些資料維護的标準規範,如果是合理的,我可以研究它們,如果有一些可以變化,可以去改變,或者優化的,我們會給出一些意見,要細到字段級,我的資料類型是什麼樣的、大小,長度等等,這是一些主資料标準上面的東西。

同時也要幫客戶梳理資料維護流程,未來參與這個流程大概都是誰,每一個流程節點的角色,應該是什麼樣的人,推薦什麼樣的人去擔任這樣的職務,去負責這一塊。

因為你這個資料标準它也不是說一成不變的,之前定完之後,後邊還會經常有一些變化,這個時候一定要有專門的人或者是組織辦這個事。

第三步 曆史資料清洗,進入主資料系統

資料清洗是主資料裡邊實施的一個很大的部分。資料如果品質不高,是髒資料、亂資料,進了主資料系統裡,它還是髒亂的。如果沒有資料清洗,我隻不過是把髒資料,從這個地方拿了一個備份,放到另外一個地方,沒有解決根本的問題。

結合确定的标準規範,對曆史資料進行清洗,確定清洗以後,幹淨的資料進入主資料管理系統。

第四步 資料映射

清洗以後,主資料系統裡存的是唯一可信的資料,在業務系統中,可能存在于重複的資料,或者資料品質很差,在這種情況下,要去做這種映射。

主資料管理系統把清洗過的資料,回推給業務系統,然後再一個保留映射的關系,因為交易在跑,如果把資料完全改的話,可能就原來的這個系統單據,這種曆史資料可能走不下去了,是以說可能是要有映射關系,有一個過渡的過程。

選型寶:項目上線以後,怎樣的機制,保證新産生的資料符合規範?

張金良:通常,我們講究一個事前、事中、事後的一個概念。

事前,資料進來之前,要校驗,品質不好的話,有問題的,我不要,這是一種。

另外一個我在裡邊維護的時候,因為人為做會有失誤,不能保證人做的都是對的,在這個情況下,事中的時候,也會有一個監控跟治理的過程。

事後,主資料系統往業務系統推資料的時候,也一定是要按照符合業務系統要求規範,推下去。

整個這三部分,事前、事中、事後,都要有資料管理體系,而在我們的組資料産品,Stibo裡邊,其實有這些功能的。

比如說我會有一些校驗接口,哪怕你是用自己的業務部門來去維護,你也是要到主資料系統的接口來進行資料校驗,保證進來資料是OK的。

同時在裡邊,我們會有一些資料品質分析的報表,定期的去跑,有問題的話直接就能提示你這些資料有哪些問題?這個的話,在資料維護管理是非常重要的,因為我一眼就看到了哪一條資料什麼問題,我就可以直接去進行更改、維護。

另外一種功能,我會有一些業務規則或者是流程校驗的機制,你在裡邊維護的時候,我當時能提醒你,你這個輸錯了,你這個東西做的不對,或者不符合标準,這樣整個是一個完整的體系。從資料标準、規範、流程,這幾種合作才能保證它資料的幹淨程度。

選型寶:資料的校驗機制,這個背後的是一些什麼樣的邏輯,能舉幾個例子嗎?

張金良:其實校驗這塊,我們也會經常遇到,簡單來講就是我們經常自己上網登入東西發現的,這個框是文本就不能輸數字的。

簡單的,長度是20位的編碼,你不能輸40。比如手機号,你要超過11位,我就認為你輸錯了。

但是再複雜一些,比如說你的×××号進來之後,它會給您校驗,你這個是不是自己編的?因為×××号它會有校驗位,它不是自己編的,第二号碼區号,你随便錄,是不是對?

然後再複雜,比如說我的資料進來之後有一個判重,跟主資料要識别它的唯一性,之前錄過一條資料,你過兩天以後,可能錄得非常相似或相近,我要去提示你。等等諸如此類的機制,來保證後續的資料是持續幹淨的。

選型寶:作為一種實施風險比較高的項目,您認為,可能導緻主資料管理項目失敗的因素有哪些?

張金良:其實從主資料管理來講,實施難點主要在于幾個方面:

1、怎樣驅動業務部門落實新的管理規範

一般好多企業是這樣,使用業務系統我要去使,但是都會認為整個資料的維護管理都應該是IT的事。

實際情況是,好多資料其實是從業務部門來的,這種情況下它在界定資料維護流程的時候,制度規範很難去往下推。人人都願意享受資料規範後的便利,但是不一定願意承受規範帶來的束縛。

2、曆史資料的清洗,這是一個髒活累活

另外一個點很重要,就是資料清洗,以前這個曆史資料哪些資料能進主資料,要進之前,一定要做清洗,這步很關鍵的。

理論上其實每條每個字段都要過了,是以這個會比較苦,量會比較大,用我們的話講就是幹髒活累活的。

這一步,也是很重要的一個潛在風險,是關系到項目成敗的關鍵。

選型寶:有哪些政策可以降低實施風險?

張金良:首先是要確定上司有力

這個項目一定需要比較進階别的上司才能推動,隻有進階的上司,才能夠去協調動各個部門之間的資源或者是人力。

包括比如說專家,包括各個部門的組長,他來去做資料的規範、資料标準的制定,他來去上司這個流程走下去。

如果有資料變更,他能去做一些仲裁這樣一些内容,是以說這一定要是一個級别比較高的人才能推動這個項目。

第二,做好激勵

在整個項目實施的過程當中,我們會把這個資料進行一個界定,定義這個資料的數組,到底是誰來管這塊資料,哪個部門來負責哪一部分。

我們系統會有一個整個追溯的過程,到底是誰什麼時間做什麼維護,改了什麼樣的資料,會有這樣的追溯過程,并且我們會對資料品質有一個評估,有些KPI名額,可以評估整個資料維護的及時性,包括準确性,通過這種KPI名額來統計每個人,可以跟他的績效進行挂鈎,也相當于進行一些相應的正激勵或者負激勵方式,也是去促使使用者既在享受高資料品質的優勢的同時,也要有一個貢獻。

第三,通過産品和技術手段,盡可能沿用之前的資料維護習慣

例如,把主系統和有些頁面直接嵌到業務系統裡去,沿用使用者以前的維護習慣,讓使用者感覺不到在維護主資料系統,他感覺到我是在為業務系統維護資料,但實際上他進到了主資料系統裡面。

通過降低習慣的改動,降低業務人員的抵觸情緒,降低實施風險。

選型寶:站在客戶的角度看,您認為選擇一款主資料管理平台,應該重點考察哪些次元?

張金良:如果以客戶角度來講,選擇一個主資料平台,應該從以下角度考察:

▣ 第一,易用性

是不是非常好用,是不是非常容易上手,然後是不是我業務部門就能去使,産品做的足夠易用,才更容易減少業務部門的抵觸情緒。

▣ 第二,擴充性

就是剛才說的或者是叫業務響應性,如果資料的結構、标準發生了變化,能不能在第一時間能夠響應業務的要求,而不是說再去找原廠重新開發,重新搭建結構、重新部署等等一系列東西,那可能這一系列時間過去之後,那個最佳時機已經過去了。

▣ 第三,公司和産品的持久性

因為主資料來講,它這個核心資料是非常重要的資料。這家公司一定要未來看到它是一個持續發展的公司,不能說過幾年這公司都沒了,那我這個系統,我的這麼重要的資料沒有人來去維護,沒有去做更新,這也是很關鍵的。

▣ 第四,實施人員的業務能力

因為看似隻是純資料的一個東西,但是你要對它的業務要有一些比較深的了解,你能給他一些經驗,比如說哪個行業裡邊這個資料一般來說怎麼維護,然後一般來說定義的資料标準什麼樣的,我的資料的品質屬性一般是哪一些,這有給他一些指導。

▣ 第五,項目周期

這塊放到最後,其實很重要。

很多客戶都會想實施周期短,因為一旦發現資料品質問題,就肯定想越快越好,是以說項目實施周期也是非常重要,就是我能不能盡快的在半年以内把這個資料治理好。

繼續閱讀