天天看點

「資料治理那點事」系列之四 | 書同文車同軌:資料治理之資料标準管理

這篇文章主要從資料治理中的重要基礎内容:資料标準入手,從以下幾個角度展開具體講解:

  • 對資料标準的認識誤區
  • 資料标準的定義
  • 企業如何制定資料标準
  • 資料标準化過程中出現難題的原因以及解決方案

一、大資料治理标準體系

根據全國資訊技術标準化技術委員會大資料标準工作組制定的大資料标準體系,大資料的标準體系架構共由七個類别的标準組成,分别為:基礎标準、資料标準、技術标準、平台和工具标準、管理标準、安全和隐私标準、行業應用标準。本文主要闡述其中的第二個類别:資料标準。

二、關于資料标準認識的幾個誤區

資料标準這個詞,最早是在金融行業,特别是銀行業的資料治理中開始使用的。資料标準工作一直是資料治理中的重要基礎性内容。但是對于資料标準,不同的人卻有不同的看法:

有人認為資料标準極其重要,隻要制定好了資料标準,所有資料相關的工作依标進行,資料治理大部分目标就水到渠成了。

也有人認為資料标準幾乎沒什麼用,做了大量的梳理,建設了一整套全面的标準,最後還不是被束之高閣,被人遺忘,幾乎沒有發揮任何作用。

首先亮明作者的觀點:這兩種看法都是不對的,至少是片面的。實際上,資料标準工作是一項複雜的,涉及面廣的,系統性的,長期性的工作。它既不能快速地發揮作用,解決掉資料治理中的大部分問題,但肯定不是完全沒有作用,如果資料标準工作的結局隻是最後剩下一堆文檔,那隻能說明這項工作沒有做好,沒有落到實處。本文主要的目的,就是分析為什麼會出現這種情況,以及如何應對。而首先需要做的是厘清資料标準的定義。

三、資料标準的定義

何為資料标準,各相關組織并沒有統一的,各方都認可的定義。結合各家對資料标準的闡述,從資料治理的角度出發,我嘗試着給資料标準做一個定義:資料标準是對資料的表達、格式及定義的一緻約定,包含資料業務屬性、技術屬性和管理屬性的統一定義;資料标準的目的,是為了使組織内外部使用和交換的資料是一緻的,準确的。

四、如何制定資料标準

一般來說,對于政府,會有國家或地方政府發文的資料标準管理辦法,其中會詳細規定相關的資料标準。是以在此主要講企業如何制定資料标準。

企業的資料标準來源非常豐富,有外部的監管要求,行業的通用标準,同時也必須考慮到企業内部資料的實際情況,梳理其中的業務名額、資料項、代碼等,将以上所有的來源都納入資料标準是沒有必要的,資料标準的範圍應該主要集中在企業業務最核心的資料部分,有的企業也稱作關鍵業務資料或核心資料,隻要制定出這些核心資料的标準,就能夠支撐企業資料品質、主資料管理、資料分析等需要。

五、資料标準化的難題

資料标準好制定,但是資料标準落地相對就困難多了。國内的資料标準化工作發展了那麼多年,各個行業,各個組織都在建設自己的資料标準,但是你很少聽到哪個組織大張旗鼓地宣傳自己的資料标準工作多麼出色,換句話說,做資料标準取得顯著效果的案例并不多。為什麼會出現這種情況,主要有兩個原因:

一是制定的資料标準本身有問題。有些标準一味地追求先進,向行業領先看齊,标準大而全,脫離實際的資料情況,導緻很難落地。

第二個原因,是标準化推進過程中出了問題。這是我們重點闡述的原因,主要有以下幾種情況:

1、對建設資料标準的目的不明确。某些組織建設資料标準,其目的不是為了指導資訊系統建設,提高資料品質,更容易地處理和交換資料,而是應付監管機構檢查,是以需要的就是一堆标準檔案和制度檔案,根本就沒有執行的計劃。

2、過分依賴咨詢公司。一些組織沒有建設資料标準的能力,是以請咨詢公司來幫忙規劃和執行。一旦咨詢公司撤離,組織依然缺乏将這些标準落地的能力和條件。

3、對資料标準化的難度估計不足。很多公司上來就說要做資料标準,卻不知道資料标準的範圍很大,很難以一個項目的方式都做完,而是一個持續化推進的長期過程,結果是客戶越做遇到的阻力越大,困難越多,最後自己都沒有信心了,轉而把前期梳理的一堆成果束之高閣,這是最普遍的問題。

4、缺乏落地的制度和流程規劃。資料标準的落地,需要多個系統、部門的配合才能完成。如果隻梳理出資料标準,但是沒有規劃如何落地的具體方案,缺乏技術、業務部門、系統開發商的支援,尤其是缺乏上司層的支援,是無論如何也不可能落地的。

5、組織管理水準的不足:資料标準落地的長期性、複雜性、系統性的特點,決定了推動落地的組織機構的管理能力必須保持在很高的水準線上,且架構必須持續穩定,才能有序地不斷推進。

以上這些原因,導緻資料标準化工作很難開展,更難取得較好的成效。資料标準化難落地,是資料治理行業的現狀,不容回避。

六、如何應對這些難題

應對以上這些難題,最經濟、最理想的模式當然是:做大資料建設,首先做标準,再做大資料平台,資料倉庫等。但一般的不大可能有這樣的認識,很多時候大家都是先建設再治理。先把資訊系統、資料中心建好,然後标準有問題,品質不高,再建資料标準,但實際上這時候已經是回過頭來做一些亡羊補牢的事情,客戶的投資肯定有一部分是浪費。

正因為其太過理想化,是以這種模式幾乎是見不到的。在實踐中,我們往往還是需要更多地考慮如何把資料标準落地到已有的系統和大資料平台中。

資料标準落地有三種形式:

1、源系統改造:對源系統的改造是資料标準落地最直接的方式,有助于控制未來資料的品質,但工作量與難度都較高,現實中往往不會選擇這種方式,例如有客戶編号這個字段,涉及多個系統,範圍廣、重要程度高、影響大,一旦修改該字段,會涉及到相關的系統都需要修改。但是也不是完全不可行,可以借系統改造,重新上線的機會,對相關源系統的資料進行部分的對标落地。

2、資料中心落地:根據資料标準要求建設資料中心(或資料倉庫),源系統資料與資料中心做好映射,保證傳輸到資料中心的資料為标準化後的資料。這種方式的可行性較高,是絕大多數組織的選擇。

3、資料接口标準化:對已有的系統間的資料傳輸接口進行改造,讓資料在系統間進行傳輸的時候,全部遵循資料标準。這也是一種可行的方法。

在資料标準落地的過程中,需要做好這幾件事:

  • 事先确定好落地的範圍:哪些資料标準需要落地,涉及到哪些IT系統,都是需要事先考慮好的。
  • 事先做好差異分析:現有的資料和資料标準之間,究竟存在哪些差異,這些差異有多大,做好差異性分析。
  • 事先做好影響性分析:如果這些資料标準落地了,會對哪些相關的遊戲廳産生什麼樣的影響,這些影響是否可控。中繼資料管理中的影響性分析可以幫助使用者确定影響的範圍。
  • 制定落地的執行方案:執行方案要側重于可落地性。不能落地的方案,最終隻能被廢棄。一個可落地的方案,要有組織架構和人員分工,每個人負責什麼,如何考核,怎麼監管,都是必須納入執行方案中的内容。
  • 具體的執行落地方案:根據執行方案,進行資料标準落地執行。
  • 事後評估:事後需要跟蹤、評估資料落地的效果如何,做對了哪些事,哪些做得不足,如何改進。

總結

資料标準的建設大緻可以分成兩個階段

第一個階段是梳理和制定資料标準

第二個階段是資料标準的落地和實施

而後者是公認的難題

作者:蔣珍波(樂天),6 年+ 大資料咨詢經驗,擅長為客戶提供科學合理的大資料解決方案。目前擔任數瀾科技咨詢專家。

相關文章:

「資料治理那點事」系列之一:那些年我們一起踩過的坑 「資料治理那點事」系列之二:手握資料「戶口本」,資料治理肯定穩! 「資料治理那點事」系列之三:不忘初心方得始終,資料品質治理?

【更多資料治理方面的文章在

數瀾社群

——國内首個面向資料人的資料中台交流社群。專注于資料中台研究、數栖平台使用指導、資料可視化探讨。】

繼續閱讀