天天看點

也談資料治理

資料治理,在不同行業的概念,可能不同。比如在國家标準化管理委員會釋出《資訊技術服務治理第5部分:資料治理規範》,從非常宏觀的角度來制定,側重于拉通概念和達成共識,像一種“國家标準”;《華為資料之道》是從企業數字化的角度切入下去,側重資料治理體系和方法論,屬于一種“管理方案”;而阿裡推出的《大資料之路》一書,則在資料技術層面給出了有價值的指導,算是具體的“實作方案”了。

DAMA(國際資料管理協會)給“資料治理”下的定義是:資料治理是對資料資産管理行使權力和控制的活動集合。DGI(國際資料治理研究所)則認為:資料治理是一個通過一系列資訊相關的過程來實作決策權和職責分工的系統,這些過程按照達成共識的模型來執行,該模型描述了誰(Who)能根據什麼資訊,在什麼時間(When)和情況(Where)下,用什麼方法(How),采取什麼行動(What)。IBM(資料治理委員會)提出的資料治理概念中,将“資料治理”相關的要素劃分為了四個層次,分别是:支援規程、核心規程、支援條件和成果。

在主資料領域,也有資料治理的訴求,MDM(Master Data Management)就代表這個事情。可以參考2018年中國信通院牽頭編寫的《主資料管理實踐白皮書》,也給出了相關建議。

以上可以看出,“資料治理”這個主題,大家都看得懂明面意思,但太過于寬泛,以至于很多細節争論頗多,各行各業也都有自己的看法。從筆者自身的經曆出發,在網際網路的工作中,資料治理更多的是從經營的角度出發,來控制成本(包括人力、機器、技術債務等)增長不超過業務的增長,同時能夠支援業務的長期、快速的使用需求。資料治理涉及到的地方,包括了“資料開發、資料品質、資料安全”這幾個崗位。

是以,我們大體上明确了這個概念,即“資料治理”(Data Governance)是組織中涉及資料使用的一整套管理行為。由企業資料治理部門發起并推行,關于如何制定和實施針對整個企業内部資料的商業應用和技術管理的一系列政策和流程(以上來源于:百度百科)。

“資料治理”對抗的是三個老大難:“複雜性困局”、“資訊不對稱(包括資料孤島與跨部門溝通)”和“惰性心理”。是以,資料治理需要一個系統性的工程來對抗,站在資料從生産到使用的全鍊路視角,通過技術工具的改進(釋放技術紅利),來定性定量的分析問題原因,并通過營運手段來最終落地,最終控制資料成本與複雜度有序增長。

剛才這段話看着很“八股”,其實我覺得找不到更簡化的語言來描述了,如果能的話,大概就是“統一标準”、“嚴格規範”,統一标準可以按照“一緻性次元”的角度來考慮,“嚴格規範”則從制度和工具兩個方向來改進。

在Kimball的次元模組化理論中,有一個很重要的概念叫Conformed Dimension,中文一般翻譯為“一緻性次元”。“一緻性次元”是建構多元分析體系的三個關鍵性概念之一,另兩個是總線架構(Bus Architecture)和一緻性事實(Conformed Fact)。

在《資料倉庫工具箱》(第三版)中,也提到了資料治理的問題,是站在一緻性次元的角度上來看待。在絕大多數組織中,業務資料相關的規則,包括概念和口徑,都是業務團隊自己定義的,這樣很容易導緻資料孤島問題的出現,是以通常需要比較高階的上司來推動資料治理的工作。書中提到了這個上司應該具備的素養,包括:

‒ 來自組織内部;

‒ 對企業的業務有非常廣泛的了解;

‒ 能夠平衡組織訴求與業務發展的需要;

‒ 具備比較高的權威;

‒ 非常強的與人打交道的能力;

‒ 具備談判技巧,以確定目的的達成。

很明顯,能夠做到這些事情的人并不多,在大多數行業中,能夠對一緻性次元下定義的人太少,是以很多人會認為一緻性次元非常困難。這種問題便是思維上轉變的問題,即業務團隊按照自己的訴求來發展,轉換到從公司層面上出發,為整個公司的業務來推動資料的共享。例如,财務團隊就有比較統一的一緻性次元,它有一個為人熟知的名字:“統一會計科目”,這樣資料跟業務就有了很好的映射關系。

是以,資料中台的概念被發明,并且迅速普及起來,因為資料确實需要放在一起,才能做好有效的管理。在網際網路企業,有兩個地方非常看重資料的一緻性次元,是數倉團隊的公共層,以及業務團隊的主資料。

在數倉團隊,資料公共層的英文是CDM,Common Data Model,直譯過來便是通用資料模型。CDM包括了DIM維表、DWD業務過程與DWS彙總表,是直接基于源系統ODS開發的,主要是面向資料域設計,建立一緻性次元、一緻性事實。在公共層強一緻的基礎上,下遊ADS便可以根據不同的業務訴求,做相應的業務開發,保障資料的一緻性。

在業務團隊,主資料的英文是MDM,MD Master Data,主資料管理又可以翻譯成Master Data Management,指系統間共享資料(例如,客戶、供應商、賬戶群組織部門相關資料)。與記錄業務活動,波動較大的交易資料相比,主資料(也稱基準資料)變化緩慢,主資料跟中繼資料類似,隻有避免了碎片化建設,通過标準的資料體系來支援業務數字化轉型的資料,才是好的主資料。主資料如何用起來?除了提供标準的資料接口之外,更重要的就是給資料中台提供标準的業務資料,然後資料中台通過标準的資料來積累标準的業務過程資料,這樣曆史上的資訊,才不至于因為系統的調整,失去了統計的意義。某種意義上,領域模組化,就是考慮如何把主資料劃分好。

在網際網路公司中,由于業務的複雜性,通常還會定義很多其他的标準:如标準的英文簡稱、資料表的标準命名方法等,這些都很好的規定了資料各個方向的“标準”,是對抗系統“熵增”,控制複雜性增加的有效方法。

但真實的業務總是超出我們想象的複雜,即便按照剛才的規範做過整理,不同業務之間的複雜性依舊是一個很大的挑戰。定個“标準”總是容易的,但定個“好标準”卻是動态的一個過程,這裡面比拼的,就是我們對業務的深度了解和思考能力。

做治理的另一個思路,便是制定嚴格的規範标準,在大廠,各種規範通常包含在了“安全生産”的大概念下,包括了代碼規範、上線規範、運維規範等多個場景。但這些規範通常是按照人的角度來組織的,是以需要成立相應的組織來應對,并嵌入在項目研發流程中,通過一些标準化的看闆來監控日常的執行情況。

嚴格的規範,其實對抗的就是“人性”,當一個人在同一個崗位待久了之後,懈怠的心理是一定會出現的。就像程式員的自嘲:“自己熟悉的業務,很清楚坑在哪裡,自己會避免踩到,但因為懶得寫到文檔裡,是以後人接手的時候,就踩上了一個又一個的坑,這時候重構,就是避免踩更多坑的好方法,但本質上還是重複了‘挖坑-跳坑-填坑-挖坑’的模式”。

是以我們就進入了借助工具,來輔助開發的階段。

工具解決問題的第一個思路,是以産品的方式,來搞定資料的流轉問題。例如在資料埋點的場景中,不論是哪一種業務形态,其基礎的特點都是資料打點、加密壓縮、網絡傳輸、資料校對等共通的能力,通過産品來實作全自動化,相當于讓工具代替了人做開發,其規範是可以得到有效保障的。這種方式非常像“SAAS”解決方案。

工具解決問題的第二個思路,是以完備的監控工具,輔助非标準場景做模組化。監控工具包括了代碼規範檢查器、任務運作監控、資料血緣追蹤、DQC檢查校驗,來配合人把檢查和運維的壓力釋放出來,專心用在業務場景的模組化與優化上。這種方式非常像“PAAS”解決方案。

工具解決問題的第三個思路,是利用技術的發展,推動根本性問題的解決。比如因為資料庫性能的瓶頸,業務要用到的資料庫包括了NOSQL、MPP等各種OLAP的、OLTP的資料方案,本身監控就不好做,但如果把OLTP和OLAP資料庫能夠用一套方案來解決,就可以避免多個地方次元的問題,TiDB就在嘗試做類似的事情。另外資料成本的增加,本身也與分布式系統的備援備份、壓縮技術強相關,把系統做的更可靠,本身就能夠節約不少的存儲成本,也算是一種根本性問題解決的思路。這種方式非常像“IAAS”解決方案。

是以,資料治理很難有标準的解決方案,更多的是根據業務場景的不同,選擇合适自己的方法。

這個思路在之前的文章《資料資産治理概要:用資料來治理資料》中提到過,這裡想說一些更深入的内容。

用工具解決問題,是工業化時代的思路,而随着時代步入了數字化,資訊量的爆炸式增長、複雜性的不斷加深,都導緻了工具也無法完全解決問題,因為工具的本質是給人提效,而不是機器解決機器自己的問題。用資料來推動資料治理,本質上就是通過資料來洞察資料自己的問題,進一步提升了解決問題的效率,就像運維通過自動化的監控系統,一人管理幾千台伺服器一樣,資料工程師通過自動化的資料監控機制,一個人維護幾千張表也就不是什麼問題了。什麼是維護?不僅僅是保證表不出錯,也包括了識别不合理資源消耗、下線舊業務表、動态檢查模型複用程度等。

次元模組化本質上是一種規則,模型好不好本質上也是一種規則,既然都是規則,那麼就可以通過“翻譯”的形式,來做成一種工具,來實施監控。當然機器也有做不到的地方,比如:一張表僅有一個下遊,對比一張表有一千個下遊,哪個價值更高?這個真不好回答,事實上強如機器學習,也需要人工大量參與的地方,是以借鑒打标等改進的方法,可以對監控系統本身做出一些改變。

但治理動作本身,就會對業務有比較強的入侵性,而“資料驅動”的本意,是用資料驅動業務增長,但不是主導業務發展思路。實際的開發過程中,技術都是對業務結果負責的,即便是中背景部門,也面臨比較大的前台業務壓力,是以治理通常是資料團隊自己搗鼓的東西,除了能夠更好的應對業務增長外,其餘的價值大概也就是降低成本了,是以從公司整體的戰略高度來看,資料治理的重要性,顯然還提不上日程。換句話說,先有業務打赢了,你才有機會去治理資料。

當然,一些政策主導的地方,比如政府部門,對資料治理的了解,就不是這樣了,更傾向于通過軍令狀的形式,用“行政”而非“技術”方法,來解決資料中存在的問題,如下圖所示。

在“行政”治理的思路下,資料治理的原則就是“要從源頭控制,不要先污染後治理”,但在“業務先行”的思路下,資料治理又會變成“危機驅動”的方式來解決。但有一點是共同的,就是資料治理的過程要貫穿到整個業務疊代的過程中,剩下的就是方法的選擇了。

資料治理是一件體系化的工程,數字化時代,這是一個新興的方向,值得做出探索。

繼續閱讀