導讀 随着工業 4.0 時代的到來,傳統行業的數字化轉型是大勢所趨;将資料提高到資料要素層面,讓傳統的技術在新的場景下發揮出新的作用,是近期研究和探讨的焦點話題。數語科技支援和服務傳統行業多年,聚焦于傳統資料模組化和資料架構設計。本文針對資料資産模組化部分,介紹數語科技在資料治理和資料中台架構方面的相關技術,并分享相關的企業實踐案例。
今天的介紹會圍繞下面三點展開:
1. 資料架構與資料模型概述
2. 資料架構與模型解決方案
3. 大型企業實踐案例
分享嘉賓|王琤 Datablau 創始人&CEO
編輯整理|王吉東 昆侖資料
出品社群|DataFun
01
資料架構與資料模型概述
1. DAMA DMBOK 資料架構與資料治理
資料架構及資料模型管理是資料治理體系的重要組成部分。類似于項目管理中的 PMI、PMP,國際上于 1980 年成立了 DAMA(資料資産管理協會)。DAMA 凝集了數百位專家的經驗,最終形成業界通用的資料管理架構(DMBOK)。DAMA-DMBOK 資料管理架構(又稱為 DAMA 車輪圖),主要由 11 個知識領域建構而成,其中資料架構和資料模型是這套方法論最重要的兩個次元。
資料架構主要用來識别企業的資料需求,并設計藍圖,最終輸出資料架構設計和實施路線圖,詳見下圖所示。
2. 建設資料模型的流程
資料模型的建立,業界通用的方法論如下所述:
① 前期的設計主要聚焦于業務,基于客戶需求,完成概念模型和邏輯模型的設計;
② 進一步,基于企業現有的技術環境和性能要求,将概念模型和邏輯模型轉化成可落地的實體模型;
③ 再進一步,将實體模型結合實際資料轉化成資料庫表結構(以及建立表結構對應的 DDL 腳本),最終形成資料庫表字段;
④ 對于模型的設計和落地過程中的重要節點,往往會形成一套相應的企業标準,實作規範化。
不管源端系統有沒有進行模型設計,資料 schema 都存在,都可以通過逆向工程抽取出來提煉成模型,這些模型更多地描述業務系統涵蓋的資料範圍,以及資料之間的關系;如果模型品質高,可以更好地幫助企業了解資料資産的價值。是以可以認為,所有的系統都有資料模型,隻是有些模型更容易了解,也更容易對企業産生價值。
3. 所有模型都是為了業務開展,不同視角,不同階段
對于如今流行的大資料概念,人們普遍将關注點聚焦在分析側(即 AP 側)。實際上,大資料模型不僅僅包含 AP 側,TP 側(即企業的源端業務系統)在資訊化或數字化過程中同樣會建構出各種各樣的資料産品(或系統),最終應用于企業内部或外部客戶。
對于資料庫底層設計,現階段大部分企業仍然使用傳統的資料庫建構範式:
① 在 TP 側,通常使用三範式模型這類 Inmon 模型;
② 在 AP 側的資料集市,通常使用次元模型(如雪花模型、星型模型)這類 Kimball 模型;
此外,近期疊代出更多更加新型的資料模型範式,如 Data Vault 模型、統一星型模型等,覆寫範圍更加廣泛,可更加廣泛地應用于 TP 側和 AP 側。
4. 資料模型按階段分類
① 業務系統模型,通常選擇三範式模型;
② ODS 模型通常從業務系統直接接入,是以也選擇三範式模型;
③ DWD 模型和 DWS 模型作為企業級數倉,既可采用傳統的三範式模型,也可使用現代的 Data Vault 模型來建構,都支援多對多的關系;
④ 集市模型一般使用次元模型,便于實作資料的上卷和下鑽等分析操作。
5. 資料模型介紹
資料的關系卻錯綜複雜,成千上萬個表通過各種關系或限制互聯形成複雜的結構。以生活中常見的場景為例,如房屋平面圖、地圖等,用不同的符号向相關使用者清晰展示相關資訊。
通過資料模型,使用者可以清晰看到現有資料庫的結構,并更直覺地了解關鍵的概念。資料模型主要包括概念模型、邏輯模型和實體模型這三個層次。
① 概念模型:主要用來描述世界的概念化結構,是一個高層次的資料模型,由核心的資料實體或其集合,以及實體間的關系組成;
② 邏輯模型:對概念資料模型進一步的分解和細化,描述實體、屬性以及實體關系;
③ 實體模型:面向特定的資料庫,結合資料庫特征,便于計算機實作的模型。
開發者在進行模型設計的過程中,通常會将大部分時間和精力聚焦在概念模型和邏輯模型的設計和疊代優化;實體模型則類似于對概念模型和邏輯模型的“編譯”操作,通過生成并執行 DDL 腳本最終實作資料庫以及相應 schema 的建立。
--
02
資料架構與模型解決方案
1. 解決方案 1——模型設計和開發平台一體化
通過 ER 圖可視化,可實作邏輯模型或實體模型的設計。以下圖為例,資料包括 hub、link、Satellite 三個核心概念;使用 Data Vault 模型,可實作更加靈活的數倉自動化操作,以更便捷的方式實作模型的解耦,來建構複雜的、具有業務深度的行業模型。
完成模型的設計後,生成相應的 DDL 腳本,通過 Create 功能或 Alter 功能,最終實作模型的管理和疊代。
2. 解決方案 2——資料标準管控,資料規範檢查
(1)資料标準管控
在模型設計階段,所涉及的模型字段要實作标準化;通過指定或引用相關的企業級資料标準,利用智能推薦,更加友善地實作資料表字段的選取。
資料模組化工具一般具有資料标準的功能,在模型設計期間,研發人員可以通過拖拉的方式直接引用資料标準,也可以在實體設計器中,使用智能推薦的資料标準,優化資料應用模式,提升模型設計效率。
如下圖所示,以電力系統模型為例,在表結構設計過程中,通過關鍵詞(如變壓器)可以直接關聯到相應的資料标準,進而查詢到标準的字段名稱、實體類型、長度精度、業務定義等資訊,進而将标準引入到實體屬性中,同時實作了字段名稱、資料類型、資料精度的規範,進而實作了源端業務系統資料模型品質的把控。
(2)命名詞典建構
如果相關的企業或部門沒有制定嚴格的企業資料标準,企業可以基于業務術語建構統一術語詞典庫(即命名詞典);借助這一詞典庫,解決研發人員模組化時常見的“同一名額多種命名”這類易發生歧義的問題;開發人員在模型建構的過程中,對于模型實體及屬性命名,自動基于詞典庫進行翻譯,實作資料模型的命名規範,使實體模型的設計品質更高。
(3)中央模型庫
多人協作內建模型,會涉及複雜的版本疊代、版本對比等版本管理問題。是以,可建立類似 git 的中央模型庫,基于資料模型伺服器實作資料模型設計規範、資料标準及模型設計成果的線上化管理;提供模型設計工具,實作模型設計規範、資料标準以及模型線上應用,為資料标準落地提供手段;支撐設計态及運作态模型比對監測,實作資料模型從規範化設計到應用全過程線上管理。
(4)資料規範工具
将開發規則内置到模組化過程中,開發對應的資料規範工具和資料标準一緻性檢查工具,以解決研發人員設計不規範、缺少資料标準限制等業務痛點,最大程度地降低資料治理的成本:
① 資料規範工具可以檢測以下内容:表和字段中文名稱不能為空;表和字段實體名稱不能為空等多項内容。
② 資料标準一緻性檢查工具可以檢測:資料類型、中文名、英文簡稱是否和标準一緻性等多項内容。
3. 解決方案 3——模型變更自動化、智能化
基于資料模型伺服器建構資料模型庫,資料庫承載資料标準、命名詞典、規範報告等資訊;疊代優化的模型通過統一的發版系統(如 jira、confluence 等)進行統一發版,實作資料模型的存儲管理和版本變更管理,并提供模型線上檢視編輯和多人協作等功能。
其核心功能點在于:
① 統一模型存儲,Web 模型共享和查詢;
②實作模型版本管理,模型變更全曆史記錄;
③ 自動進行模型合規檢查,标準落标報告;
④ 多人協作,同時編輯和修改模型;
⑤ 自動生成建庫腳本,資料字典管理。
采用類似 git 的代碼管理方式,模型設計工具從模型,分支,版本三個層面對模型進行管理,最終有效解決研發人員的模型版本管理,實作協同共享。
4. 解決方案 4——資料模型和業務場景業務對象對應
大型企業除了資料模型設計,還需要對大量的業務場景做整合。業務架構包括業務流程、業務活動等,涉及大量的業務表單和對應的業務對象。在資料模型的資料實體頁面,将每一個實體和業務場景中的每一個業務對象進行綁定,進而通過 Datablau 自研的模型管控體系實作血緣關系的跟蹤和分析。
5. Datablau 模型管控體系簡介
Datablau 模型管控體系包括事前、事中和事後這 3 個部分:
① 事前:通過統一的模組化工具,進行模型設計;
② 事中:增加模型評審環節,由領域架構師、企業架構師負責模型的評審,通過資産平台進行完整性檢查;
③ 事後:部署生産環境後,通過資料資産平台檢查并監控模型的一緻性、完整性并出具相關報告。
6. Datablau 模型管控體系與資料開發
将 Datablau DDM 工具納入開發投産流程後,各業務子產品需要進行相應的模型遷移,并使用平台提供的典型能力進行模型設計、開發測試和投産。
(1)模型導入
① 模型導入:通過導入工具,将 PD、ERWin 等工具的模型導入 DDM 中。
② 逆向工程:通過直聯資料庫的方式,逆向生成模型。
③ 資訊補全:補充模型中缺失的字段資訊,例如字段中文名稱。
(2)設計階段
① 模型設計:使用用戶端設計器進行子產品設計與維護。
② 影響分析:設計階段能夠顯示模型的修改對下遊系統的影響。
③ 字段引标:設計工具中能夠引用資料标準。
(3)評審階段
① 任務管理:送出模型時需要與任務進行關聯。
② 分支管理:按照推薦的最佳實踐進行分支管理,分支間按照任務進行内容合并。
③ 模型評審:模型的變更必須經過線上評審。
(4)投産階段
① DDL 校驗:将投産 DDL 與模型工具導出 DDL 比對。對于不比對的部分,近期可以人工确認,遠期改為系統認定。
7. Datablau 模型分支管理政策
版本分支管理包括設計态和運作态這兩部分。資料模型按照開發與測試環境進行對應的版本管理,并基于每個分支的開發、SIT、UAT、版本等不同釋出狀态進行相應的管理,最終形成統一的分支管理政策。
8. 模型設計和開發平台一體化
構模組化型設計和開發平台一體化管理流程,實作模型設計人員從模型設計到資料架構師審批模型,再到模型腳本入業務系統庫,并生成代碼嵌入資料标準給到開發平台。
這套資料模組化管理流程,可有效地将資料模型轉化為企業資料資産。相比于直接抽取技術中繼資料,資料資産化模型一方面大大提升了資料的品質,另一方面增加了資料間的關系,以及各類資料背後的業務定義,使得資料資訊更加全面和系統。
--
03
大型企業實踐案例
1. 企業資料架構——制造業概念模型
以制造業為例,下圖呈現了制造業高階概念模型,涉及管理類、營運類、支援類等業務闆塊。
2. 建立企業資料架構-開發路線圖——主題域模型
将上述業務闆塊轉化為高階的主題域模型。以汽車廠為例,首先是進行産品研發,輸出産品部品即 BOM 清單;基于 BOM 清單進行裝配、生産,并關聯銷售清單;同時 BOM 也會關聯銷售項目管理,最終和客戶管理、訂單管理、銷售管理、财務管理等一系列資料進行多重關聯,建構出高階主題域模型。
3. 業務現狀
(1)業務現狀梳理:成果(1)L1-L3 高階流程架構
将上述主題域模型進一步細化,以采購部為例,基于采購部組織職能定位,與業務訪談輸入,全面梳理采購域所包含高階業務架構。
① L1 Category 域:企業業務的最進階别,可基于業務能力或端到端場景定義。
② L2 Process Group 流程組:企業一級域的下級能力或流程集合。
③ L3 Process 流程:一系列将輸入轉化為輸出的互相關聯的活動。流程消耗資源并且需要制定可重複執行的标準;流程需要遵從一個面向品質、速度、成本績效要求的控制體系。
(2)業務現狀梳理:成果(2)L1-L3 業務側資料目錄
基于采購部門職能,梳理采購域不同資訊域下所包含标準化業務資訊/表單,将其轉化為業務側的資料資産目錄,支援資料認責工作。
(3)業務現狀梳理:成果(3)L1-L3 業務全景圖
基于采購業務價值鍊,繪制業務資訊流圖:以端到端視角審視采購業務全貌,識别業務資訊來龍去脈。
4. 資料資産
(1)資料資産梳理:成果 – 資料目錄(L1-L5 資産清單)
以上圖所示資料資産目錄為例,分成主題域組、主題域、業務對象、資料實體、屬性 5級;每增加一個層級,可了解成添加一個的葉子節點。
5. 資料标準
(1)資料标準制定:成果 – 資料标準(L5 屬性标準)
對于資料目錄中 L5 層屬性的标準化定義,通過補全資料的業務屬性(名稱、業務規則等)、技術屬性(資料類型、長度等)以及管理屬性(資料維護責任人、資料管家等),最終形成資料标準。
6. 資料模型
基于資料标準建構資料模型。上圖為采購域的資料模型,模型中的每個字段都與資料标準形成了映射關系。
(1)資料模型設計:ONE ID 邏輯設計
基于上述資料模型,結合實際業務建構資料應用。以采購域為例,對每個供應商進行全方位畫像,包括财務資訊、經營狀态、業務資訊等次元,構成一套供應鍊金融的服務模式。
(2)資料模型是資料中台的核心位置
資料模型是資料中台的核心資料資産,關系到基礎資料整合,開發效率,和資料品質。資料中台主要包括 ODS 層、DWS/DWD 層,以及資料集市層等,這些中間層模型設計的規範性和靈活性,決定了資料資産的管理和應用效率。是以,如何整合好資料模型是資料中台成功的标志。
(3)全面管理和更新模型資料資産
傳統的資料模型建構,往往是開發人員基于業務邏輯通過 SQL 腳本實作相應功能,并轉化成存儲過程,進而通過任務排程實作資料的轉化。這種方式靈活、便于實作,然而會給後續的資料資産梳理、資料品質排查以及資料修複等相關工作帶來麻煩。
是以,以資料模型為核心,通過對資料中台模型的管理,實作從孤井式的代碼開發,到模型驅動的代碼開發階段的轉變。實作了模型驅動的資料模型資産化,開發過程可審查,代碼品質可靠性等轉變,使中台成為企業資料資産的沉澱和釋出中心,進而形成行業模型的影響力。
(4)一體化模組化架構
從資料戰略角度看,将業務流程、業務架構、資料責任、資料安全和入戶标準等相關子產品都承載到業務模型上;進一步,業務模型通過資料模型落地實作,結合相應的企業标準進行模型評審,評審通過的資料模型釋出成資料資産目錄,并最終進入資料湖。
由于資料模型存在疊代更新的周期性,是以在模型設計的過程中,資料标準的維護至關重要。所有的模型都是由資料标準組裝而來;模型評審和模型釋出作為重要的中間管控節點,最終實作自助入湖,并周期性地和生産中繼資料做比對。
(5)企業級資訊架構的四個元件
企業級資訊架構,本質上是基于一套核心的資訊架構,展現成資料資産目錄、資料标準、資料模型、資料分布 4 種不同的形式:
① 資料資産目錄
1)通過分層架構表達;
2)對資料的分類和定義;
3)厘清資料資産;
4)建立資料模型的輸入 。
② 資料标準
1)業務定義的規範;
2)統一語言,消除歧義;
3)為資料資産梳理提供标準的業務含義和規則。
③ 資料模型
1)通過 E-R 模組化實作對資料及其關系的描述;
2)指導 IT 開發,是應用系統實作的基礎。
④ 資料分布
1)資料在業務流程和 IT 系統上流動的全景視圖;
2)識别資料的“來龍去脈” ;
3)定位資料問題的導航。
這套核心的資訊架構本質上是從 4 個角度诠釋企業的資料資産資訊:
資料模型作為最初的設計原型,經過評審釋出後形成資料資産目錄最終開放到業務部門;模型内部最細顆粒度的規範形成資料标準;資料分布則展現的是某個具體的表或字段在整個業務流程體系中所處的位置,定位到對應的具體業務對象并直覺地展現該業務對象的上下遊關系。
(6)六項入湖标準
資料入湖的評審标準,大概包括以下這 6 個方面:
① 明确資料 Owner
由資料産生對應的流程 Owner 擔任,是所轄資料端到端管理的責任人,負責對入湖的資料定義資料标準和密級,承接資料消費中的資料品質問題,并制定資料管理工作路标,持續提升資料品質
② 釋出資料标準
入湖資料要有相應的業務資料标準。業務資料标準描述公司層面需共同遵守的“屬性層”資料的含義和業務規則,是公司層面對某個資料的共同了解,這些了解一旦明确并釋出,就需要作為标準在企業内被共同遵守。
③ 認證資料源
通過認證資料源,能夠確定資料從正确的資料源頭入湖。認證資料源應遵循公司資料源管理的要求,一般資料源是指業務上首次正式釋出某項資料的應用系統,并經過資料管理專業組織認證。認證過的資料源作為唯一資料源頭被資料湖調用。當承載資料源的應用系統出現合并、分拆、下線情況時,應及時對資料源進行失效處理,并啟動新資料源認證流程。
④ 定義資料密級
定義資料密級是資料入湖的必要條件,為了確定資料湖中的資料能充分地共享,同時又不發生資訊安全問題,入湖的資料必須要定密。資料定密的責任主體是資料 Owner,資料管家有責任審視入湖資料密級的完整性,并推動、協調資料定密工作。資料定級密度在屬性層級,根據資産的重要程度,定義不同等級。不同密級的資料有相應的資料消費要求,為了促進公司資料的消費,資料湖中的資料有相應的降密機制,到降密期或滿足降密條件的資料應及時降密,并重新整理密級資訊。
⑤ 制定資料品質方案
資料品質是資料消費結果的保證,資料入湖不需要對資料進行清洗,但需要對資料品質進行評估,讓資料的消費人員了解資料的品質情況,并了解消費該資料的品質風險。同時資料 Owner 和資料管家可以根據資料品質評估的情況,推動源頭資料品質的提升,滿足資料品質的消費要求。
⑥ 注冊中繼資料
中繼資料注冊是指将入湖資料的業務中繼資料和技術中繼資料進行關聯,包括邏輯實體與實體表的對應關系,以及業務屬性和表字段的對應關系。通過連接配接業務中繼資料和技術中繼資料的關系,能夠支撐資料消費人員通過業務語義快速地搜尋到資料湖中的資料,降低資料湖中資料消費的門檻,能讓更多的業務分析人員了解和消費資料。
(7)資料模型管控組織
從公司部門的組織架構角度考慮,資料模型管控的推進,需要配備相應的組織架構予以監督和支援。一方面,基于 DAMA 方法論,企業建構不同的資料治理體系次元,如資料标準、資料品質、資料模型、資料資産目錄等相關内容;另一方面,基于傳統的 IT 相關部門下屬的各個項目小組,建議安排部分開發人員以 part-time 的方式承擔部分資料治理角色,使得資料治理架構更加立體。此外,可以專門成立企業架構辦(一般包括資料架構、應用架構、技術架構、業務架構這 4 層架構),與項目組聯合,實作更全面、更深入的資料模型管理服務。
是以,建立虛實結合的資料組織設定,是確定數工作能充分融入業務,同時能夠在應用系統中有效落地的關鍵。
以交通銀行為例,企業共計超過 500 套業務系統,全部通過上述組織架構協作實作模型管控。
--
04
問答環節
Q1:按照全套組合架構實作企業級資料治理,往往會帶來較高的時間成本;是以,如何平衡資料治理和開發效率?
A1:① 資料治理架構的開展,需要一定的契機;可以以企業新建構的系統作為試點;尤其是金融系統,往往 5 年左右進行一次更新換代。是以,可以選擇合适的系統更新換代節點,推進資料治理架構。
② 如果企業的資料資産需求較為強烈和迫切,那麼源端管控就是必要的工作。在此基礎上,可以先針對部分部門或項目組,通過小範圍試點方式進行推進,後期再逐漸進行大範圍推廣。此外,可借助一些更高效的工具以提高開發效率。
Q2:主資料在資料模型中如何展現?
A2:這類問題在業内曾引起廣泛的讨論。對于金融行業,客戶管理系統即是客戶的主資料;對于業務鍊條較長的企業,例如制造業企業,常用的方式是針對主資料進行模型模組化。而對于主資料模組化,較為傳統的方式是開發相應的 MDM(主資料關系系統),典型的企業實踐案例是中石油系統;然而 MDM 系統較為龐大,是以近年來主資料模組化的趨勢是更加輕量化,通常是在各個系統(如組織機構、客戶、物料、産品等系統)對應的資料庫中預留少量區域來存儲對應的主資料模型,實作該系統主資料模型與各個系統的對接。總之,核心在于主資料模型的建構,輕量化是趨勢。
Q3:資料品質和資料标準該如何解決?
A3:如果企業的模型設計已經落标,品質管理這部分工作相對會容易很多;由于每個實體字段對應的标準已經确定,是以基礎的資料品質檢測規則往往可以自動生成,而複雜的資料品質檢測規則和資料标準中的認責闆塊挂鈎,相應部門提供各自的資料品質檢測相關的業務規則,最後再由業務規則轉成技術規則,嵌入到系統中進行周期性運作。
今天的分享就到這裡,謝謝大家。
▌2023資料智能創新與實踐大會
- 4大體系,專業解構資料智能
- 16個主題論壇,覆寫當下熱點與趨勢
- 40+演講,兼具創新與最佳實踐
- 1000+專業觀衆,内行人的技術盛會
第四屆DataFunCon資料智能創新與實踐大會将于⏰ 7月21-22日在北京召開,會議主題為新基建·新征程,聚焦資料智能四大體系:資料架構、資料效能、算法創新、智能應用。在這裡,你将領略到資料智能技術實踐最前沿的景觀。
歡迎大家點選下方連結擷取大會門票~
DataFunCon2023(北京站):資料智能創新與實踐大會 �-�百格活動