一.資料品質概述
1.業務定義:為確定滿足資料消費者的需求,應用資料管理技術進行規劃,實施和控制等管理活動。
1.導緻低品質資料産生的因素包括:組織缺乏對低品質資料影響的了解、缺乏規劃、孤島式系統設計、不一緻的開發過程、不完整的文檔、缺乏标準或缺乏治理等。
2.所有資料管理的原則都應有助于提高資料品質,支援組織使用高品質資料應是所有資料管理原則的目标
2.業務驅動因素
1)提高組織資料價值和資料利用的機會。
2)降低低品質資料導緻的風險和成本。
3)提高組織效率和生産力。
4)保護和提高組織的聲譽。
3.管理目标
1)根據資料消費者的需求,開發一套滿足資料品質要求的管理方法
2)定義資料品質控制的标準和規範,并作為整個資料生命周期的一部分
3)定義和實施測量、監控和報告資料品質水準的過程
4)根據資料消費者要求,通過改變流程和系統,以及參與可顯著改善資料品質的活動,識别和倡導提高資料品質的機會
4.遵循原則
1)重要性。
2)全生命周期管理。
3)預防。
4)根因修正。
5)治理。
6)标準驅動。
7)客觀測量和透明度。
8)嵌入業務流程。
9)系統強制執行。
10)與服務水準關聯。
二.資料品質相關概念
1.資料品質
1.如果資料滿足資料消費者應用需求的目的就是高品質的;反之,如果不滿足消費者應用需求的目的,就是低品質的。
2.資料品質水準高低取決于使用資料的場景和資料消費者的需求。
3.資料品質管理的挑戰
1)與品質相關的期望并不總是已知的。
2)随着業務需求和外力的發展,需求會随着時間的推移而變化
2.關鍵資料
資料品質管理的一個原則是将改進的重點集中在對組織及其客戶最重要的資料上,這樣做可以明确項目範圍,并使其能夠對業務需求産生直接的、可測量的影響。
可根據以下要求評估關鍵資料:
- 1)監管報告。
- 2)财務報告。
- 3)商業政策。
- 4)持續經營。
- 5)商業戰略,尤其是差異化競争戰略。
3.資料品質次元
資料品質次元是資料的某個可測量的特性
1.Strong-Wang架構(側重于資料消費者對資料的看法,描述了資料品質的4個大類及15個名額)
2.Thomas Redman基于資料結構的資料品質次元,在三大類别中(資料模型、資料值、資料表達),共描述20多個次元
3.Larry English:固有特征和實用特征
4.DAMA UK白皮書,描述了資料品質的6個核心次元
1)完備性。存儲資料量與潛在資料量的百分比。
2)唯一性。在滿足對象識别的基礎上不應多次記錄實體執行個體(事物)。
3)及時性。資料從要求的時間點起代表現實的程度。
4)有效性。如資料符合其定義的文法(格式、類型、範圍),則資料有效。
5)準确性。資料正确表示實體的“真實”程度。
6)一緻性。比較事物多種表述與定義的差異。
5.常見的資料品質評估次元
1、準确性。
- 資料正确表示實體的“真實”程度
2、完備性。
- 是否存在所有必要的資料
3、一緻性。
- 兩個資料集間比較是否一緻
4、完整性。
- 引用完整性或資料集内部一緻性,不至于缺失或不完整
5、合理性。
- 指資料模式符合預期的程度
6、及時性。
- 資料時效性是衡量資料價值是否最新版本資訊的名額
7、唯一性\資料去重。
- 不會重複出現
8、有效性
- 資料值與定義的值域一緻
4.資料品質和中繼資料
1.中繼資料對于管理資料品質至關重要。資料的品質取決于它如何滿足資料消費者的需求。
中繼資料定義資料所代表的内容。
2.擁有一個強大的資料定義流程,有助于組織正式确定和記錄用于衡量資料品質的标準和要求。資料品質是為了滿足預期,而中繼資料是闡明期望的主要手段
5.資料品質 ISO 标準
ISO8000
6.資料品質改進生命周期:常用方法是戴明環,戴明環是一個被稱為“計劃-執行-檢查-處理”的問題解決模型
1.戴明環
1.計劃階段P(Plan)
2.執行階段D(DO)
3.檢查階段C(Check)
4.處理階段A(Act)
2.DAMA 理念
1.第一次就擷取正确資料,遠比擷取錯誤資料在進行修複的成本要低。
2.從一開始就将品質納入到資料管理過程中的成本,遠低于對其進行改造的成本。
3.在整個資料生命周期中維護高品質資料,比在現有流程中嘗試提高品質風險更小,且對組織的影響也要小得多。
4.在流程或系統建立時就建立資料品質标準是成熟的資料管理組織的标志之一
5.持續改進是資料品質管理最有效的方法
6.資料品質問題上,關鍵利益相關方的參與至關重要
7.資料品質業務規則類型
1.定義一緻性。確定整個組織對資料定義的了解相同
2.數值存在和記錄完備性。定義數值缺失的情況是否可接受的規則。
3.格式符合性。按指定模式配置設定給資料元素的值,如設定電話号碼格式的标準。
4.值域比對性。指定資料元素的指派須包含在某資料值域的枚舉值中。
5.範圍一緻性。資料元素指派必須在定義的數宇、詞典或時間範圍内。
6.映射一緻性。表示配置設定給資料元素的值,必須采用一緻的映射規則。
7.一緻性規則。屬性的實際值通過兩個(或多個)屬性之間關系的條件判定。
8.準确性驗證。将資料值與記錄系統或其他驗證來源值進行比較,以驗證值是否比對。
9.唯一性驗證。實體必須具有唯一性,每個真實世界對象有且僅有一個記錄
10.及時性驗證。表明與資料可通路性和可用性預期相關特征的規則
8.資料品質問題常見原因
(1)缺乏上司力導緻的問題
1.許多資料治理和資訊資産項目僅由合規性驅動,而不是由作為資料資産衍生的潛在價值驅動。上司層缺乏認可意味著組織内部缺乏将資料作為資産并進行品質管理的承諾
2.有效管理資料品質的障礙包括:
- 1)上司和員工缺乏意識。
- 2)缺乏業務管理。
- 3)缺乏上司力和管理能力。
- 4)難以證明改進的合理性。
- 5)測量價值的工具不合适或不起作用
3.這些障礙會對客戶體驗、生産力、士氣、組織效率、收入和競争優勢産生負面影響,既增加了組織的營運成本,也引入了風險
(2)資料輸入過程引起的問題
1.資料輸入接口問題
2.清單條目放置
3.字段重載
4.教育訓練問題
5.業務流程的變更
6.業務流程執行混亂
(3)資料處理功能引起的問題
1.有關資料源的錯誤假設
2.過時的業務規則
3.變更的資料結構
(4)系統設計引起的問題
1.未能執行參照完整性
2.未執行唯一性限制
3.編碼不準确和分歧
4.資料模型不準确
5.字段重載
6.時間資料不比對
7.主資料管理薄弱
8.資料複制
(5)解決問題引起的問題
1.緊急情況下,倉促編寫執行手動指令或腳本易導緻更多錯誤
2.強烈不建議使用這些手動修改解決問題的捷徑,所有的改變都應該通過一個受控的變更管理過程實作
9.資料剖析Data Profiling
1.空值數
2.最大/最小值
3.最大/最小長度
4.單個列值的頻率分布
5.資料類型和格式
10.資料品質和資料處理
(1)資料清理
資料清理或資料清洗,可以通過資料轉換使其符合資料标淮和域規則。清理包括檢測和糾正資料錯誤,使品質達到可接受的水準。通過清理工具修正資料這個過程有成本,且有風
(2)資料增強
資料增強或豐富是給資料集添加屬性以提高其品質和可用性的過程。通過內建組織内部的資料集,可以獲得一些增強,也可以購買外部資料來增強組織資料
(3)資料解析和格式化
資料解析是使用預先确定的規則來解釋其内容或值的分析過程。資料品質工具解析符合這些模式的資料值,然後将其轉換為标準化形式,進而簡化評估、相似性分析和補救過程
(4)資料轉換與标準化
在正常處理過程中,可以通過觸發規則将資料轉換為目标體系可接受的格式标準化是分析人員或工貝供應商經過反複分析語境,語言學,以及公認最常見的慣用語等,擷取規則進行的一種特殊的格式轉換。
資料剖析是一種檢查資料和評估品質的資料分析形式
資料品質改進工作重點是防止錯誤,但也可通過某種形式的資料處理來提升資料品質
三.活動
1 .定義高品質資料
1.如何評估組織對資料品質改進的準備情況
1.高品質資料是什麼意思?
2.低品質資料對業務營運和戰略的影響是什麼?
3.更高品質的資料如何賦能業務戰略?
4.資料品質改進的需要哪些優先事項的推動?
5.對低品質資料的容忍度是多少?
6.為支援資料品質改進而實施的治理是什麼?
7.配套實施的治理結構是什麼?
2.如何了解組織中資料品質的目前狀态
1.了解業務戰略和目标。
2.與利益相關方面談以識别痛點、風險和業務驅
3.通過資料收集和其他剖析形式直接評估資料
4.業務流程中的的資料依賴關系情況。
5.業務流程的技術架構和系統支援情況。
2 .定義資料品質戰略(資料品質優先級必須與業務戰略一緻。)
1)了解并優先考慮業務需求。
2)确定滿足業務需求的關鍵資料。
3)根據業務需求定義業務規則和資料品質标準。
4)根據預期評估資料。
5)分享調查結果,并從利益相關方那裡獲得回報。
6)優先處理和管理問題。
7)确定并優先考慮改進機會。
8)測量、監控和報告資料品質。
9)管理通過資料品質流程生成的中繼資料。
10)将資料品質控制內建到業務和技術流程中。
3.識别關鍵資料和業務規則
1.資料品質管理工作應首先關注組織中最重要的資料;資料品質改進從主資料開始,主資料是任何組織最重要的資料之一
2.在确定關鍵資料之後,資料品質分析人員需要識别能描述或暗示有關資料品質特征要求的業務規則。
4 .執行初始資料品質評估(Proof of Concept,POC)
資料品質評估的最重要部分就是實際檢視資料、查詢資料,以了解資料内容和關系,以及将實際資料與規則和期望進行比較。
1)定義評估的目标
2)确定要評估的資料。重點放在一個小資料集,甚至資料元素,或特定的資料品質上
3)識别資料的用途和資料的使用者
4)利用待評估的資料識别已知風險,包括資料問題對組織過程的潛在影響
5)根據已知和建議的規則檢查資料
6)記錄不一緻的級别和問題類型
7)根據初步發現進行額外的深入分析,以便:
- 1.量化結果
- 2.根據業務影響優化問題
- 3.提出關于資料問題根本原因的假設
8)與資料管理專員,領域專家和資料消費者會面,确認問題和優先級
9)使用調查結果作為規劃的基礎
- 1)解決問題,最好是找到問題的根本原因
- 2)控制和改進處理流程,以防止問題重複發生
- 3)持續控制和彙報
5.識别改進方向并确定優先排序
1.在證明改進過程可行後,需要識别潛在的改進措施,并确定其優先順序
2.可以通過對較大資料集進行全面的資料分析來完成,以了解現有問題的廣度
3.執行全面的資料剖析和分析的步驟基本上與執行小規模評估的步驟相同
6. 定義資料品質改進目标
1.當發現問題時,根據以下内容确定改進的投資回報率
1)受影響資料的關鍵性(重要性排序)。
2)受影響的資料量。
3)資料的齡期。
4)受問題影響的業務流程數量和類型。
5)受問題影響的消費者、客戶、供應商或員工數量。
6)與問題相關的風險。
7)糾正根本原因的成本。
8)潛在的工作成本。
2.确定了根本原因并且需要進行技術變更的問題時,時時刻刻要注意防止問題再次發生。
3.預防問題的成本通常比糾正問題的成本要低,有時甚至要低幾個數量級
7 .開發和部署資料品質操作
1.管理資料品質規則
資料品質規則和标準是中繼資料的一種關鍵形式。為了提高效率,需要将它們作為中繼資料進行管理。
- 規則
- 1.記錄的一緻性
- 建立記錄規則的标準和模闆,使其具有一緻的格式和含義。
- 2.根據資料品質次元定義
- 次元的一緻應用将有助于度量和管理問題的過程。
- 3.與業務影響挂鈎
- 雖然資料品質次元能夠幫助了解常見問題,但它們本身并不是目标。不應采取與業務流程無關的度量。
- 4.資料分析支援
- 品質分析人員不應猜測規則。應根據實際資料分析情況驗證規則
- 5.由領域專家确認
- 當主題專家确認或解釋資料分析的結果時,知識就産生了。
- 6.所有資料消費者都可以通路
- 所有資料消費者都應該能夠通路記錄的規則。確定使用者能夠就規則提出問題并提供回報
2.測量和監控資料品質
業務資料品質管理過程取決于測量和監控資料品質的能力
- 三個粒度級别上進行度量
- 1.資料元素值
- 2.資料記錄或執行個體
- 3.資料集
3.制定管理資料問題的操作過程
無論采用什麼工具來監控資料品質,當資料品質團隊成員對結果進行評估時,他們都需要及時、有效地對調查結果進行響應
- 1.診斷問題
- 2.制定補救方案
- 糾正非技術的根本原因
- 3.解決問題
- 4.有效的進行問題跟蹤
- 1.标準化資料品質問題和活動
- 由于不同行業描述資料問題的術語可能千差萬别,是以為所用的概念定義标準詞彙表非常重要。
- 2.提供資料問題的配置設定過程
- 推薦那些具有特定專業領域知識的人員,來推動事件跟蹤系統内的配置設定過程
- 3.管理資料問題更新過程
- 資料品質問題處理需要根據問題的影響、持續時間或緊急程度制定明确的更新機制
- 4.管理資料品質解決方案工作流
- 事件跟蹤系統可以支援工作流管理,以跟蹤問題診斷和解決的進度
4.制定資料品質服務水準協定SLA
1.資料品質服務水準協定(SLA)規定了組織對每個系統中資料品質問題的響應和補救的期望。
2.資料品質 SLA 中定義的資料品質控制操作
- 1)協定涵蓋的資料元素。
- 2)與資料缺陷相關的業務影響。
- 3)與每個資料元素相關的資料品質名額。
- 4)從每個己确定名額的資料元素出發,識别資料價值鍊上每個應用程式系統中的品質期望,
- 5)測量這些期望的方法,
- 6)每次測量的可接受性門檻值。
- 7)如果不滿足可接受性門檻值,應通知資料管理專員。
- 8)預期解決或補救問題的時間和截止日期。
- 9)更新政策,以及可能的獎勵和懲罰。
- 10)資料品質SLA還定義了與業務資料品質過程績效相關的角色和職責
5.編寫資料品質報告
評估資料品質和管理資料問題的要通過報告共享資訊給資料消費者了解。
四.管理工具
1 資料剖析工具
資料剖析工具生成進階别的統計資訊,分析人員能夠據此識别資料中的模式并對品質特征進行初始評估。
2 資料查詢工具
資料剖析隻是資料分析的第一步,它有助于識别潛在問題。資料品質團隊成員還需要更深入地查詢資料,以回答分析結果提出的問題,并找到能夠深入了解資料問題根源的模式。
3 模組化和ETL工具
用于資料模組化和建立ETL過程的工具對資料品質有直接影響。
4 資料品質規則模闆
5 中繼資料存儲庫
定義資料品質需要中繼資料,而高品質資料的定義是中繼資料的一種價值呈現方式。
五.方法
1.預防措施(建立高品質資料的最佳方法是防止低品質資料進入組織)
1)建立資料輸入控制。
建立資料輸入規則,防止無效或不準确的資料進入系統。
2)教育訓練資料生産者。
確定上遊系統的員工了解其資料對下遊使用者的影響
3)定義和執行規則。
建立 “資料防火牆”,一個包含用于檢查資料品質是否良好的品質規則表,然後用于應用程式(如資料倉庫)中
4)要求資料供應商提供高品質資料。
檢查外部資料供應商的資料結構、定義、資料源和資料出處
5)實施資料治理和管理制度。
確定定義并執行以下内容的角色和責任:參與規則、決策權和有效管理資料和資訊資産的責任。
6)制定正式的變更控制。
確定在實施之前對存儲資料的所有變更進行定
2.糾正措施
1)自動修正。
全自動,無人工幹預
2)人工檢查修正。
工具自動糾正後,人工檢查送出
3)人工修正。
純人工
3.品質檢查和稽核代碼子產品
4.有效的資料品質名額(管理資料品質的一個重要組成部分是開發度量名額,以告知資料消費者對其資料使用非常重要的品質特征。)
1)可度量性。
資料品質名額必須是可度量的---它必須是可被量化的東西
2)業務相關性。
雖然很多東西是可測量的,但并不能全部轉化為有用的名額。
3)可接受性。
資料品質名額構成了資料品質的業務需求。
4)問責/管理制度。
關鍵利益相關方應了解和稽核名額。業務資料所有者對此負責,并由資料管理專員采取适當的糾正措施。
5)可控制性。
名額應反映業務的可控性,如果度量超出範圍,應該觸發改進行動。如果沒有任何響應,那麼這個名額可能沒有什麼用處。
6)趨勢分析。
名額使組織能夠在一段時間内度量資料品質改進的情況
5.統計過程控制(統計過程控制(SPC)是一種通過分析過程輸入、輸出或步驟的變化測量值來管理過程的方法。)
SPC使用的主要工具是控制圖,它是一個時間序列圖,包括平均值的中心線(集中趨勢的度量),以及描述測算的上下控制界限(圍繞中心值的可變性)。在一個穩定的過程中,超出控制範圍的度量結果表明了異常狀況的存在。
6.根本原因分析
六.實施指南
1.就緒評估/風險評估
1)管理層承諾将資料作為戰略資産進行管理。
2)組織對資料品質的目前了解。
3)資料的實際情況。
4)與資料建立、處理或使用相關的風險。
5)可擴充資料品質監控的文化和技術就緒。
2.組織與文化變革
1.工具不是全部
2.人人有責
3.品質有成本
4.教育訓練和訓練
3.有關資料價值和低品質資料成本的名額
為了提高組織對資料品質管理需求的認識,一種方法是通過名額來描述資料價值和改進帶來的投資回報
4.IT/業務互動的操作模型
業務人員和T資料管理人員要能很好地合作将資料品質的定義轉換為查詢指令或代碼。
5.項目執行方式的變化
項目監督必須確定項目資金覆寫與資料品質相關的步驟,謹慎的做法是確定盡早發現問題,并在項目中預先建立資料品質預期。
6.對業務流程的更改
資料品質團隊需要能夠評估,并對影響資料品質的非技術 (以及技術)過程的變更提出建議。
7.為補救和改進項目提供資金
資料問題是不會自行修複的,應衡量好補救與改進項目的支出與收益。
8.為資料品質營運提供資金
維持資料品質需要持續改進操作來監控資料品質、報告發現的問題,并在發現問題時繼續管理問題
七.資料品質和資料治理
1. 資料品質制度
制度應包括:
1)制度的目的、範圍和适用性。
2)術語定義。
3)資料品質團隊的職責。
4)其他利益相關方的責任。
5)報告。
6)政策的實施,包括與之相關的風險、預防措施、合規性、資料保護和資料安全性等。
2. 度量名額
資料品質的高階名額包括:
1)投資回報。
2)品質水準。
3)資料品質趨勢。
4)資料問題管理名額。
5)服務水準的一緻性。
6)資料品質計劃示意圖。