天天看點

談談什麼是資料品質管理

談談什麼是資料品質管理

什麼是資料品質管理

資料品質管理是一組旨在維護高品質資訊的實踐。資料品質管理從資料采集和進階資料流程的實施一直到資料的有效分發。它還需要對資訊進行管理監督。有效的資料品質管理被認為對于任何一緻的資料分析都是必不可少的,因為資料的品質對于從資訊中獲得可操作且更重要的準确見解至關重要。

您可以使用許多政策來提高資料品質。資料品質管理流程旨在成為資料開發的“瑞士軍刀”,以應對無論何時何地出現的數字時代資料的挑戰。在本文中,我們将詳細介紹資料品質管理所涉及的一切:為什麼它是必要的、如何衡量資料品質、良好品質管理的支柱以及一些資料品質控制技術。

為什麼需要資料品質管理

雖然數字時代成功地推動了廣泛的創新,但它也助長了所謂的數字時代的“資料危機”——低品質資料。

談談什麼是資料品質管理

資料品質的定義是什麼

資料品質是指對資料的評估,相對于其目的和服務于該目的的能力。資料品質由本文後面将詳細介紹的不同因素定義,例如準确性、完整性、一緻性或及時性。這種品質對于滿足組織在營運、規劃和決策方面的需求是必要的。

如今,公司的大部分營運和戰略決策都嚴重依賴資料,是以品質的重要性更高。事實上,低品質資料是先進資料和技術計劃失敗的主要原因,每年給美國企業帶來的損失高達970萬美元(不包括世界上所有其他國家的企業)。更一般地說,低品質的資料會影響生産力、底線和整體投資回報率。

稍後我們将讨論低品質資料的一些後果。但是,讓我們確定不要陷入“品質陷阱”,因為資料品質管理的最終目标不是建立“高品質”資料是什麼的主觀概念。它的最終目标是提高那些依賴資料的業務部門的投資回報率(ROI)。

從客戶關系管理到供應鍊管理,再到企業資源規劃,有效的資料品質管理的好處可以對組織的績效産生連鎖反應。有了可用的品質資料,組織可以形成資料倉庫,以檢查趨勢和制定面向未來的戰略。在整個行業範圍内,資料品質的積極投資回報率是衆所周知的。根據埃森哲的大資料調查,92%使用大資料進行管理的高管對結果感到滿意,89%的高管認為資料“非常”或“極其”重要,因為它将“像網際網路一樣徹底改變營運模式”。

大企業的上司者清楚地了解優質資料的重要性。

談談什麼是資料品質管理

資料品質管理的5個支柱

既然了解了高品質資料的重要性并希望采取行動來鞏固資料基礎,那麼讓我們來看看資料品質管理背後的技術以及支援它的5個支柱。

1–人

技術的效率取決于實施它的個人。我們可能在技術先進的商業社會中運作,但人類監督和流程實施尚未過時。是以,有幾個資料品質管理角色需要填補,包括:

資料品質管理項目經理:項目經理的角色應由一名高層上司擔任,該上司接受對商業智能計劃的一般監督責任。他還應監督涉及資料範圍、項目預算和計劃實施的日常活動的管理。項目經理應該上司資料品質和投資回報的願景。

組織變革經理:他通過提供對進階資料技術解決方案的清晰和洞察力來協助組織。由于使用儀表闆軟體通常會突出品質問題,是以變更經理在資料品質的可視化中起着重要作用。

業務/資料分析師:此人從組織的角度定義品質需求。然後将這些需求量化為用于擷取和傳遞的資料模型。這個人或一組人確定将資料品質背後的理論傳達給開發團隊。

2–資料分析

資料分析是資料品質管理生命周期中的一個基本過程。它涉及:

詳細審查資料

将資料與中繼資料進行比較和對比

運作統計模型

報告資料品質

此過程的目的是深入了解現有資料,并将其與品質目标進行比較。幫助企業在資料品質管理流程中建立一個起點,并為如何提高其資訊品質設定标準。完整和準确資料的資料品質名額對于這一步至關重要。準确的資料是尋找不成比例的數字,完整的資料是定義資料體并確定所有資料點都是完整的。

3–定義資料品質

資料品質管理的第三個支柱是品質本身。應根據業務目标和要求建立和定義“品質規則”。這些是資料必須遵守的業務/技術規則才能被認為是可行的。

業務需求可能會在這一支柱中占據首位,因為關鍵資料元素應取決于業務。品質規則的制定對于任何資料品質管理流程的成功都至關重要,因為這些規則将檢測并防止受損資料感染整個資料集的健康狀況。

就像抗體檢測和糾正我們體内的病毒一樣,資料品質規則将糾正有價值資料之間的不一緻。當與BI工具結合使用時,這些規則可以成為預測趨勢和報告分析的關鍵。

4–資料報告

資料品質管理報告是删除和記錄所有受損資料的過程。這應該被設計為遵循資料規則執行的自然過程。一旦識别和捕獲異常,就應該将它們彙總,以便識别品質模式。

應根據特定特征(例如,按規則、按日期、按來源等)對捕獲的資料點進行模組化和定義。統計完這些資料後,可以将其連接配接到線上報告軟體,以報告品質狀态和儀表闆中存在的異常情況。如果可能,還應實施自動化和“按需”技術解決方案,以便實時顯示儀表闆洞察力。

報告和監控是資料品質管理投資回報率的關鍵,因為它們可以實時檢視任何時候的資料狀态。通過識别資料異常的位置,資料專家團隊可以制定補救流程的政策。

5–資料修複

資料修複是确定的兩步過程:

修複資料的最佳方法

實施變更的最佳方式

資料修複最重要的方面是執行“根本原因”檢查,以确定資料缺陷産生的原因、位置和方式。一旦實施了這項檢查,就應該開始整治計劃。

依賴于先前有缺陷的資料的資料流程可能需要重新啟動,尤其是當它們的功能面臨風險或受到缺陷資料的影響時。這些流程可能包括報告、活動或财務檔案。

這也是應該再次審查資料品質規則的地方。審查過程将有助于确定規則是否需要調整或更新,并将有助于開始資料演化過程。一旦資料被認為是高品質的,關鍵的業務流程和功能就應該更高效、更準确地運作,進而獲得更高的投資回報率和更低的成本。

如何衡量資料品質

要衡量資料品質,顯然需要資料品質名額。它們也是評估為提高資訊品質所做的努力的關鍵。在各種品質管理技術中,資料品質名額必須是一流的并且定義明确。這些名額包含品質的不同方面,可以用首字母縮略詞“ACCIT”來概括,代表準确性、一緻性、完整性、可靠性和及時性。

雖然資料分析可能相當複雜,但所有關鍵的資料品質管理利益相關者都應該了解一些基本測量。資料品質名額對于為未來的分析提供最好和最堅實的基礎至關重要。這些名額還将幫助跟蹤品質改進工作的有效性,這當然是確定走上正确軌道所必需的。讓我們回顧一下這五類名額并詳細說明它們所包含的内容。

準确性

指實時發生的業務交易或狀态變化。準确性應通過源文檔(即來自業務互動)來衡量,但如果不可用,則應通過獨立性質的确認技術來衡量。它将訓示資料是否沒有重大錯誤。

衡量準确性的一個典型名額是資料與錯誤的比率,它跟蹤相對于資料集的已知錯誤(如缺失、不完整或備援條目)的數量。這個比率當然應該随着時間的推移而增加,證明資料品質會變得更好。資料與錯誤的比率沒有特定的比率,因為它在很大程度上取決于資料集的大小和性質,但當然越高越好。在下面的示例中,我們看到資料錯誤率剛好低于95%的準确率目标:

一緻性

嚴格來說,一緻性指定從不同資料集中提取的兩個資料值不應互相沖突。然而,一緻性并不自動意味着正确性。

一緻性的一個例子是一個規則,它将驗證公司每個部門的員工總數不超過該組織中的員工總數。

完整性

完整性将表明是否有足夠的資訊來得出結論。完整性可以通過确定每個資料條目是否是“完整”資料條目來衡量。所有可用的資料輸入字段必須完整,并且資料記錄集不應缺少任何相關資訊。

例如,可以使用的一個簡單品質名額是資料集中的空值數量:在庫存/倉儲環境中,這意味着每一行項目都引用一個産品,并且每個項目都必須有一個産品辨別符。在填寫該産品辨別符之前,該行項目無效。然後,應該随着時間的推移監控該名額,以減少它。

可靠性

也稱為資料驗證,可靠性是指對資料進行結構測試,以確定資料符合程式。這意味着沒有意外的資料錯誤,并且它對應于其适當的名稱(例如,日期、月份和年份)。

在這裡,一切都歸結為資料轉換錯誤率。要使用的名額跟蹤有多少資料轉換操作相對于整體失敗或者以一種格式存儲的資料并将其轉換為另一種格式的過程未成功執行的頻率。在下面的示例中,轉換錯誤率随時間變化:

及時性

及時性對應于對資訊可用性和可通路性的期望。換言之,它衡量的是從預期資料到資料可供使用的時間之間的時間。

評估及時性的一個名額是資料價值實作時間。這對于衡量和優化這個時間至關重要,因為它對企業的成功有很多影響。擷取有價值的資料的最佳時機始終是現在,是以越早通路該資訊越好。

無論選擇哪種方式來提高資料品質,都将始終需要衡量努力的有效性。所有這些資料品質名額示例都可以很好地評估資料品質管理流程。評估得越多,就能改進得越好,是以控制它是關鍵。

資料品質名額示例

以下是5個資料品質名額示例:

資料與錯誤的比率:監控與整個資料集相比已知資料錯誤的數量。

空值數:計算資料集中有空字段的次數。

資料價值實作時間:評估從資料集中獲得洞察所需的時間。

資料轉換錯誤率:該名額跟蹤資料轉換操作失敗的頻率。

資料存儲成本:當存儲成本上升而使用的資料量保持不變,或者更糟糕的是,資料量減少時,這可能意味着所存儲的大部分資料的使用品質很低。

為什麼需要更好的資料品質控制

高品質資料的好處

讓我們來看看高品質資料在一個領域的好處:營銷。想象一下,您有一個購買的清單,上面有10,000封電子郵件、姓名、電話号碼、企業和位址。然後,假設該清單中有20%是不準确的。這意味着您的清單中有20%的電子郵件、姓名、電話号碼等錯誤。這如何轉化為數字?

好吧,這樣看:如果您針對此清單中的姓名投放廣告活動,由于這些虛假姓名條目,成本将比應有的高出20%。如果您使用實體郵件,多達20%的信件甚至不會送達收件人。通過電話,銷售代表将把更多時間浪費在錯誤的号碼或無法接聽的号碼上。對于電子郵件,您可能認為這沒什麼大不了的,但是打開率和其他名額會根據“髒”清單而失真。所有這些成本迅速增加,導緻美國公司每年面臨6000億美元的資料問題。

但是,讓我們颠倒一下情況:如果您的資料品質控制到位,那麼您将能夠:

以比競争對手更低的成本獲得潛在客戶

從執行的每個直郵、電話或電子郵件活動中獲得更多投資回報

向最高管理層展示更好的結果,使廣告支出更有可能增加

總而言之,在當今的數字世界中,擁有高品質的資料是領先者和“失敗者”之間的差別。

不良資料品質控制的後果

糟糕的資料品質控制會影響組織的各個方面,包括:

營銷活動的成本和效果如何

了解客戶的準确程度

可以多快将潛在客戶轉化為銷售線索

做出業務決策的準确性如何

Gartner的一項研究告訴我們,糟糕的資料品質控制使他們調查的公司平均每年損1420萬美元。

一項巨大的無形成本:錯誤的決定

也許您并沒有試圖讓其他人相信資料驅動決策的重要性。也許公司已經使用了分析,但沒有對資料品質控制進行盡職調查。在這種情況下,您可能會面臨更大的打擊:根據不準确的資料做出代價高昂的決策。

正如大資料專家ScottLowe所說,也許最糟糕的是,決策是用糟糕的資料做出的:這最終會導緻更大更嚴重的問題。他甯願聽從自己的直覺做出決定,也不願冒險用不良資料做出決定。

例如,假設您有一個不正确的資料集,表明目前的現金流是健康的。感到樂觀,你擴大了業務。然後,一兩個季度後,您遇到了現金流問題,突然間就很難向供應商(甚至您的員工)付款了。這種災難性的情況是可以通過更高品質的資料來預防的。

低品質資料來源

我們剛剛介紹了如何清理可能不準确的資料。然而,俗話說,一盎司的預防勝過一磅的治療。考慮到這一點,這裡有一些低品質資料的來源,是以可以注意随着時間的推移保持記錄的準确性。請記住:保持資料的高品質不是一次性的工作。這是一個永無止境的持續過程。

來源#1:并購

當兩家公司以某種方式聯合起來時,他們的資料就會融入這種新的工作關系中。然而,就像兩個婚前有孩子的人建立新的關系一樣,事情有時會變得一團糟。

例如,兩家公司很有可能使用完全不同的資料系統。也許你們中的一個人有一個遺留資料庫,而另一個人已經更新了東西。或者使用不同的方法收集資料。甚至有可能關系中的一個合作夥伴有很多不正确的資料。

行動步驟:如果有計劃的合并或收購,請確定讓IT負責人坐到談判桌前,以便在簽署任何交易之前提前計劃此類問題。

來源#2:從遺留系統過渡

對于非技術使用者來說,可能很難了解從一種作業系統切換到另一種作業系統所固有的困難。直覺上,外行會期望事情已經“設定好”,以便最終使用者可以輕松無痛地進行轉換。這絕對不符合現實。

許多公司将所謂的“遺留系統”用于已有數十年曆史的資料庫,當不可避免的過渡時期到來時,需要處理大量問題。這是由于資料系統本身的技術性質。每個資料系統都包含三個部分:

資料庫(資料本身)

“業務規則”(解釋資料的方式)

使用者界面(資料呈現方式)

在從一個系統到另一個系統的資料轉換過程中,這些不同的部分可能會帶來不同的挑戰。正如SteveHoberman所寫,關注的焦點是資料轉換過程中的資料結構。但這是一種失敗的方法,因為源和目标的業務規則層非常不同。轉換後的資料在實際應用中不可避免地不準确,即使它在技術上仍然是正确的。

行動步驟:從遺留系統過渡到新系統時,過渡團隊成為一個系統或另一個系統的專家是不夠的。他們需要成為這兩個方面的專家,以確定過渡順利進行。

來源#3:使用者錯誤

這是一個可能永遠不會消失的問題,因為人類将始終參與資料輸入,并且人類會犯錯誤。人們經常打錯東西,這必須加以考慮。

你會認為資料清理專家是絕對可靠的,事實并非如此。正如霍伯曼先生所說,“仍有3%的更正輸入錯誤。這是在一個以資料品質為主要目标的項目中!”

行動步驟:建立公司使用的所有表格,盡可能簡單直接地填寫。雖然這不會完全防止使用者錯誤,但它至少會減輕它。

END

總 結