天天看點

人工資料品質在2023年無法實作:以下是自動化資料品質的工作方式

人工資料品質在2023年無法實作:以下是自動化資料品質的工作方式

2022年資料品質狀況:增長與複雜性

根據TDWI進行的一項調查,83%的組織在很大程度上基于資料做出決策。組織也非常重視資料品質:97%的組織表示他們比較重視或非常重視資料品質。這是個好消息,但任務仍然相當具有挑戰性。

除了不斷發展的資料和流程之外,我們看到組織更多地依賴于多個資料源,無論是在雲中還是在預置中。這可能是由于合并和收購,随着時間的推移持續增長,或者越來越多地采用資料民主化趨勢和新架構,如資料網格。這樣的發展迫使治理和工程團隊在不斷增長的資産海洋中尋找和提取高品質的資料。

是以,組織正在尋求或已經優先考慮以資料為中心的角色、過程和工具的實作,以確定高品質資料的傳遞。這很好,但有一個問題……

在2022年,采用甚至保持手動方法來提高資料品質已經不再适用。我們将在這篇博文中解釋原因。

手動資料品質:它是如何工作的以及為什麼它不可持續

資料品質已經進行了多次疊代,但是傳統的、更加手工的方法仍然在許多組織中流行,包括财富500強公司。手動實作依賴于需要大量編碼工作的工具和技術。通過組合SQL規則和電子表格來記錄流程,組織增加了對由資料源、屬性和不同标準DQ規則組成的大量表的依賴。

通常,這個過程是這樣的:

業務團隊和CPDA資料分析師團隊在電子表格中寫下需求(業務/DQ規則)。

然後,開發人員将在各種業務系統中使用SQL或其他程式設計語言實作這些業務需求。

當業務需求發生變化時,業務更新電子表格,開發人員在所有相關系統中重新實作規則。

當資料源添加到資料治理程式中時,分析師必須了解其中的資料,并與開發團隊溝通需要實作哪些規則。

在這種環境下,伸縮是不可能的。添加新的資料源意味着添加更多的開發人員并維護更多的代碼,這可能會極大地影響配置設定給DQM政策的總體預算。對于基于代碼的資料品質,一切都由開發人員完成,部署一條規則可能需要整整一天的時間。

人工資料品質在2023年無法實作:以下是自動化資料品質的工作方式

什麼是自動化資料品質?

自動化的、中繼資料驅動的資料品質是以資料為中心的組織發展過程中的一個重要疊代。它位于資料目錄的主幹上,維護企業中繼資料的最新版本。它結合了人工智能和基于規則的方法來自動化資料品質的各個方面:配置、測量和提供資料。從我們的調查結果來看,在受訪者中,人工智能驅動/中繼資料DQM自動化的采用率約為40%。

自動化的資料品質是有回報的

根據我們最新的資料品質狀态調查和與客戶的日常互動,很明顯,自動化特定流程可以幫助組織解決資料品質問題。那些實施大量工具來現代化DQM系統的公司在管理資料品質方面更成功。

底線是:

在資料品質管理方面取得成功的組織,平均70%的流程是自動化的。此外,這些組織更有可能投資于自動化和現代化他們的資料堆棧。這是一個良性循環。

自動化資料品質是如何工作的?

與傳統的、更加手工的方法相比,中繼資料驅動的DQ是一個複雜的過程,最終可以實作自動化。但是企業如何實作自動化呢?

簡單的答案是遵循以下四個步驟:

通過連接配接資料源和發現資料域(如名稱、位址、産品代碼等)對資料進行分類。

建立用于驗證和标準化的資料品質規則,并将其映射到特定的業務領域

自動發現中繼資料:為了保持對資料域的準确了解,您應該部署資料概要分析和分類。

修改:對新發現的資料,持續檢查資料域定義、資料品質規則和AI建議。

自動化資料品質解決方案的元件

資料目錄

資料目錄是中繼資料驅動的DQM的主要建構塊,因為它存儲到資料源的連接配接,從資料源收集中繼資料,并建立資料資産索引。通過使用自動化算法和人工智能,目錄保持中繼資料的更新,并推斷新的中繼資料。授權使用者還可以通過它快速通路公司最新、最可靠的業務資訊。

中央規則庫

在中繼資料驅動的系統中,資料品質監控和實施是通過應用可重用的資料品質規則完成的。理想情況下,這是一個中央規則庫,一個協作的生态系統,業務和技術使用者可以在無代碼或低代碼環境中定義和執行這些規則。

業務術語表

業務詞彙表允許組織記錄其最重要的業務術語或中繼資料資産,就其含義達成一緻,并且對于實作自動化至關重要。同時連接配接到資料目錄和中央規則庫在存儲用于檢測業務域的規則和建立DQ規則到這些域的映射方面發揮了關鍵作用。

人工資料品質在2023年無法實作:以下是自動化資料品質的工作方式

資料概要分析

資料概要是系統的計算部分。它檢測中繼資料的變化,為資料資産配置設定業務域,并計算有關資料的統計資訊。

自動化資料品質的好處

您的DQM政策需要可伸縮性和面向未來的能力,這與不斷增長的複雜性和資料量有關。您需要一個系統能夠擴充和處理從tb到exabytes的任何資料,并适應越來越多的源的添加。以下是使用活動中繼資料自動化傳遞高品質資料的最重要好處:

自動化節省時間

自動化本身是主要的好處,因為它節省了很多時間。一旦資料資産連接配接到平台,系統将自動運作資料分析、分類和發現流程。然後根據新發現或更新的中繼資料立即評估資訊。

可重用性

所有配置、規則和子例程都是可重用的,并在規則庫中集中定義。您不必再次配置相同的規則;規則本身應該隻包含邏輯,而不包含到資料源的連接配接。

較少的資源密集型

自動化的DQ流程依賴更少的人。越來越多的開發人員團隊不再需要重新配置單獨的資料品質規則。它意味着人工分類資料的結束,比如将表連結到域、添加注釋或無休止的代碼維護。

可擴充性和未來證明

由于資料的複雜性和數量都在不斷增長,組織需要一個能夠擴充和處理任何目前和未來資料源和資料類型的系統。

靈活的傳遞

由中繼資料支援的資料品質允許在任何級别上消費結果:從單個表到業務域或資料源。在此基礎上,它支援以批量、實時或流模式傳遞結果。

繼續閱讀