2022年数据质量状况:增长与复杂性
根据TDWI进行的一项调查,83%的组织在很大程度上基于数据做出决策。组织也非常重视数据质量:97%的组织表示他们比较重视或非常重视数据质量。这是个好消息,但任务仍然相当具有挑战性。
除了不断发展的数据和流程之外,我们看到组织更多地依赖于多个数据源,无论是在云中还是在预置中。这可能是由于合并和收购,随着时间的推移持续增长,或者越来越多地采用数据民主化趋势和新框架,如数据网格。这样的发展迫使治理和工程团队在不断增长的资产海洋中寻找和提取高质量的数据。
因此,组织正在寻求或已经优先考虑以数据为中心的角色、过程和工具的实现,以确保高质量数据的交付。这很好,但有一个问题……
在2022年,采用甚至保持手动方法来提高数据质量已经不再适用。我们将在这篇博文中解释原因。
手动数据质量:它是如何工作的以及为什么它不可持续
数据质量已经进行了多次迭代,但是传统的、更加手工的方法仍然在许多组织中流行,包括财富500强公司。手动实现依赖于需要大量编码工作的工具和技术。通过组合SQL规则和电子表格来记录流程,组织增加了对由数据源、属性和不同标准DQ规则组成的大量表的依赖。
通常,这个过程是这样的:
业务团队和CPDA数据分析师团队在电子表格中写下需求(业务/DQ规则)。
然后,开发人员将在各种业务系统中使用SQL或其他编程语言实现这些业务需求。
当业务需求发生变化时,业务更新电子表格,开发人员在所有相关系统中重新实现规则。
当数据源添加到数据治理程序中时,分析师必须了解其中的数据,并与开发团队沟通需要实现哪些规则。
在这种环境下,伸缩是不可能的。添加新的数据源意味着添加更多的开发人员并维护更多的代码,这可能会极大地影响分配给DQM策略的总体预算。对于基于代码的数据质量,一切都由开发人员完成,部署一条规则可能需要整整一天的时间。
什么是自动化数据质量?
自动化的、元数据驱动的数据质量是以数据为中心的组织发展过程中的一个重要迭代。它位于数据目录的主干上,维护企业元数据的最新版本。它结合了人工智能和基于规则的方法来自动化数据质量的各个方面:配置、测量和提供数据。从我们的调查结果来看,在受访者中,人工智能驱动/元数据DQM自动化的采用率约为40%。
自动化的数据质量是有回报的
根据我们最新的数据质量状态调查和与客户的日常互动,很明显,自动化特定流程可以帮助组织解决数据质量问题。那些实施大量工具来现代化DQM系统的公司在管理数据质量方面更成功。
底线是:
在数据质量管理方面取得成功的组织,平均70%的流程是自动化的。此外,这些组织更有可能投资于自动化和现代化他们的数据堆栈。这是一个良性循环。
自动化数据质量是如何工作的?
与传统的、更加手工的方法相比,元数据驱动的DQ是一个复杂的过程,最终可以实现自动化。但是企业如何实现自动化呢?
简单的答案是遵循以下四个步骤:
通过连接数据源和发现数据域(如名称、地址、产品代码等)对数据进行分类。
建立用于验证和标准化的数据质量规则,并将其映射到特定的业务领域
自动发现元数据:为了保持对数据域的准确理解,您应该部署数据概要分析和分类。
修改:对新发现的数据,持续检查数据域定义、数据质量规则和AI建议。
自动化数据质量解决方案的组件
数据目录
数据目录是元数据驱动的DQM的主要构建块,因为它存储到数据源的连接,从数据源收集元数据,并创建数据资产索引。通过使用自动化算法和人工智能,目录保持元数据的更新,并推断新的元数据。授权用户还可以通过它快速访问公司最新、最可靠的业务信息。
中央规则库
在元数据驱动的系统中,数据质量监控和实施是通过应用可重用的数据质量规则完成的。理想情况下,这是一个中央规则库,一个协作的生态系统,业务和技术用户可以在无代码或低代码环境中定义和执行这些规则。
业务术语表
业务词汇表允许组织记录其最重要的业务术语或元数据资产,就其含义达成一致,并且对于实现自动化至关重要。同时连接到数据目录和中央规则库在存储用于检测业务域的规则和创建DQ规则到这些域的映射方面发挥了关键作用。
数据概要分析
数据概要是系统的计算部分。它检测元数据的变化,为数据资产分配业务域,并计算有关数据的统计信息。
自动化数据质量的好处
您的DQM策略需要可伸缩性和面向未来的能力,这与不断增长的复杂性和数据量有关。您需要一个系统能够扩展和处理从tb到exabytes的任何数据,并适应越来越多的源的添加。以下是使用活动元数据自动化交付高质量数据的最重要好处:
自动化节省时间
自动化本身是主要的好处,因为它节省了很多时间。一旦数据资产连接到平台,系统将自动运行数据分析、分类和发现流程。然后根据新发现或更新的元数据立即评估信息。
可重用性
所有配置、规则和子例程都是可重用的,并在规则库中集中定义。您不必再次配置相同的规则;规则本身应该只包含逻辑,而不包含到数据源的连接。
较少的资源密集型
自动化的DQ流程依赖更少的人。越来越多的开发人员团队不再需要重新配置单独的数据质量规则。它意味着人工分类数据的结束,比如将表链接到域、添加注释或无休止的代码维护。
可扩展性和未来证明
由于数据的复杂性和数量都在不断增长,组织需要一个能够扩展和处理任何当前和未来数据源和数据类型的系统。
灵活的交付
由元数据支持的数据质量允许在任何级别上消费结果:从单个表到业务域或数据源。在此基础上,它支持以批量、实时或流模式交付结果。