天天看点

企业数字化转型之数据中台架构、大数据支撑平台、资源库建设方案

作者:优享智慧方案
原文《企业数字化转型之数据中台架构、大数据支撑平台、资源库建设方案》WORD格式。
企业数字化转型之数据中台架构、大数据支撑平台、资源库建设方案

总体架构

数据中台的总体架构以全域大数据建设为中心,覆盖整个大数据获取、治理、建立目录、共享、服务、可视化的全链路环节。

架构总体上是一种服务化的架构,各服务模块间弱耦合。每个模块对外的服务是开放性的,这意味着各种不同的模块可以按需使用。不仅如此,合理、恰当、符合逻辑的问题拆解,将每个子问题域控制在合适的粒度大小,这利于展开落地方案的架构设计,并为系统的运行演化奠定了模块化、组件化的指导基础。

各层次间的衔接与交互采取“服务化”的设计思路,层次间弱耦合,在层间通信契约稳定的前提下,各层均可独立的进行扩展变更。同时,基于这种松耦合的逻辑设计与实现,在部署架构上,可以支持灵活地按需部署,各种不同的模块部件,可以按需地分布在相同或者不同的进程单元中,并且各层次内也可以根据数据处理规模来横向伸缩扩展。

企业数字化转型之数据中台架构、大数据支撑平台、资源库建设方案

2.2、总体设计原则

数据中台的涉及内容众多,技术复杂,使用对象覆盖面广。因此,在建设时,项目规划设计应遵循以下基本原则:

先进性原则。本项目整个平台应采用先进的技术,符合技术发展趋势。数据中台采用先进技术,针对不同的业务场景,采用不同的计算和存储技术来对应等。平台采用先进的架构,各个部分之间采用松耦合,一个子系统出现问题不会影响其他系统。

易用性原则。平台应注重易用性,方便用户使用。数据中台的各个子系统注重易用性的设计,界面和操作直观、美观、方便, 易理解性,使用户抓住重点,一目了然;易操作性,提供便捷、一致的操作方式,减少用户输入和点击次数;易管理性,缩减安装、配置、实施、备份的时间和难度。

安全性原则。应充分保证数据的安全性,提供合理的解决方案。针对数据安全性,采用立体化的安全防范手段,一方面加强对现有安全设备的利用,另一方面应采用安全加密和脱敏系统加强对数据的防护,并结合已有的安全管理制度,共同形成高安全性防护。

扩展性原则。平台应考虑技术的发展和未来的应用需求,提供良好的扩展性,确保随着业务的发展能够快速进行系统的扩展。为保证系统的可扩展性设计,在系统架构上,采用系统分层设计实现。保证在设计开发上具有适应业务变化的能力,当系统新增业务功能或现有业务功能改变时(界面的改变、业务实体变化、业务流程变化、规则的改变、代码改变等),应尽可能的保证业务变化造成的影响局部化。

整体性原则。要考虑各系统之间的集成,形成一个整体对外提供服务。由于数据中台类项目涉及的子平台和子系统众多,为体现系统的整体性,应提供统一门户,完成各子平台和子系统的身份统一和集成,完成各系统的界面、应用和数据集成,确保各部分形成一个整体统一对外提供服务。

2.3、总体建设方案

中台技术建设逐步成为构建“大中台、轻应用”的信息化建设格局,加快信息化应用创新和发展,进一步解决现有数据平台瓶颈的重要手段和支撑。数据中台是中台技术的关键内容,数据中台建设主要包括数据存储、数据集成、数据治理、数据服务等方面以及相关的数据实施。数据存储、数据集成、数据治理方面主要是为了加强数据中台的数据处理能力,数据服务则主要是为了支持应用和业务的进一步创新和发展。同时,数据实施服务是数据中台建设能较好落地的基础和保障。

2.4、详细建设方案

2.4.1、数据资源梳理

本次项目需要的梳理的数据资源包括对接市局的数据资源、分局自身拥有的数据资源、调研梳理其他局委办数据资源,市局和分局的数据资源相对比较明确,其他局委办数据相对较模糊需花费一定的时间进行调研。

2.4.1.1数据资源梳理方式

在梳理信息资源时可以通过以下4种方式进行:

l、采取不同的收集手段。

A.兼容各个电子系统,收集整理数据。近几年,随着信息化建设的推动和发展,各个部门的信息化建设都有不同程度的提高。各个部门或多或少都建立起计算机系统,只是各个部门发展程度不一样,有些部门电子化程度很高,绝大多数数据都纳入到计算机系统中,而有些部门电子化的东西还很少。充分利用现有的各个电子系统,是获得信息资源最有效的途径。但在利用同时还存在一些问题,如各个部门即有自己的办公自动化系统,又有业务系统;既有以前开发的系统,又有新开发的系统;既有可公开的系统,又有密级的系统,几个系统间并不兼容,这样就需要在收集整理这些数据前,先对这些系统进行整合,抽取出符合要求的信息资源。

B.手工整理资源。各个部门信息化建设时总会有些数据资源被落下,特别是些老数据,像很多年前的档案数据、历史数据,这些数据就需要手工进行整理。

2、以信息资源的时间为主线收集。

信息资源虽然内容多而杂,但也是有规律地产生的,可以根据信息资源的产生的时间先后进行整理。时间的不同,部门所赋予的职责也会有变化,不同时期部门的名称都会有明显变化,职能的调整就更多,职能对应的资源信息也就有变化。通过时间整理数据,逻辑上比较清楚。

3、以信息资源的研究内容为主线。

以信息资源的研究内容整理数据,其实就是根据其职能范围来整理数据。根据部门的每个职能,收集相应职能所涉及到的信息资源。由于有些信息资源包含的内容比较多,因此这种整理方式会有重复收集的现象。

4、从业务应用出发进行梳理。

业务部门在履行职能、办理业务和事项中随时都需要和产生的信息资源,它的存在和分布是跨行业、跨部门、跨地域的,并且大部分信息资源随着业务的开展不断产生和变化,是一种与政府活动相关的动态信息资源。由于各个地区经济发展不同、各个部门职能不同,所拥有的政府信息资源也各不相同。

信息资源与业务密切相关的特点要求信息资源整合方法应适应业务和信息的动态产生和变化。信息资源目录体系就是从业务应用出发,梳理业务办理的流程、职责、依据等,编制信息资源目录。如针对案件研判业务,需要通过调查和梳理相关的业务环节和部门,根据业务流程,梳理和分析业务相关的信息,并且根据相关的信息资源描述规范和分类规范描述以及标识信息资源,编制面向业务的信息资源分类目录和共享目录,在目录体系的基础上进行信息资源整合。这样的整合方法为信息资源的动态有机整合建立了基础,可以适应政府信息随业务处理而动态变化的特点。

2.4.1.2信息资产梳理与编目工具

为实现对信息资产的梳理与编目,我们在信息资源管理与服务平台中提供了信息资产登记与管理系统。通过系统实现:

采用标准化工具完成基础信息资源的梳理,资源梳理工具的管理内容包括系统目标、组织结构、业务角色、用户视图等;

对业务流程图和数据流程图进行管理,能够识别协同关系和信息共享需求,能够明确职责、整理和挖掘数据资源、规范数据表示;

对数据库的主题库、逻辑实体、实体关系图、数据映射图、数据元标准、信息分类编码进行管理;通过梳理明确信息资源的出口、入口、数据间关系;

支持信息资源的文档的自动化生成(数据库设计文档、信息资源目录、实体关系图等);

支持思维导图等方式的可视化展示。

信息资源梳理的成果为数据交换提供数据来源、业务流程、资源目录、标准规范等服务支撑。

资源梳理工具的功能包括高阶导图、思维导图、业务架构、数据架构、应用架构、需求管理、文档附件、系统编码、权限管理、项目管理、系统设置等。

信息资源梳理平台通过两类视角进行说明:管理视角、维护视角。

在管理视角下进行系统编码字典、用户及权限管理、项目模块管理、系统设置等系统管理级别操作。

在维护视角下对高阶导图、业务架构、数据架构、应用架构、需求管理等功能模块内容进行编辑和查询操作。

信息资产登记

信息资产登记系统实现了各类信息资产的注册与维护,实现信息资源的编目功能。信息资产登记系统包括业务架构登记管理、数据架构登记管理和应用架构登记管理、架构资产目录管理功能。信息资产是政府架构里的核心构成和基础,对信息资产的梳理和编目、信息资产登记系统是政府整个信息化工作的灵魂和基石,信息资产登记系统产品用来支持信息资产初始化,并作为有序存储和可持续管控的起点。

在信息化工作过程中,将产生大量、复杂的信息,它们数量多、门类广、分布分散、信息资源提供者和信息资源使用者的信息不对称,这些信息只有经过梳理、分类、编目和可视化,才能变得更有价值,从而形成真正的资产,完全依靠手工和纸面管理几乎变成不可能,必须引入资产知识储藏库,通过合理的架构管控,保持定义与理解的一致性,并贯穿信息化建设的始终,对信息从产生、处理、传输、利用的全生命周期进行梳理、规划、设计和实施落地,保证信息和知识记存与使用的无歧义和连续性。为此,必须使用科学、合理、动态、活化的技术文档来存储相关信息,建立此储藏库是一个积累发展过程,首次规划资料的存储,有利于后续开发工作的进行;修订业务架构,优化数据架构和系统架构,都建立在原有知识库的基础上。

信息资产登记系统将满足其他组织建立信息资产编目体系而开发的产品,可以辅助这些组织的架构管理机构或信息部门,对业务、数据、应用等进行可视化的信息资产构建工作,并支持彼此之间的关联和可持续改进,形成清晰完整的高阶资产模型。有效支撑信息资产和企业架构开发理论、方法的具体实施。产品的信息资产知识库,存储整个开发过程中的各种资产和资源,管理层、决策层可从不同角度、视点去审视企业的结构和运作,帮助政府或企业有效实现IT战略。

该工具软件主要基于企业架构、信息工程、总体数据规划、数据管理等理论,引入高阶的架构开发方法和信息化建设中的标准化核心内容,工具通过中心数据库共享功能将各模块有机联系在一起,集中记录和管理需求,支持多团队协作和各实施阶段成果之间的一致性,同时,支持主流建模标准文档的导出。

2.信息资产管理

信息资产管理是系统维护人员对登记后的信息资产,实现有效的管理,并通过平台实现对外的可视化展现与信息资源的发布。资产管理包括资源目录的管理、文件的管理和服务的管理。

信息资产管理子系统为可视化管理平台。通过该平台,中心管理员可管理整个域内的信息资产情况,部门管理员可管理该相关部门的资产情况。信息资产管理子系统主要包括以下几大部分功能:

1、资产总体视图

2、组织机构视角

3、服务对象视角

4、信息资产视角

5、协同主题视角

2.4.2、建立数据标准和规范

建立的一套符合自身实际,涵盖定义、操作、应用多层次数据的标准化体系。

数据治理对标准的需求可以划分为两类,即基础性标准和应用性标准。前者主要用于在不同系统间,形成信息的一致理解和统一的坐标参照系统,是信息汇集、交换以及应用的基础,包括数据分类与编码、数据字典、数字地图标准;后者是为平台功能发挥所涉及的各个环节,提供一定的标准规范,以保证信息的高效汇集和交换,包括元数据标准、数据交换技术规范、数据传输协议、数据质量标准等。

2.4.2.1信息资源标准和管理规范制定

标准规范体系是虎丘区公安分局大数据中心标准化工作的核心,也是虎丘区公安局大数据中心总体设计的重要内容。虎丘区公安局大数据中心标准规范体系建设过程将按标准规范办事,使工程建设效果符合最新的行业技术质量标准规范,保证工程的先进性和可靠性,符合国家、省、市电子政务项目建设规范的要求。

2.4.2.2标准规范体系和管理规范制定思路

建立标准规范体系是实现城市大数据中心对外提供数据服务的重要支撑,是直接导致本项目建设成败的重中之重。具体的建设思路如下:

1)符合国家和虎丘公安局信息化规划的相关政策法规

项目相关标准规范体系设计及制度的制定,必须在国家和虎丘公安局相关政策的指导下,根据《中华人民共和国标准化法》,从项目建设的实际需要出发,统筹考虑大数据中心切实利益,进行制定。

2)遵循国家相关标准规范和管理规章

审查项目相关标准、规范及制度的制定,必须遵循国家信息化建设的相关标准规范,以及标准制定相关规章制度,进行起草、送审和发布。

3)从虎丘区公安局信息化建设发展的大局出发

项目相关标准、规范及制度的制定,要符合无锡市信息化建设总体思路,进行深入研究、探讨、制定,按需建立信息资源的统一数据标准。

4)充分满足本项目建设和发展要求

紧密贴合项目的建设目标,充分满足大数据中心的建设和发展要求。

2.4.2.3标准规范体系和管理规范制定范围

1.数据规范

数据标准规范由公共数据元标准、公共代码标准、公共数据存取规范和数据交换规范组成。除国信办[2003] 62号要求的六项基本信息和十二项应用信息的标准外,基础信息库建设还需其他信息标准的制定。

(1)数据分类与编码

数据分类与编码标准是信息化建设中标准化的一项基础工作,该类标准规定平台汇集、交换相关信息统一的分类系统和排列顺序以及编码规则,目的是在不同系统和用户之间建立交通数据的一致参照,对提高数据采集、处理和数据交换效率具有重要作用。数据分类与编码标准的制定将有力推进平台标准化及交通信息化建设标准化的进程。

(2)数据字典

针对实际需求,定义数据集,建立各个领域的数据字典,规范数据概念和数据定义。在此基础上,形成完备的集团单位数据集和数据字典。

(3)元数据标准

元数据标准是描述数据资源的具体对象时所有规则的集合,它包括了完整描述一个具体数据对象时所需要的数据项集合。针对各种信息资源分别制定适当的元数据标准,可为信息的管理、发现和获取提供一种实际而简便的方法,从而提高数据交换效率。

(4)数据交换标准

为了保证数据共享和交换的顺利实现,必须明确定义和规范数据交换的相关标准。数据交换的标准规范是综合信息平台的核心标准。其中应当包括数据交换内容、数据交换格式、数据传输方式、各类中心间数据接口的标准化等方面。

(5)数据质量标准

由于数据采集任务通常由其他二级平台完成,数据治理平台的标准方法主要集中在数据的加工和管理上。应该重点开发的一个领域是数据质量控制方法。应当从三个方面对数据质量方法进行研究:“坏数据”或“不可靠数据”的识别,错误数据的编辑方法,以及缺少值的处理。

2.技术规范

技术规范由如下组成。

基础数据库标准规范

针对基础信息数据库建库标准制定规范,并为未来其他基础库建设形成体系规范。

外部接口规范

外部接口规范为其他系统接入提供可执行规范,包括在系统接口定义、交换系统交换方式、部门接入信息字段定义、各类应用层协议等。

二次开发规范

二次开发规范,明确开发权限定义、数据接口定义、功能挂接定义、平台要求等。

测试规范

测试规范规定测试条件、范围、选择数据,以及测试案例定义等。

3.业务规范

业务操作流程规范

配合信息资源整体建设,规范业务人员操作各应用系统所确定的业务规范。

安全保密规范

配合信息资源整体建设,明确应用系统使用安全与保密规范,完善系统保密规范。

4.信息化管理规范

配合信息资源整体建设,形成信息化管理规范。

业务部门数据交换共享机制规范

配合数据交换平台相关规范制定,确定业务部门数据共享机制规范,明确业务部门信息共享指南。

5.系统运行管理规范。

系统运行管理规范,为各级管理员和用户提供运行管理指南与规范。

6.数据维护管理规范

数据维护管理规范,针对中心数据库的各类数据,进行管理维护的规范等。

数据标准对数据集成和信息资源共享具有重要意义:

  1. 增强业务部门和技术部门对数据定义和使用的一致性。
  2. 减少数据转换,促进系统集成。
  3. 促进信息资源共享。促进单一数据视图的形成,支持管理信息能力的发展。
  4. 消除各部门间的数据壁垒,方便数据的共享,另外数据标准同样对业务流程的规范化有帮助作用。

2.4.3、数据接入服务

数据接入系统主要实现多源异构数据的跨网络、跨地域的统一接入,为数据资源的汇聚集中、标准化处理和数据资源池构建提供支撑,功能主要有数据抽取、数据库同步、文件导入、数据填报等。

主要为了解决各级部门和组织在中心侧的数据落地问题,采集后的数据统一归集到数据湖沧库中的“原始数据区”。需要支持的数据采集方式需包含数据流采集、数据库采集、日志采集、接口采集、应用数据采集、网页爬取、文件交换等多种方式。

数据接入可以分为以下几个部分:

执行引擎:依照用户设定的业务流程,完成对变更数据的捕获。通过重做日志采集和对数据库日志的解析,识别出变更数据内容;再通过事务的过滤、合成和加载等流程,实现事务的统一控制,确保事务的一致性和准确性。

控制台:控制台负责为用户提供多种管理和监控功能,包括数据采集的性能监控,异常情况的管理,采集任务的调度管理以及元数据的管理等。

第三方接口:系统提供了种类丰富的第三方服务接口,包括管理监控类的接口,以及服务集成类的接口等。通过上述服务接口,用户可以在第三方系统中进行产品的集成和二次开发,以满足用户不同业务场景的功能需求。

在数据接入过程中采根据建立的数据标准,用数据清洗模型可快速对不同的数据进行整合清洗。

数据接入日志:接入数据做好日志记录,可根据要求定制日志需记录的内容。

本次规划的数据接入包含如下几种类型:

(1)分局现有存量数据的数据接入:该部分数据主要是依托大数据基础平台提供的数据库环境,开展存量数据的抽取、标准化转换和加载工作最终将该类数据整合到公安大数据资源库。

(2)现有业务系统不断新增的生产数据的数据治理:该部分数据的处理根据源数据的提供方式不同,分为两部分:一是源数据的业务系统直接开放数据库账号(只读),直接通过数据库直连的方式进行数据抽取整合;二是源数据的业务系统开放webservice接口,设置相关的访问规则,然后通过该数据接口进行数据抽取整合。

(3)市公安局同步的数据,根据市局接口的要求,针对性的对每种数据开发对应的接口,根据市局数据同步的周期,可以和数据更新周期,也可以定时抽取同步。同步市局的数据可采用数据抽取、数据库同步、断点续传等多种方式。

(4)公安体系外党政单位、社企单位所共享出来的数据资源与社会化采集资源,例如工商数据(法人库)、税务数据、社医保数据、银行数据等,需要利用公安安全边界平台,实现与此类数据的整合作业。

通过数据接入服务,建立了部分符合数据标准要求的高新区分局数据仓库。

2.4.4、基础信息资源库建设

2.4.4.1设计原则

城市大数据中心数据库的数据涉及到各类基本信息资源、扩展信息资源,以及多种专业应用等多方位多层次数据和信息。数据类型有数字、文字乃至图片等,主要以表格形式表现,既有实时采集数据,也要包含多年历史数据。

对于基于大型关系数据库的核心业务系统,数据库是系统的核心。数据库结构的设计也就是项目成败的关键。设计不好的数据库,会增加编程复杂度、后期维护繁琐、系统性能低下等等问题。由此,数据库设计之初必须遵守如下设计原则。

尽量减少数据冗余,实现最低的存储空间、最高的存取速度、确保各数据项间的关系规范,能够展现完整的政务信息视图。

数据库的数据规范化设计达到第四范式(4NF)。

关系模式规范化设计的基本思想是通过对关系模式进行分解,用一组等价的关系子模式来代替原有的关系模式,消除数据依赖(包括函数依赖和多值依赖)中不合理的部分,使得一个关系仅描述一个实体或者实体间的一种联系。这一过程必须在保证无损连接性、保持函数依赖性的前提下进行,即确保不破坏原有数据,并可将分解后的关系通过自然联接恢复至原有关系。

规范化设计的优点包括可有效地消除数据冗余,理顺数据的从属关系,保持数据库的完整性,增强数据库的稳定性、伸缩性、适应性。通常认为规范化设计存在的主要问题是增加了查询时的连接库表运算,导致计算机时间、空间、系统及运行效率的损失。在大多数情况下,这一问题可通过良好的索引设计等方法得到解决。

具体地说,规范化设计的过程就是按不同的范式,将一个二维表不断地分解成多个二维表并建立表之间的关联,最终达到一个表只描述一个实体或者实体间的一种联系的目标。目前遵循的主要范式包括1 NF、 2 NF、3 NF、BCNF、4NF和 5NF等几种;在工程中3NF、BCNF应用得最广泛,本次项目采用 4 NF作为标准。

此外,数据库系统对信息的处理、获取、发布、存储等提出了很高的性能要求。主要体现在以下几个方面:

一、信息的存储,以及日益膨胀的历史数据。

二、信息的检索,各种各样的用户如何从一个数据库中快速的查询到所需的信息。

三、数据的完整性和一致性如何保证。

随着客户/服务器(Client/Server)技术的成熟和大型关系型数据库(LDBMS)技术的发展,出现了Oracle ,Sybase,Informix,DB2,Ms Sqlserver等一些著名的数据库产品,使得这些问题得到完美的解决。但是,一个好的数据库产品不等于就有一个好的应用系统,如果不能设计一个合理的数据库模型,不仅会增加客户端和服务器端程序的编程和维护的难度,而且将会影响系统实际运行的性能。一般来讲,在一个软件系统分析、设计、测试和试运行阶段,因为数据量较小,设计人员和测试人员往往只注意到功能的实现,而很难注意到性能的薄弱之处,等到系统投入实际运行一段时间后,随着数据的日益膨胀,才发现系统的性能在降低,这时再来考虑提高系统性能则要花费更多的人力物力,而整个系统也不可避免的形成了一个打补丁工程。

依据在软件行业信息化应用中的数据库设计和使用经验,以及对项目建设的理解,提出以下一些设计准则:

命名规范原则。

不同的数据库产品对对象的命名有不同的要求,因此,数据库中的各种对象的命名、后台程序的代码编写应采用大小写敏感的形式,各种对象命名长度不要超过30个字符,这样便于应用系统适应不同的数据库平台。

游标的慎用原则。

游标提供了对特定集合中逐行扫描的手段,一般使用游标逐行遍历数据,根据取出的数据不同条件进行不同的操作。尤其对多表和大数据表定义的游标(大的数据集合)循环很容易使程序进入一个漫长的等待甚至死机。在有些场合,有时也非得使用游标,此时也可考虑将符合条件的数据行转入临时表中,再对临时表定义游标进行操作,可使得性能得到明显提高。

索引(Index)的使用原则。

创建索引一般有以下两个目的:维护被索引列的唯一性和提供快速访问表中数据的策略。大型数据库有两种索引即簇索引和非簇索引,一个没有簇索引的表是按堆结构存储数据,所有的数据均添加在表的尾部,而建立了簇索引的表,其数据在物理上会按照簇索引键的顺序存储,一个表只允许有一个簇索引,因此,根据B树结构,可以理解添加任何一种索引均能提高按索引列查询的速度,但会降低插入、更新、删除操作的性能,尤其是当填充因子(Fill Factor)较大时。所以对索引较多的表进行频繁的插入、更新、删除操作,建表和索引时应设置较小的填充因子,以便在各数据页中留下较多的自由空间,减少页分割及重新组织工作的产生的概率。通常,还要根据算法逻辑关系动态调整数据库信息表的索引。

数据的一致性和完整性。

为了保证数据库的一致性和完整性,设计人员往往会设计过多的表间关联(Relation),尽可能的降低数据的冗余。表间关联是一种强制性措施,建立后,对父表(Parent Table)和子表(Child Table)的插入、更新、删除操作均要占用系统的开销,另外,最好不要用Identify 属性字段作为主键与子表关联。如果数据冗余低,数据的完整性容易得到保证,但增加了表间连接查询的操作,为了提高系统的响应时间,合理的数据冗余也是必要的。使用规则(Rule)和约束(Check)来防止系统操作人员误输入造成数据的错误是设计人员的另一种常用手段,但是,不必要的规则和约束也会占用系统的不必要开销,需要注意的是,约束对数据的有效性验证要比规则快。所有这些,设计人员在设计阶段应根据系统操作的类型、频度加以均衡考虑。

事务的陷阱。

事务是在一次性完成的一组操作。虽然这些操作是单个的操作,Oracle数据库能够保证这组操作要么全部都完成,要么一点都不做。正是大型数据库的这一特性,使得数据的完整性得到了极大的保证。

数据库性能调整。

在计算机硬件配置和网络设计确定的情况下,影响到应用系统性能的因素不外乎为数据库性能和客户端程序设计。而大多数数据库设计员采用两步法进行数据库设计:首先进行逻辑设计,而后进行物理设计。数据库逻辑设计去除了所有冗余数据,提高了数据吞吐速度,保证了数据的完整性,清楚地表达数据元素之间的关系。

而对于多表之间的关联查询(尤其是大数据表)时,其性能将会降低,同时也提高了客户端程序的编程难度,因此,物理设计需折衷考虑,根据业务规则,确定对关联表的数据量大小、数据项的访问频度,对此类数据表频繁的关联查询应适当提高数据冗余设计。数据库模实体生成后,应根据应用系统的事物大小、服务器的性能调整数据库服务器的系统参数,一般来讲,有两个系统参数锁(Locks)的数量、内存(Memory)和过程高速缓存(Procedure cache)大小应加以提高,可以提高数据库的操作性能。

2.4.4.2基础数据库设计

数据库设计是建立数据库及其应用系统的核心和基础,它要求对于指定的应用环境,构造出较优的数据库模式,建立起数据库应用系统,并使系统能有效地存储数据,满足用户的各种应用需求。一般按照规范化的设计方法,常将数据库设计分为若干阶段:

需求分析阶段

需求分析阶段要在用户调查的基础上,通过分析,逐步明确用户对系统的需求,包括数据需求和围绕这些数据的业务处理需求。通过对组织、部门、企业等进行详细调查,在了解现行系统的概况、确定新系统功能的过程中,收集支持系统目标的基础数据及其处理方法。

系统规划阶段

系统规划阶段主要是确定系统的名称、范围;确定系统开发的目标功能和性能;确定系统所需的资源;估计系统开发的成本;确定系统实施计划及进度;分析估算系统可能达到的效益;确定系统设计的原则和技术路线等。对分布式数据库系统,还应分析用户环境及网络条件,以选择和建立系统的网络结构。

概念设计阶段

概念设计阶段要产生反映单位各组织信息需求的数据库概念结构,即概念模型。概念模型必须具备丰富的语义表达能力、易于交流和理解、易于变动、易于向各种数据模型转换、易于从概念模型导出与DBMS有关的逻辑模型等特点。

逻辑设计阶段

逻辑设计阶段除了要把E-R图的实体和联系类型,转换成选定的DBMS支持的数据类型,还要设计子模式并对模式进行评价,最后为了使模式适应信息的不同表示,需要优化模式。

物理设计阶段

物理设计阶段的主要任务是对数据库中数据在物理设备上的存放结构和存取方法进行设计。数据库物理结构依赖于给定的计算机系统,而且与具体选用的DBMS密切相关。物理设计常常包括某些操作约束,如响应时间与存储要求等。

系统实施阶段

系统实施阶段主要分为建立实际的数据库结构;装入试验数据对应用程序进行测试;装入实际数据建立实际数据库三个步骤。

2.4.4.3中心数据库组成

中心数据库是大数据中心的核心数据库,根据项目建设要求包括:信息采集库、综合信息库、规则数据库、元数据库和管理数据库。如下所示:

企业数字化转型之数据中台架构、大数据支撑平台、资源库建设方案

图:中心数据库组成举例

中心数据库各库间逻辑关系如下所示。

企业数字化转型之数据中台架构、大数据支撑平台、资源库建设方案

1.信息资源采集库

中心信息资源采集库部署在交换信息中心,其数据结构与各部门交换的数据源结构相对应。信息资源采集库的内容来源于各个政务部门业务库,是由各业务库通过数据共享与交换平台汇总形成,它是综合信息数据库的生成来源。如上图所示。

2.综合信息数据库

综合信息库是基于信息采集库生成的信息数据库。包括将信息采集数据库数据经过比对和整合系统进行比对、梳理形成的如法人和人口基础信息库等,和根据应用需求梳理、汇总形成的支撑各类主题的专业数据库。人口信息基础库与法人基础数据库等的设计来源于部门业务资源,根据部门业务信息资源进行结构设计。

3.规则数据库

该数据库用于存储数据库应用、维护中的各种规则。包括比对整合系统比对规则信息,比对辅助信息,交换系统各类规则信息等。应用系统的运行必须制定相应的规则,包括用户权限设计、比对策论与方法规则,以及应用的调用规则等。

4.元数据库

元数据库用于存储对数据项的描述信息。根据国家《政务信息资源目录体系》(GB/T21063-2007)标准的规定,核心元数据的定义包含6个必选的元数据实体和元数据元素,分别是:

信息资源名称:缩略描述政务信息资源内容的标题。

信息资源摘要:对资源内容进行概要说明的文字。

信息资源提供方:信息资源的完整性、正确性、真实性等负有责任的业务部门的名称和地址信息。

信息资源分类:说明共享政务信息资源分类方式及其相应的分类信息。

信息资源标识符:信息资源的唯一不变的标识编码。

元数据标识符:元数据的唯一标识。此外,配合目录体系建设,此次的企业和人口基础信息建设的核心元数据,还包括6个可选的元数据实体和元数据元素。

信息资源发布日期:信息资源提供方发布共享政务信息资源的日期。

关键字说明:说明共享政务信息资源的关键字内容及其依据。

在线资源链接地址:可以获取共享政务信息资源的网络地址。

服务信息:描述政务信息资源提供者所提供的计算机服务功能接口的基本信息。

元数据维护方:对元数据内容负责的政务部门的名称和地址信息。

元数据更新日期:更新元数据的日期。

5.管理数据库

管理数据库用于存储问题数据、日志及权限等信息。包括比对过程问题数据;面向安全性的用户管理、权限管理和密码管理;面向可用性的节点管理和状态监控;面向运行管理机制的信息管理。

2.4.5、数据处理系统

2.4.5.1数据清洗、比对和处理步骤

在数据经过数据共享交换平台处理完成之后,针对基础数据的入库还需要经过数据处理方能正式入库,以达到数据的统一和标准化,数据入库流程如下:

企业数字化转型之数据中台架构、大数据支撑平台、资源库建设方案

图:数据入库流程

接下来围绕数据比对、清洗及建库来展开介绍。

数据处理主要包含两个方面:数据清洗、数据比对、数据远管理、规则管理、数据整合流程管理、作业管理,下面分开展述:

数据清洗:按照通用或者指定的清洗规则,针对数据本身属性错误的数据进行过滤,例如:身份证号码位数,只有15位或者18位,其他位数即可认定为身份证号错误,通过过滤规则,即可将这类错误数据过滤。通过数据清洗功能,为数据比对提供干净、准确的数据环境。

数据比对:将同一属性但来自不同数据源的数据,通过制定的比对规则进行比对,例如:同一人的婚姻状况信息即可来自公安部门,也可来自民政部门,通过数据比对,比对一致,即可认定该人的婚姻状况准确,不一致,则认定为错误,反馈到相关部门进行核查。

中心通过清洗比对系统,对采集库获取的各部门汇总信息进行清洗、比对,形成标准、规范、准确、可信度高的法人和人口基础信息。

数据清洗比对系统主要功能包括:

数据源管理:通过数据源管理模块可以定义多种数据源连接,获得数据源的元数据,对数据源可进行增删改查等操作。

规则管理:通过通用数据规则管理模块,可以将基础数据规则库内的规则进行组合,形成新的规则。除了以图形方式进行规则的组合和定义之外,还可以通过脚本定义更复杂的规则,包括规则的输入参数和返回值等。通过这两种方式自定义的规则都可被进一步使用,组合成更复杂的规则。某个项目下的自定义规则可以另存为扩展规则作为所有项目公用的扩展规则。

数据整合流程管理:数据整合流程的定义是通过在图形界面上指定数据处理组件之间的关联关系而完成的。数据处理组件包括数据过滤,数据转换等多种类型。从数据整合流程生成数据作业,数据作业可以直接放入数据处理引擎执行。

作业管理:作业管理模块负责将数据处理流程转换为可运行的数据作业,并将作业上传到中心管理平台上,由中心平台对作业进行统一的调度和管理。

2.4.5.2数据清洗系统

数据清洗实现对不符合规定格式的数据的“洗除”,利用用户认可的过滤规则,过滤那些不符合要求的数据,最终将过滤的结果交给相关业务部门的过程。

数据清洗系统的功能包括元数据管理、数据服务、数据规则管理和安全模块。具体如下。

元数据管理

元数据记录了数据源的结构信息,有了元数据才能对数据源进行各种操作,元数据管理模块提供了对各数据源的元数据进行注册,加载,查看等功能。

数据清洗系统首先提供对关系型数据库元数据的支持,以后可以逐渐扩展到对XML格式,消息队列,文件,以及应用程序的特殊格式等进行支持。

管理平台通过元数据存储模块提供的接口,获得元数据仓库中所有元数据的列表,并通过树状结构呈现出来。业务元数据和技术元数据分别显示,技术元数据还可以按各数据源的实际类型分类显示。

管理平台的使用者可以对元数据进行修改或删除等操作。

元数据存储模块集中存储了各个数据源的技术元数据(由数据源注册而来),业务元数据(由数据源注册或通过中心操作管理平台定义),以及从技术元数据到业务元数据的映射规则等内容。元数据注册模块则负责监听数据源的注册请求,当接收到注册请求时,注册模块会分析接收到的元数据是否有效,并将有效的元数据注册到元数据存储模块中。

在每个数据源端,元数据是通过XML文件描述的,在注册数据源元数据的时候,数据源管理模块会把要注册的元数据生成XML文档,并通过元数据注册模块提供的接口将此XML文档注册到中心。

元数据存储模块还对外提供了一系列的接口,允许外部应用程序通过这些接口对元数据仓库进行一些操作,比如获得元数据列表,查询某些符合条件的元数据,注册新的元数据等。

信息资源元数据根据部门共享信息资源的内容进行编目,提取其基本特征,按照《政务信息资源目录体系标准》(GB/T 21063-2007)第三部分核心元数据、第四部分分类标准、第五部分资源标识编码等相关标准,实现元数据赋值,形成目录内容。

编目过程遵循以下国标规定的技术要求:

编目对象是具体的共享信息资源,主要内容包括数据集、档案、法律法规、文件、报告、服务等,具体的形式可以是数据库、图片、文档、音频、视频、网页、服务等;

编目系统应支持自动、机辅方式完成元数据元素的赋值;

唯一标识符管理功能:按照GB/T 21063.5-2007,支持唯一标识符的分配和赋值,包括支持后段码的自动生成和管理;

标准符合性检查功能:支持政务信息资源元数据完整性和标准一致性检查,元数据完整性检查的主要目的是保证所有必选的元数据实体和元数据元素已经赋值,标准一致性检查的主要目标是保证已填写的元数据实体和元数据元素的取值符合GB/T 21063.3-2007、GB/T 21063.4-2007和GB/T 21063.5-2007的规定;

信息资源分类:按照GB/T 21063.4-2007,实现对共享政务信息资源的分类。

数据服务

数据服务是数据清洗系统中最核心的部分,由于采用了面向服务的架构(SOA),对数据的操作全部被包装成服务的形式,数据服务种类的多少决定了对数据可以进行什么样的操作。

数据清洗系统提供了一些预定义的基础数据服务,如数据传输,数据转换,数据清洗,数据比对,数据加载,数据共享等。同时还支持用户自定义数据服务并注册到平台上,形成多样化的扩展服务,实现了数据服务的安全性,可靠性,以及可调度性等。

数据清洗服务是数据清洗系统的核心,作为一个面向服务的平台,数据清洗系统是由多个数据清洗服务组成的,其中包括一系列预定义的基础数据服务,这些基础数据服务包括以下几个:

数据清洗:数据清洗过程应该包含两个层次的含义,第一是数据过滤,将源数据按照一定的过滤规则进行区分,符合规则和不符合规则的数据分别存放到不同的数据表中;第二就是真正意义上的数据清洗,即按照清洗规则将数据源中的数据直接进行转换,并代替原来的数据。在实际工作中,可以先实现数据过滤的功能。

不管是数据过滤还是数据清洗都需要相应的规则,由规则定义模块负责制定。

数据比对:数据比对过程对两个数据表中的数据按照规则进行比对,比如只在某一个表中存在的数据,或者通过字段之间的关系定义比对规则。比对之后生成符合比对规则的结果表,和比对的统计信息表。

数据加载:即在目的数据源中有一张目的表,多个数据源的多张表通过一定的加载规则将结果数据加载到这张目的表中。在实际的工作中,往往是有一张表作为基准数据表,首先进行加载入库的操作,然后其它数据表通过与基准表进行比对,将相应的信息插入或更新至目的表中。

数据转换:数据转换可以看作是数据传输和数据清洗过程的结合,数据源的数据按照一定的转换规则生成新的数据并存放至目的数据源中。数据转换支持数据字段之间一对多,多对一,以及多对多的映射关系。底层使用XSLT描述数据转换的内容。

数据共享:对分布式的异构数据源进行集中统一的查询。中心有一个统一的数据视图,但是并不保存数据,只有在进行查询的时候,才将查询语句拆分并发布到每个数据源进行实际的数据查询。每个数据源查询得出的结果整合之后返回给中心的查询者,从而得到想要的查询结果。

除了以上这些基础数据清洗服务之外,数据清洗系统还应支持用户自定义数据清洗服务,并提供数据清洗服务注册接口,用户可以按照提供的数据服务定义规范制定自己的数据清洗服务,并通过注册接口将服务注册到数据清洗系统的平台上。数据清洗服务的定义和注册机制提供了极大的扩展性,使得添加新的功能更加方便。

数据规则管理

许多数据操作,如数据清洗,数据比对,数据转换等,都需要通过一定的规则才能完成。数据清洗系统的规则管理模块提供了定义规则的用户界面,使用者可以很方便的以图形方式定义自己的规则。同时还提供了解释规则的规则引擎,以及存储规则的规则仓库。

在数据清洗,数据比对,数据转换等基础数据服务,以及很多自定义的扩展服务中,都需要指定按照何种方式对数据进行操作,也就是数据操作规则。这些规则由规则管理模块定义并维护,规则管理的内容包括:

提供基础的函数库,这里面的函数是定义一切规则的基础,通过函数的组合关系,可以进行规则的定制。

支持规则的保存和重用,已定义的规则可以被用在新的规则定义中,从而制定更复杂的规则,减少了重复劳动。

提供定义规则的图形界面,用户不需要手工书写规则文件的内容,而是只要在界面上通过拖拉连接的方式即可,已保存的规则可以在图形界面上再次打开修改。

规则文件以xml格式保存,被保存在项目目录下的自定义规则子目录中,可以考虑采用xslt的格式。

为一些常用的规则提供已定义好的规则模版,用户可以直接使用,或重用这些模版定义新的规则。

支持项目之间规则的导入导出。

支持多个规则按一定顺序连接形成的规则流程。

使用规则时,从已有的规则库中选择要用的规则,并定义从数据表字段到规则变量的映射关系,从而从一个规则模版生成跟数据相关的具体规则。

安全模块主要负责用户权限的管理。安全模块应该包含两方面的内容,一是用户的权限管理,包括用户登录,用户对功能模块的使用权限,数据源、规则的查看、修改、或删除权限等;另一方面是数据传输的安全,因为大部分的数据服务都是包括数据传输部分的,如何保证数据的安全传输是一个很重要的方面。

2.4.5.3数据比对系统设计

数据比对服务系统主要解决不同数据集合间的数据比对问题。系统基于J2EE架构,提供了数据转换与加载、数据预处理、比对规则设置、比对引擎、比对分析报告等功能模块。

政府、企事业单位用户根据对数据比对的需求,利用系统提供的功能,可以方便、快捷地在线实现数据比对分析,提供自动比对和手工比对策略相结合的方式,改变传统的手工比对工作方式的不足,提高办事效率。同时,可大大节约建设专用数据比对分析系统的资金。

数据比对服务系统可以满足多种信息比对、分析的需求,主要功能是比较不同数据集之间的差异性。

比较两个数据集合之间的差异情况,如企业基础信息比对是这种情况的一个典型应用,通过比较工商、质监、税务部门之间企业注册登记、变更登记、注销登记信息,找出不同部门之间重复采集、重复录入造成的数据不一致问题,同时,通过比较可以发现在工商部门注册,但未在税务部门办理税务登记;已办理税务登记注销但未办理工商营业执照注销等企业信息,加强税源监控力度。比较的方法是以企业的工商注册号、企业名称为比较依据,对比不同部门提供的企业信息,等到完全一致的信息,企业名称相同、企业注册号不同,企业注册号相同、企业名称不同,工商有但税务没有的企业信息等多种不同情况比对结果。

本次系统建设,将比对系统引擎嵌入到系统底层,实现如法人基础信息和人口基础信息的比对引擎调用,根据法人基础信息和人口基础信息的比对规则,制定的比对策略,根据一数一源的原则,保证数据规则确定的唯一性,实现多层次的比对方法和策略。

数据处理流程

进行数据比对处理的一般包括4个环节:

(一)系统初始化

(1)系统管理员建立用户,并分配用户权限。

(2)用户数据建模,规划定义比对数据的原始数据结构、比对数据库表结构以及两者之间的映射关系,定义数据比对结果表结构。数据建模完成后,可以被同类型数据重复使用。

(二)规则定义和任务配置

(1)定义规则:用户利用工具集定义数据过滤、数据比对映射、数据入库规则。

(2)配置比对任务:用户建立比对任务,任务的内容是执行不同的规则。

(三)运行使用

(1)用户上传原始文件,系统自动入库

(2)执行比对任务,自动或人工执行比对任务

(3)使用比对结果:浏览比对结果、生成结果报告

数据关系转换

为了适应不同用户的需求,系统提供了数据关系转换功能,用户可以自定义数据结构。数据关系转换功能的要点如下:

(1)定义原始数据文件:确定原始数据文件类型、数据结构。原始数据文件支持各类数据库文件、文本文件、Excel文件、XML文件、Access文件等。

(2)定义数据库结构:原始数据的数据库表结构、比对结果数据表结构。

(3)定义原始数据文件与数据库表的映射关系及数据转换关系。

规则管理

规则配置包括:数据过滤规则配置、数据比对规则配置、比对结果入库规则配置。

(1)数据过滤规则配置:配置数据过滤条件,筛选数据。 一般包括:字段类型校验、字段值是否为空校验、字段值长度校验、字段间关系校验等。

(2)数据比对规则配置:定义数据比较的规则,如比较的字段项、比对条件等,系统提供测试功能,用户可以直接运行测试配置的比对规则。

(3)比对结果入库规则配置:配置比对结果存储规则。

任务管理

任务管理包括任务配置、任务监控等功能。

任务配置用来定义任务定时或周期性启动比对规则进行数据比对处理。

任务监控功能可以监控任务执行历史情况。

比对结果查看

对系统进行比对后的数据进行相关的条件查询,并根据用户的需求导出为相应的文件。支持的文件主要有:Excel、XML、TXT 等。

比对结果数据主要分为两大类:比对匹配上的数据和比对匹配不上的数据。

其他功能

数据比对服务系统还提供用户管理、权限管理、数据源配置管理、日志管理等系统级功能。

2.4.5.4数据处理的技术要求

数据处理是完成一个完整数据交换流程中的一个重要环节,是数据交换平台所应具备的重要功能之一。数据处理过程包括数据抽取、数据桥接、数据过滤、数据清洗、数据比对和数据入库几个重要步骤。

通过对数据处理流程及规则的解析,根据定义的运行任务,自动执行数据处理工作,完成对数据的过滤、清洗、映射、转换等功能。数据处理引擎支持模板技术,能够根据不同的模板执行不同的处理语言,包括多种数据库存储过程、JAVA语言、C语言等。

数据处理功能可以通过手工方式和图形化配置工具两种方式实现。由于图形化数据处理方式带来的便捷性、可靠性、技术先进性和易维护性等特点,新一代的数据交换平台必须听过强大的数据处理功能。

对主流数据库和常用格式化文件的支持

支持所有的ODBC或JDBC兼容数据库,包括Oracle、Sybase、Informix、 Microsoft SQL Server等。可以方便的实现对数据库的访问,无论从数据库抽取数据,还是插入数据。

支持格式化数据文件,如XLS、XML、文本文件等。

数据转换

实现源数据库和目标数据库之间的信息的转换,根据需求对抽取的数据进行必要数据处理配置,不需要开发代码,提供图形化界面,方便用户设置数据转换规则。转换的类型包括:字段名转换、代码转换、数据类型转换、数据校验、数据合并等。

数据抽取方式

支持完全提取和增量提取两种方式。完全抽取是一次性将源数据库的所有业务数据抽取到目标数据库中;增量抽取是只将发生过增、删、改的新鲜数据抽取到目标数据库中。支持数据库映象方式的数据抽取。支持实时、定时、周期等多种采集方式。

对负载均衡及容错的支持

前置交换结点(适配器)应提供负载均衡及容错支持功能,任何一台机器发生故障均不影响整个交换结点的正常工作和运行,在交换任务繁忙是可将任务自动分配到多台交换前置机上运行。

部门维护“零管理”的支持

应用适配器是在中心管理和维护的,对部门来说,无需任何维护和管理工作。

数据过滤和清洗

设置数据转换字典,定义数据库中的脏数据及所述脏数据的修改规则;

获取所述数据库的属性,数据属性包括数据的编码格式、字符格式及字符长短;按照规则对编码格式不符合设定标准的数据和含有“脏数据”的数据进行修正;对所述读取的数据进行标准化处理,将经过标准化处理后的新数据导入数据库或送到交换平台。

2.4.5、数据资源目录

数据资源目录管理是,建立统一的数据汇集库和管理界面,方便数据运维管理人员对“标准数据区”的数据进行管理、分类、查找。数据接入获取到的结构化数据进行全量的存储。根据建立的数据标准进行相应的数据处理后,可根据主题建立多级目录进行管理。围绕业务流程和研判分析等应用需要可建立各种类型的专题资源库。通过对结构化数据进行二次抽取关联,按不同业务主题建立专题库、支持将结构化数据通过二次抽取,建立可进行全文检索的全文库。

1)关联资源库

在基础数据资源库的基础上,采用关联的技术方法,建立关联模型,实现各类数据资源的关联和集成调用。建立要素内各类基础数据的集成关联以及各要素事实表相互间的关联,并进一步延伸实现各要素内基础业务管理数据及可关联共享数据维度表相互间的关联。

2)专题资源库

围绕业务流程和研判分析等应用需要,基于基础数据和综合关联数据,按照一般地级市公安局不同的应用侧重点,分类研究制定不同的数据组织策略和技术实现方法,建设形成流程应用和专题研判两大应用层面数据资源库。建立具有专题性质和关联关系的表。主要包含三个功能模块:a、行筛选。b、列筛选。c、表关联。通过行筛选可进行内容的筛选,如籍贯选择:新疆。通过列筛选可选择需要建立专题表所包含的字段,将无用字段进行剔除。通过表关联将数据进行逻辑上的打通,实现数据间的关联。专题库可对外开放给业务人员进行数据接口的调用。

1)类目标库

类目标库按照公安“五要素”的数据大类分类习惯,分为“人、车、地、物、组织”五大类,可根据业务要求对要素分类进行重新归类整合。

2)专题目标库

专题目标库按照数据的业务分析研判使用习惯,包括“涉恐重点人员专题库”、“高危车辆活动汇集专题库”、“涉稳情报线索专题库”、“重大安保专题库”、“关系人员专题库”、“人车布控专题库”等,可根据业务要求无限制拓展专题库种类和范围。

此外专题库的分局包括但不限于以上的内容,可在项目执行过程中不断细化分类。

3)全文资源库

在完成基础数据资源库、综合关联资源库和应用数据资源库建设的基础上,按照数据资源逻辑关联、集成共享的目标要求,建设统一的标化共享全文资源库,用于描述存储其他数据中心开放共享和局方开放给其他数据中心共享的各类数据资源目录清单、共享服务方式和调用路径等信息。在基础资源库上进行二次抽取建立的全文库,目的为进行全文检索的底层库。进行数据库全文检索时仅可检索出全文库中的数据。并在全文库中建立一级目录便于在全文检索结果中进行分类查找。在创建全文表时需选择首页展示字段,在全文搜索的结果的第一页面进行展示。

数据资源目录的建设可以使数据的管理者清楚知道目前的数据总量、数据类型、数据来源以及方便的查找每种类型数据的获取方法获取路径。能做到方便的数理淘金。

2.4.6、数据监管服务

数据监管服务包含了数据运维监管和数据质量监管两大部分。

数据质量监管:数据作为信息化应用的主体,本身具有多重特性,不仅有适用性、准确性、完整性、及时性、有效性等质量特性,还具有可取得性、可衔接性、可解释性、客观性、专业性、可比性等非质量的应用属性。

所采集原始数据的真实性是确保整个统计数据质量的基础。要对数据质量进行较好地控制,就必须对数据的质量特性进行很好了解,从而在各个方面采取措施,杜绝数据质量问题的出现,使数据监督工作能够真正达到控制数据质量的目的。

数据质量管理可以根据用户的业务规则和逻辑,通过大量内置的质量校验模型对原始的业务数据进行检查,并生成质量检查报告。业务人员可以根据质量检查报告及时修正原始的业务数据,提升业务数据的完整性、一致性、准确性等质量问题,实现改善数据质量的目的。

产品能够分析多种类型的数据源,包括国内外主流的数据库Oracle/MySQL/SQLServer /DB2/Sybase/Netezza/HIVE/HBase/神通/达梦/金仓/通用等;支持 txt/csv 格式的文本数据源校验。同时,可以通过扩展接口配置,提供扩展新数据源功能。

业务数据检查

通过数据挖掘分析出异常数据对异常数据进行检查

质量模型管理

质量模型管理主要负责管理业务校验模型,功能包括新建校验模型、修改校验模型、删除校验模型、搜索校验模型、校验模型分组管理以及分发校验模型。

质量规则管理

质量规则管理主要负责管理系统的质量校验规则,包括对数据质量规则的新建、删除、修改、导入导出等,同时提供质量规则分组管理功能,便于对数据质量规则进行分类。

质量规则扩展

系统除了内置大量已有的通用质量规则以外,还应支持质量规则的自定义扩展能力。允许用户依据具体的行业特性自定义扩展校验规则,具体扩展方式包括常规校验规则,正则表达式校验规则和 JavaScript 表达式校验规则等。

校验维度管理

产品提供完全基于 web 方式的管理和配置,可以提供多种校验维度,包括表间校验、表级校验和字段级校验三种。以上三种不同的校验维度均需内置大量常用的校验规则,满足日常的数据校验需求。

数据质量监控

数据质量监控是对任务最近执行情况的管理与跟踪,主要包括了快速搜索任务、运行校验任务、查看校验报告、检查规则、重置值域缓冲数据等功能。

质量报告管理

针对数据质量校验结果,系统可以出具质量校验报告,报告可以提供在线查阅的功能,能够详细展示每次校核任务的执行结果,判断数据质量问题的具体细节,同时,用户可以通过页面下载所有的错误数据,便于业务人员进行数据修正。

数据质量分析

可以方便的查看各个数据源和某一时间段内的数据健康情况和排名统计,以及系统数据的规则数统计和问题数据量统计等信息,便于用户宏观地掌控系统数据质量情况。

同时,系统提供“数据质量评估统计结果”,“数据质量分数走势图”和“问题数据占比走势图”等统计功能。

错误数据入库

允许用户通过系统配置自定义错误数据写入的目标库。在数据质量校验后, 产品将错误数据自动写入目标库中,用户可以在数据库中查看所有错误数据。

规则权重管理

允许用户自定义校核规则的权重,即可以自定义某一个校验规则的全局权重值,也可以自定义某一个校核方案中具体规则的权重值。成功设定权重值后,质量校核的打分将依据最新的权重值进行计算。

多种码表管理

产品提供数据质量校核码表管理功能,支持业务码表管理和系统码表管理。业务码表管理可以根据用户自定义的数据源,通过 SQL 语句自定义码表内容;

系统码表可通过 excel 模板的填写,批量地导入码表内容。

前置任务管理

前置任务管理完成服务间的联系,实现服务间通信,收发业务模型。提供对前置任务的新建、修改、删除等功能。

任务调度管理

针对执行频率较高或者执行时间较固定任务,可以利用调度管理功能进行精细的作业调度。

产品提供新建调度和关联任务模板的功能。用户可以使用这些功能定义多个调度,并将调度与质量校验任务关联,实现质量校验任务根据调度策略自动执行。

数据运维管理:监控平台运行、标准建设度、数据集成异常动态、代码差异统计动态、数据质量统计动态、以及数据库联动监控;可在线化动态生成数据模型拓扑、数据流向拓扑图。可实时监控数据的动态。平台运维为系统管理员对系统运行状态,数据情况,服务使用情况提供监测界面;提供任务调度机制,对任务进度情况进行实时监控;对任务做配置操作,如数据更新方式、任务调度周期等。

监测界面包含平台监测和数据监测,其中平台监测展示集群服务器运行的状态,包含CPU、内存、15分钟负载、HDFS的空间占用率,并对Hadoop运行组件进行监控,及时掌握系统的运行状态。数据监测为对系统中录入的数据和接口服务状态进行可视化统计和展示,包含录入数据总量、录入表总量、本周数据增量、上周数据增量、所录数据来源分布图、数据趋势图、服务申请TOP10、服务申请统计。(可视化部分需与指挥中心大屏显示系统进行对接)。任务调度实现对数据录入、同步等在执行任务进行任务跟踪和任务的配置。通过数据跟踪可查看正在执行任务的进度和状态,可进行启停操作。通过任务配置,将任务调度机制进行配置和修改,保障系统资源占用合理。

2.4.7、统一的数据服务

数据服务是敏捷的数据虚拟化平台产品,可以将共享数据通过 Web 页面快速封装成 API 接口,以 API 接口形式对外提供数据服务。通过实时统一的数据访问入口提供数据服务,一方面可以屏蔽共享异构数据的复杂性,同时也大幅降低了传统硬编码共享接口的工作量,显著缩短项目工期。

此外,数据服务系统应具备完善的权限控制能力,可以满足用户在多种复杂的应用场景中对数据访问和内容安全的权限控制需求。整合智能数据中台的数据服务能力,快捷的将已有能力授权给外部应用访问使用,服务于各业务系统。提供数据服务资源注册、审批管理,并面向应用开发者提供数据服务申请、授权管理的系统。服务资源管理既可以注册由本地数据仓库服务接口系统提供的数据服务,也可以注册来自其他系统提供的数据服务

系统应采用业界先进的设计理念和成熟的技术路线。架构设计遵循自主可控、安全、高效、开放、稳定的原则,确保整个产品平台的安全性、高效性、易用性、可扩充性和可维护性。其系统功能架构如下所示:

企业数字化转型之数据中台架构、大数据支撑平台、资源库建设方案

产品的系统架构可以分为以下几个部分:

执行引擎:在执行引擎中,系统具备完善的适配模块,可以适配国内外主流的关系型数据库、扩展支持文件数据源以及 NoSQL 数据源等。用户可以依托产品提供的各功能模块完成数据接口封装,权限控制以及 OData 解析等功能。

控制台:控制台负责为用户提供多种管理和监控功能,包括 API 接口调用情况的监控、API 接口维护管理、用户管理和元数据管理等。

第三方接口:系统提供了种类丰富的第三方服务接口,包括 API Gateway 接口以及服务集成类的接口等。通过上述服务接口,用户可以在第三方系统中进行产品的集成和二次开发,以满足用户不同业务场景的功能需求。

  • 数据源管理

产品具备国内外各类主流数据库的访问能力,包括 Oracle、MySQL、SQLServer、DB2、Sybase、PostgreSQL、HBase、神通、达梦、金仓、南大通用等等。同时也支持灵活扩展新的数据源类型。

  • 数据发布

支持基于国际通用的 OData V4.0 标准发布 REST API 标准接口。多表关联

产品既可以针对单表的应用场景发布共享服务接口,也可以针对多表关联的复杂场景,提供数据服务接口的封装,并提供查询、插入、修改和删除等功能。此外,针对多级嵌套的关联查询场景,允许用户在任意的嵌套层级中过滤和

  • 筛选数据。安全管理

产品可以提供完善的数据安全管理能力,具体包括:

设定接口类型:完全公开、需要申请、不公开。

设定接口请求类型:全部、查询、新增、修改、删除

设定数据资源项是否隐藏:针对数据资源中的某一项,管理员可以设定为对外公开或者对外隐藏。

设定查询条件:管理员可以通过自定义 where 查询条件,只返回满足查询条件的数据资源,而非全部数据,满足数据安全控制需求。

提供必填列校验,过滤列筛选校验以及必填过滤列校验等。

用户级别权限控制:针对同一个接口,管理员可根据不同的申请用户,设定返回不同的字段列,也可以通过 where 查询条件,设定只返回满足查询条件的数据资源。

  • 加密解密
  • 访问控制

产品能够以白名单的形式控制 IP 地址访问权限,不在 IP 地址白名单内的服务器无法调用 API 接口。

访问地址控制功能应提供两级设置,包括全局设置和用户级别的白名单设置。全局设置里的白名单可以针对所有用户都起作用。用户级别的白名单功能,可以针对某一个用户,指定允许调用接口的合法 IP 地址。

  • 调试功能

产品内嵌数据服务调试功能,可基于自定义的条件格式和数据内容调试服务接口,便于用户实时掌握接口的健康状态。

  • 审计日志

产品将用户对数据服务的调用时间、调用行为、调用结果、客户端 IP 和登出系统时间等信息都可以持久化到数据库中,形成审计日志以便后续查询审计。

此外,数据服务系统应具备完善的权限控制能力,可以满足用户在多种复杂的应用场景中对数据访问和内容安全的权限控制需求。

服务平台实现的功能要求:

目录服务:在目录服务模块中,产品对所有数据资源提供统一的元数据管理功能。同时,该模块提供了数据资源的注册、发布、审核、申请和订阅等全流程管理功能,满足数据资源日常管理需求。

浏览检索:提供数据资源的全局检索和数据地图浏览功能。

管理监控:提供目录管理和统计功能。

服务接口:系统提供了种类丰富的第三方服务接口,包括管理集成服务接口,以及下载服务接口等。通过上述服务接口,用户可以在第三方系统中进行产品的集成和二次开发,以满足用户不同业务场景的功能需求。

统一数据服务系统具备如下特点:

集中的服务开放门户:提供集中的能力服务门户,提高能力使用效率,降低 服务搜索成本。

统一的服务分享平台:统一汇聚已有的数据和能力,形成汇总视图,供内外 部应用与检索。

统一的能力出入口:快捷的将已有能力授权给外部应用访问使用,是整个数据中台生态的统一能力出入口。

标准化的能力支撑平台:构建数据服务能力、应用服务能力、消息服务能力的 标准化发布模板,降低二次学习成本。

2.4.8、数据共享交换服务

数据交换系统,负责相关数据的传输、交换、格式转换的工作,即数据交换平台,是整个系统的核心支撑。

通过数据交换平台将各个参加节点部门的业务数据汇总到数据中心。利用交换平台实现异构系统的数据采集、可靠信息传输等功能。利用平台提供的适配器功能实现对数据的抽取、加载、格式转换等功能。根据信息资源总体框架建设要求,空间地理信息库、人口基础库、法人基础库、案件信息数据库等都是信息资源的重要组成部份,为此对数据交换平台提出了支撑多个交换域、形成信息资源交换体系的基础要求。

信息资源交换体系建设的核心内容,就是建设信息资源数据交换平台,交换平台是信息资源交换体系的枢纽,通过交换平台与各部门、部门行业专用交换平台实现互联互通,构成支撑跨地区、跨部门信息交换与业务协同的基础设施。信息库系统由交换信息库、共享信息库组成;数据交换平台由交换桥接子系统、前置交换子系统、交换传输子系统、交换管理与监控子系统组成。通过交换桥接子系统将部门需要交换的信息交换到前置交换信息库,在交换管理子系统的流程控制下,通过交换传输子系统、前置交换子系统,把需要交换的信息定向传输到接收部门。

数据交换平台涉及三类不同的角色,分别是:

(1)参与信息交换的政务部门负责建立交换桥接系统(业务系统接口系统),实现内部业务系统与交换信息库内容的同步。

(2)跨部门信息交换协同应用牵头部门负责对经过信息交换平台采集的信息资源的整合、处理、管理与使用,负责本交换域内的交换业务管理。

交换平台支持分布式前置交换和人工上传集中式交换两种交换模式。

1.分布式前置交换

对于信息化建设水平高,业务系统及业务信息库完善的部门,安装交换前置机,将交换平台与部门业务系统隔离开来,保证部门业务系统与业务数据库的独立性,同时保证部门业务网络、业务系统的安全。交换前置机上安装部门前置交换信息库,保存部门对外交换共享的数据和从交换平台接收的数据。部门业务应用数据库与前置交换数据库之间通过信息交换桥接实现交换信息的实时同步。

2.人工上传集中式交换

对于信息化建设基础相对较差,业务信息系统建设不完善的部门,采用人工上传/下载的方式实现集中式交换。发送数据时,利用信息交换交换中心的数据上传网站,部门将需要交换的信息以XML、文本文件、EXCEL文件形式上传到交换中心,交换中心配置的适配器将上传的数据发送到信息交换平台,并经信息平台发送到相应部门。接收数据时,由交换平台负责生成数据交换文件保存到指定的目录,部门通过数据上传网站下载所需数据文件。

数据交换平台,以多个部门为交换节点,各交换节点各自负责部门内纵向信息汇聚与分发,通过数据交换平台实现多部门的数据共享与交换。

总体建设框架包括:交换网络、交换前置机、前置交换信息库、信息交换平台、信息交换桥接等。其中的交换网络基于市电子政务外网。

(1)交换网络:连接各交换节点前置机、交换中心交换服务器的网络。

(2)交换前置机:由操作系统、前置交换信息库、信息交换通讯接口、前置交换安全管理模块组成。

(3)前置交换信息库:各参与交换部门及交换中心之间共享信息双向交换的中转数据库。包括部门对外发布的信息和从其他部门接收的信息。

(4)数据交换传输:实现不同部门前置交换信息库之间安全、可靠、稳定、高效的信息交换传递系统。

(5)数据交换桥接:由部门业务应用信息库到前置交换信息库之间的信息交换桥接接口,以完成两个信息库之间的在线实时交换。

(6)数据交换路由:实现市区两级数据交换平台的对接。

(7)管理与服务系统:由数据比对、交换库管理与维护、日志管理、用户及权限管理、数据备份以及对整个交换运行情况的监控等部分组成。

系统总体框架如下:

企业数字化转型之数据中台架构、大数据支撑平台、资源库建设方案

图:系统总体框架

如图所示,数据交换平台依托于电子政务网络,由交换桥接子系统、前置交换子系统、交换传输子系统、交换路由子系统、交换管理与监控子系统等组成。各参建单位通过前置交换系统接入交换平台,通过交换平台完成数据的共享与交换,通过交换平台的交换路由子系统实现与数据交换平台的无缝对接。

前置交换子系统

为确保各部门的原有系统的运行不被资源整合所影响,保障原系统的数据安全,使用前置机作为各部门与数据交换平台进行数据交换的窗口,也可认为它是各部门的业务系统与数据交换平台之间的数据流动中转站。它一方面从各业务系统提取数据,向数据中心提交;另一方面从数据中心接收数据,并向业务系统传递数据。同时,前置机也具备缓存交换数据,对数据进行过滤、加工和展现的功能。这样可以有效规避潜在的信息安全风险。它由网络通信系统、操作系统、交换信息库、前置交换环境、交换服务配置工具等组成。

公安、计生、劳动、民政、卫生、工商、质监、国税、地税等部门配置交换前置机,成为与信息交换总线相连接的桥梁,同时也是与部门内部业务系统及业务信息库相隔离的“堡垒”。在部门前置机上安装前置交换数据库、应用适配器系统以及桥接系统,用于实现信息的发送和接收。

(1)前置交换数据库

部门交换前置机安装MySQL数据库作为部门前置交换信息库。部门前置交换信息库,即为部门业务信息采集库,通过桥接系统将部门信息导入到部门业务信息采集库中。

(2)应用适配器系统

部门交换前置机安装应用适配器系统。应用适配器系统负责自动从部门前置交换信息库提取数据发送到信息交换总线,同时,从信息交换总线上获取信息并存储到部门交换信息库。

(3)桥接系统

部门交换前置机上的桥接系统,实现部门业务信息库与部门交换信息库之间的信息交换桥接功能。

(4)交换传输子系统

交换传输系统即消息总线系统,作为前置交换系统之间的信息交换通道,实现交换信息的打包、转换、传递、路由、解包等功能。

(5)交换桥接子系统

交换桥接系统是部门业务数据对外共享的双向接口。它负责将部门业务数据提取到前置交换系统中;也负责将前置交换系统中共享数据导入业务部门。

数据交换平台是系统间无缝共享数据、连通信息孤岛的高速公路,由数据交换管理模块、核心元数据审批模块、适配器模块、数据传输设计模块,权限设计模块,安全性和稳定性模块,易扩展,易用性模块组成,提供点对点的数据共享机制,有效的减轻了中心负担,实现系统的负载均衡,保证数据安全可靠高效的转递。

数据共享交换系统也包含数据中台内部系统间的数据交换共享,采用B/S模式设计;实现了集中管理灵活配置,用户只需通过简单的操作,就可完成数据共享交换的配置。通过适配器图形化拖拽的方式,简单的配置来实现。

系统采用SOA框架,很好适应未来的扩展需要。可以方便的扩展节点数量,在服务器上部署新的数据交换应用和更新数据交换原有应用。对传统的消息中间件进行了改进,实现节点的热部署,热配置。能实现节点的一次性添加。

文件交换引擎:提供基于文件交换任务的大文件交换能力,提供文件交换故障恢复、文件断点续传能力。

库表交换引擎:提供基于库表交换任务的大数据量交换能力,提供库表交换故障恢复、数据续传能力。

文件交换任务服务:提供文件交换任务配置服务,包含定期交换任务、按需交换任务。

库表交换任务服务:提供库表交换任务配置服务,包含定期交换任务、按需交换任务。

文件交换监控:提供文件交换过程的监控分析,确保文件交换过程的透明、可控。

库表交换监控:提供库表交换过程的监控分析,确保库表交换过程的透明、可控。

2.4.9、数据中台服务可视化服务

基于H5的可视化图形及交互引擎。支撑完成可视化组件构建、渲染、呈现及生命周期管理,支撑组件间消息通信、参数化、预警等基础功能。

基于H5的丰富的可视组件库。包括多 种基于可视化引擎开发的丰富、立体、全面的可视化图形库,同时支撑2D呈现能力,支撑静态和矢量图,支持数据动态绑定。组件可复用性强,可基于此组件组装配置复合组件,可在应用主题中按需组合配置。

可视化组件在线配置。提供可视化组件在线配置界面,用户可通过浏览器自行配置可视化组件布局、大小、颜色、状态、皮肤、自适应性指标等,配合的生效范围可控制在用户级、系统级。

可视化组件动态关联。提供可视化组件相互通信、参数传递易用性配置方法,允许客户定制化组件间参数传递及交互逻辑。

本次数据中台的可视化主要支队的是数据汇聚和服务调用的可视化展示。

数据汇聚可视化展示:可通过地图化的方式,可视化的展示,数据总量,数据类型,每种数据的来源等,提供了数据标注,及数据报警提示功能。

服务调用可视化展示:可呈现近一天、近一周、近一月的各类服务类型的调用汇总情况,包括服务所属应用服务名称,调用应用名称,总调用次数,成功调用次数等。通过仪表盘提供数据服务系统概览,包括“数据源数量”、“接口数量”、“用户数量”等数据。此外,仪表盘还应提供“接口访问趋势图”、“用户访问 TOP”、“接口访问 TOP”等分析数据,并允许用户自定义时间段进行联动数据的统计分析。

2.4.10、大数据支撑平台

大数据支撑平台是整个虎丘公安大数据体系架构的基础,其建设目的就在于为数据存储、数据处理、分析应用搭建环境以及所有的功能组件支持。支撑平台既承载了公安数据的管理,为上层公安应用提供数据支撑。它统一管理、集中存储了公安的各种数据,保证数据质量。同时提供多种数据计算引擎供应用选用,以更好挖掘数据价值。

建立全局大数据基础支撑平台,包括Hadoop大数据分布式架构、分布式缓存数据库、全文检索库等,需满足全局各单位的数据需求和应用需求。建成后能够实现大数据的存储、实时分析挖掘、离线分析挖掘、在线查询统计及全文检索等功能。

Hadoop大数据支撑平台的主要要求如下:

(1)实时计算服务:基于Spark、Kafka提供流式实时计算。提供标准JDBC接口,方便上层服务接口访问底层数据,通过查询服务接口,实现高效查询效能。基于Sqoop实现不同来源数据接入,将数据以文件形式分布式存储在HDFS中,包括历史数据,增量数据;

(2) 离线计算服务:基于MapReduce以及Hive提供离线计算服务,对海量数据提供复杂批处理;

(3) 分布式缓存数据库:提供实时比对服务和搜索算法,满足实时比对、布控业务场景要求;

(4) 全文检索:提供实时检索服务,基于ElasticSearch的全文检索引擎架构,提供完整的查询检索和索引检索,实现分布式全文检索功能;

(5) 需要提供可视的各个组件的监控管理UI平台。

具体技术参数指标要求:

(1)开放性,成熟性要求

必须是采用当前先进且成熟技术的,具备分布式集群扩展能力的数据管理系统产品,并符合未来大量新增数据管理技术的发展潮流;

(2)海量数据处理和高性能要求

数据中心应有强大的处理能力,应遵循主流大数据处理架构(Hadoop架构),支持先进内存数据分析引擎(Spark),支持基于Hive的数据仓库建设,能够支持多计算节点并行处理,支持的大数据组件包括DFS、Hive、Spark、HBase、Sqoop、ZooKeeper、ELK、Kafka、Flume、Pig、Mahout、HAWQ、PXF、Oozie、Storm、Accumulo、Atlas、Kerberos、Ranger及KMS等。

提供单节点多队列服务机制,最大程度发挥每个计算节点的处理性能;应能在系统资源低负担的条件下提供最高的并发度和最大的吞吐量;在集群环境中支持节点内和跨节点并行处理技术;

应支持大数据量处理的数据分区等优化大数据量处理的技术,支持数据分区,表分区、多维数据分区等分区技术,分区方式不受CPU数量、节点数量等影响;

(3)可靠性和高可用性要求

应支持7×24不间断的运行处理;

支持灵活的数据备份/恢复功能,支持多数据副本,单一磁盘损坏时,数据不丢失,业务不中断;

应提供软件容错机制,包括数据库、日志镜像、自动恢复和集群机制,具有高度的数据可靠性、容错能力、完整性和有效性;

平台软硬件系统平均无故障运行时间(MTBF)≥2000小时,平均故障修复时间≤2小时,系统可用度≥99.9%。

(4)可扩展性要求

应支持集群服务节点扩容功能,支持集群中节点的存储扩容功能,支持自动负载均衡;

最大可扩展节点数目应大于256个,有大于32节点的测试结果或大于4个结点的应用实例可参照。

(5)安全性要求

应达到多级安全控制,支持数据存储加密、数据传输通道加密;

应支持存取控制、身份识别、角色划分、追踪审计等安全机制;

软件公司负责在软件代码设计、账号权限管理、系统配置等方面确保通过等级保护要求和风险评估测评。

(6)易管理性要求

提供统一的图形化数据中心管理工具,可对数据中心网络上的硬件平台和软件系统进行集中式的统一管理;

可以提供图形界面的数据性能监控和动态性能调整等功能,具有对软件系统自动参数调优功能;

支持对数据中心服务组件的启停状况、组件集群的运行状态进行监控;

支持对数据中心数据管理工具进行图形化界面参数配置,支持一键安装、一键扩容。

(7)兼容性要求

要求保证投标产品为当前主流产品,并保证未来至少5年的持续研发能力和扩展能力,并提供与未来替代产品的平滑迁移能力。

(8)性能要求

本期项目各业务处理部分依靠网络和集中部署的分布式计算机系统实现。要求具备较强的分布式数据处理计算能力;服务器并行处理和数据集群处理能力。系统用户访问性能:用户并发数≥500;要求系统能迅速的对用户响应,在峰值网络连接情况下,响应时间≤3秒。峰值网络连接情况下,发送、接收5M文件≤5秒(假设失败重传率达到20%)。每发送/接收小于10M的数据发送/接收成功率应在99.9%。

 数据检索性能:要求对文件或数据的全文检索;3秒内返回检索结果;要求分布式高效检索,可以通过扩充节点增加检索性能;要求针对专题数据或指定数据表的全文检索,3秒内返回检索结果;要求实现针对不同数据类别进行高级检索,3秒内返回检索结果;

 数据可视化展现性能:数据可视化前端展示页面,要求每个页面加载时间≤3秒。

继续阅读