APP下载

智慧城市数据支撑平台的构建和数据质量管理概述

2020-12-21陈龙生

科学与信息化 2020年28期
关键词:数据集成数据质量数据处理

陈龙生

摘 要 本文主要讨论智慧城市中数据支撑平台的实现技术,包括数据集成系统和数据处理系统两部分。数据集成系统采集各类数据,采用最合适的处理机制,快速构建各类基础主题库和主题库,数据处理系统对数据进行加工处理,实现数据资产的统一管理。文章最后讨论数据质量管理的常用规则,并且给出部分规则算法的实例。

关键词 智慧城市;数据集成;数据处理;数据质量

背景

智慧城市是运用信息通信技术,有效整合各类城市管理系统,实现城市各系统间信息资源共享和业务协同,推动城市管理和服务智慧化,提升城市运行管理和公共服务水平,提高城市居民幸福感和满意度,实现可持续发展的一种创新型城市[1]。要实现信息共享和业务协同,需要打通各系统数据,并且将分散的异构数据源进行抽取、清洗、转换、集成、处理,实现数据的统一管理,这就对数据支撑平台有了很高的要求。数据支撑平台作为智慧城市的基础平台,对上要支持各种应用开发,对下要无缝衔接,做到各系统协同优化。

1实现技术

数据支撑平台包括数据集成系统和数据处理系统两部分,以确保智慧城市业务的建设和实施。

1.1 数据集成系统

数据集成系统通过分布式数据处理和任务调度,高效完成数据集成,提高数据处理效率、规范开发流程,快速构建各类基础主题库和主题库。系统把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,并保持各系统数据的标准化以及规范化,从而为智慧城市提供全面、可靠的数据应用和数据共享服务。

数据集成系统针对各式各样的数据,包括结构化数据、半结构化、非结构化数据等类型,不同的数据类型应采用最合适的处理机制,要通过任务管理、调度管理进行各类任务的流程化处理。从数据归集到数据融合,从数据检核到数据入库,最大限度地应用自动化的生产工具,提高处理效率与质量,同时在整个处理过程中,要通过监控管理实时掌握流程运行状态,并提供充分的错误处理机制,以保证在合适的时间、合适的地点有最合适的数据可以使用。

为配合各系统数据采集,数据集成系统应提供多种结构化数据源配置管理,支持采集的多种类型的数据库,包括国内外主流的关系型数据库如Oracle、MySQL、SQLServer、达梦、金仓等,以及HBase、MongoDB和HIVE等,以及灵活的扩展新的数据源。

1.2 数据处理系统

数据处理系统通过对数据全生命周期管理,实现数据模型标准化、数据关系脉络化、数据加工可视化、数据质量度量化,实现数据资产的统一管理及全业务流程的实时监控,可有效解决数据资源不可知、数据质量不可控、数据关系不可联、数据脉络不清晰的痛点问题。

(1)数据元管理

数据元管理主要包括新增、导入、发布、检索、修改、删除、停用等功能。一方面要支持数据元版本管理,包括不同版本之间的差异核对功能,另一方面要支持快速创建标准数据元,并建立和相关元数据的关联关系。部分数据元的值需要满足固定格式的标准,数据处理过程中需要通过固定的值组成规则来规范数据源值的格式,例如身份证、手机号码、邮箱、日期等格式。

(2)标准代码配置

标准代码配置要支持代码分类和标准代码项的新增、导入、导出功能,提供标准代码维护的能力。标准代码配置可关联到各类标准的代码字典,为数据的规范性提供更加详细的描述,为后续的数据质量、数据标准等工作提供支撑。

标准数据元具有唯一的编码(标准代码),按照实际的业务领域进行分类之后,可以形成带有业务领域特征的相关编码,比如“ZRR00001”代表自然人相关的数据元标准代码。

(3)元数据管理

元数据是对数据中心所有维护数据的一个结构化的业务定义,主要是对中心所有的库表的数据进行统一管理和监控,为数据的标准化运维以及数据的质量检查等工作提供相关基础。

元数据采集管理包括手动新增、配置采集、结构管理、结构物化、变更对比等功能。元数据主要包括库表、字段、视图、存储过程等,通过新增或采集将需要纳管的元数据结构自动化分析收录,同时在管理功能中可针对修改更新后的元数据结构进行数据库同步物化操作。

2数据质量管理

数据质量管理通过对各数据处理环节的监控,为智慧城市建设提供有效的数据质量监督和保障,同时为智慧城市数据的标准化输出奠定基础。

2.1 数据质量

数据质量主要包含准确性、真实性、完整性、全面性、及时性、即时性、精确性和关联性[2],通过对数据分析管理,并对数据进行跟踪处理,实现对数据质量的全程管控,提高数据的质量。

质量模型由一套实体表、一套规则以及多套质检方案组成,用户在定义质检方案时,可以根据业务需要选择实体表和规则,不同方案之间相互独立。通过执行模型下的质检方案,可以得到用户关心的数据质量分析结果,如问题数据明细信息、数据质量分析报表等。

2.2 常用数据质量规则

数据质量规则是数据质量审核的逻辑校验标准,是数据质量监控管理的基础。以下列举常用的数据质量规则:

空值检查,用于检查字段非空。

值域检查,用于检查字段的取值范围,包括数值型、字符型、日期型等。

规范检查,用于检查指标值的格式是否规范,包括身份证、电话号码、电子邮箱等多种数据类型的检测[3]。

逻辑检查,用于检查指标之间是否满足一定的逻辑关系。

重复数据检查,用于检查表内是否有重复数据,比如groupby重复依据字段,如果count()>1则算重复。

及时性检查,用于检查数据的及时性,衡量数据抽取或数据上报是否及时,比如算出上报时间字段的值,将上报时间与最佳上报时间作比较,看是否在允许误差范围内。

完整性检查,包括记录完整性和引用完整性。

记录完整性检查用于检查实体表字段与比照字段的数据量、数值是否完全一致,比如对检查表字段和比照字段进行groupby并求count,根据两个字段groupby的结果来outerjoin,count不相等或检查字段值和比照字段值有一个为空时,此行结果都算错。

引用完整性检查用于判断实体表中的数据是否完全存在于比照表中。实体表检查字段中的数据必须全部存在于比照表的比照字段中。比如,实体表的检查字段关联distinct后的比照表的字段,关联后,如果比照字段为空,则检查字段的值非来源于比照表,则该规则对应结果为false。

依据质量规则执行的实际需求,可通过图形化界面配置多种质检规则并组成可执行方案,依据执行规则管控平台自动执行质量规则检查。质量规则执行触发方式可按固定时间周期(如月、周、日)、事件触发等,并且可查看质检方案执行记录,实现对数据质检全流程管控。

参考文献

[1] 智慧城市術语:GB/T37043-2018[S]北京:中国标准出版社,2018.

[2] 赵兴峰.企业经营数据分析——思路、方法、应用与工具[M].北京:电子工业出版社,2016:215.

[3] 牛丽雪.政府数据治理成熟度模型研究[D].保定:河北大学,2020.

猜你喜欢

数据集成数据质量数据处理
电容式传感系统数据处理电路的设计
基于ARCGIS 的三种数据处理方法的效率对比研究
高层建筑沉降监测数据处理中多元回归分析方法的应用研究
高层建筑沉降监测数据处理中多元回归分析方法的应用研究
视频大数据处理的设计与应用
浅析统计数据质量
金融统计数据质量管理的国际借鉴与中国实践
浅谈统计数据质量控制
成本与制造数据集成分析
基于Biztalk的异构医疗信息系统数据集成研究