APP下载

基于数据中台的产业数据治理系统的设计与实现

2022-05-09王晓波

电脑知识与技术 2022年7期
关键词:数据融合数据治理数据采集

摘要:文章提出了基于数据中台的产业数据治理系统,介绍了系统总体架构,详细阐述了数据采集、数据清洗、数据融合以及数据服务等功能。通过系统建设,解决产业数据分散和产业数据分析欠缺等问题,提升产业数据治理能力。

关键词:数据中台;数据治理;数据采集;数据融合;电子政务

中图分类号:TP311        文献标识码:A

文章编号:1009-3044(2022)07-0022-02

2020年8月,习近平总书记在合肥主持召开扎实推进长三角一体化发展座谈会指出“要发挥数字经济优势,加快产业数字化、智能化转型,提高产业链供应链稳定性和竞争力”。当前,我省重点产业发展态势良好,但是产业数据分散,产业数据分析和应用能力欠缺,亟须构建产业数据治理系统对产业数据进行统一汇聚、治理、分析和应用,加快强链补链和产业集聚速度,提升产业治理能力。

1 数据中台

中台是相对于前后台而生的概念,中台是前台和后台之间联动的齿轮,将其共有的工具、技术、服务等进行梳理和集成。数据中台是按照业务、技术和管理等数据标准对分散在不同地方的数据进行统一的采集、处理、融合、计算、存储、共享和应用等,是集数据采集、数据清洗、共享融合、组织处理、建模分析、数据管理和服务应用于一体的平台。ThoughtWorks 数字化转型专家史凯认为,“数据中台是聚合和治理跨域数据,将数据抽象封装成服务,提供给前台以业务价值的逻辑概念”。数据中台主要为了弥补数据开发和应用开发速度不匹配的问题,使应用开发不受数据开发的影响,快速响应业务的创新,加速从数据到业务价值的过程。

2 系统架构

通过批量交换、接口调用和动态采集等方式,交换汇聚相关政府部门的企业主体、园区、人才、专利、创新平台和税收等数据以及互联网和第三方机构等相关数据。按照相关数据标准,将汇聚的数据进行抽取、转换、融合等,形成企业信息库、产业载体库、人才库、专利库、事件库、项目信息库、指标库、规则库等产业主题库,并对外提供数据服务[1-3]。

3 系统功能

3.1 数据采集系统

实现对政府部门、互联网和第三方机构等多源数据的采集,主要包括库表交换、文件解析、服务接口、人工导入等方式[4]。

(1) 库表交换:数据提供方将数据推送至指定服务器的数据库中,数据接收方将数据直接提取加载至数据库表中。

(2) 文件解析:数据提供方根据约定的数据格式定期将数据打包成数据文件推送至指定服务器的特定位置,数据接收方进行自动提取、解析、加载入库。

(3) 服务接口:数据接收方按照数据提供方提供的数据接口(webservice、API等)规范及查询方式,开发定制化的数据提取、解析、加载任务。

(4) 人工导入:对于部分无法自动对接的数据,需要利用文件导入工具进行加载入库,包括提供文件导入模板、自动加载入库等功能。

3.2 数据处理系统

数据处理系统主要实现对数据的清洗转换以及对清洗后数据的融合。

3.2.1 清洗转换

对各个来源的数据进行抽取、清洗、转换、加载,形成符合数据标准的结构化与半结构化数据,同时对处理后的数据进行复核校验,保障数据清洗的准确性。

(1) 数据抽取:包括全量抽取或增量抽取,根據具体业务制定抽取的时间和频率等,其中增量抽取采用基于时间戳方式。

(2) 数据清洗:对抽取过来的数据进行清洗处理,包括数据过滤、数据剔重、类型转换、编码映射、拆分与合并、维度转换等功能。从数据的准确性、完整性、一致性、时效性、合理性和唯一性等方面进行考虑,确保数据的质量。

(3) 数据转换:按照一定的转换规则将数据转换生成新的数据并存放至新的数据库表或数据字段中,支持数据字段之间一对多、多对一以及多对多的映射关系。

(4) 数据加载:将抽取与清洗转换的数据准确、及时地存储到不同的库中。在数据加载过程中,针对数据加载中断或者出错,支持采用断点续传、一致性数据保障等方法进行过程控制。

(5) 复核校验:主要包括规则校验、质量稽核、数据纠错。规则校验是指在数据处理过程中,通过ETL工具,针对特定的数据项的数据规范,制定校验规则,当数据清洗结束,进行数据入库加载时,执行校验规则,将不符合数据规范的记录进行标识并进行流转处理,直至数据符合规范。质量稽核是指对已经进入主题数据库的数据记录,根据数据规范及数据字段之间存在的特定关系,制定不同的质量检测规则,定期执行,将不符合质检规则的数据进行标识并进行流转处理。数据纠错是指对已经进入主题数据库或已在应用系统中使用等数据记录,设计数据纠错机制,标识可能的错误数据,反馈并进行流转处理。

3.2.2 数据融合

结合实际业务,对数据进行多源异构融合、实体关联、打标处理、指标计算和模型运算等处理,提升数据资源利用水平。

(1) 多源异构融合:紧密结合业务,制定融合规则,实现对不同来源(如政务数据、互联网及第三方数据等)的同类数据进行深度融合,为业务运转提供数据支撑。

(2) 实体关联:以企业、人物、区域等实体唯一性为基础,将产业载体数据、企业数据、专利数据、投资数据、资讯数据等进行融合关联,实现对实体的全面性认知,为区域产业评价体系分析、企业评价等提供数据支撑。

(3) 标签处理:依据产业数据标签体系,通过对数据进行达标处理,实现基础数据与标签体系之间的关联。产业数据标签体系包括企业标签体系、人才标签体系、专利标签体系和产品标签体系等。企业标签体系包括企业价值标签(上市企业、规模以上工业企业、高潜力、高价值技术拥有者、多领域投资等)、企业资质标签(特精高企业、高新技术企业、A级纳税人等)、企业所属产业标签(新一代信息技术、人工智能、新能源汽车、新材料等)和企业行为标签(融资、投资、行政处罚等)。人才标签体系包括人才类型标签(学术人才、科研人才和投资精英等)、人才所属产业标签等。专利标签体系和产品标签体系主要以所属产业标签为主。

(4) 指标计算:将统计分析、区域评价模型、企业评估模型等指标体系中指标化,配置并计算指标数据,并将指标数据的计算结果写入指标数据库表中。

(5) 模型运算:以各类实体的关联数据、指标数据为基础,构建区域发展评价模型、区域发展对标模型、企业评估模型等后,通过数据的提取、转换、加载和融合,然后计算获得模型的输出结果,并将输出结果写入数据库表中。

3.3 数据服务系统

基于产业数据治理系统提供的计算和存储等基础支撑能力,利用行为分析、文本挖掘、全文检索等多种信息技术工具,为相关应用系统提供数据支撑服务,同时对外提供数据共享、统计分析、查询检索、可视化展示等服务。

3.4 数据管理支撑系统

3.4.1 元数据管理

元数据管理包括数据字典管理、数据标准管理和数据血缘分析。数据字典管理对各个数据库模型(表单)数据项、数据结构、数据流、数据存储、处理逻辑等进行定义和描述。数据标准管理[5]对各项数据的规范标准进行定义与管理的功能,包括业务范围、数据来源、数据更新频率、数据项规范等。数据血缘分析对数据进行从归集到处理再到应用的全过程跟踪管理。

3.4.2 主数据管理

主数据管理[6]实现对各类标准化的核心产业数据的可视化管理,包括数据资产查询、单表记录检索、单表记录操作等功能。

(1) 数据资产查询:构建完整的产业数据资产资源目录,设计资源检索功能,支持对数据资产的模糊检索、精确查找等。

(2) 单表记录检索:针对选择的数据表单进行数据检索。检索功能包括显示字段选择、去代码化的数据筛选条件编辑等。支持模糊检索、精确检索、多条件并行的高级检索等。

(3) 单表记录操作:支持对数据表单的记录新增、记录修改、记录删除等操作,同时支持数据以Excel的方式导出,方便使用。

3.4.3 数据质量管理

对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段的质量进行识别、度量、监控、预警等一系列管理活动,包括规则校验引擎配置管理、质量稽核引擎配置管理、数据纠错和质量管理中心等。

(1) 质量规则引擎配置管理:为规则校验提供质量校验规则的配置和管理。

(2) 质量稽核引擎配置管理:为质量稽查提供质量检测规则的配置和管理。

(3) 数据纠错:为数据使用者提供发现数据错误反馈机制,及时处理、及时反馈,包括数据标记工具、后臺提醒、纠错反馈等功能。

(4) 任务管理中心:将经由质量规则引擎、质量稽核引擎及数据纠错发现的数据质量问题进行集中归集与分发处理,主要包括任务检索、新增任务提醒、任务分配、任务处理、任务反馈等功能。

3.4.4 数据应用管理

(1) 标签体系管理:为各类标准化标签体系提供标签的构建、管理、变更等功能。

(2) 指标体系管理:为各类指标体系(如企业、人物、区域等主体进行统计分析、评估评价等相关指标体系)提供指标的构建、管理、变更等功能。

(3) 算法模型管理:为各类算法模型提供集中化的管理记录工具,包括算法模型设计思路、数据模型设计方案、模型构建等内容。

3.4.5 数据调度体系

在数据处理过程中,对ETL工具配置的任务进行管理,包括ETL任务管理、调度监控管理、日志管理、异常监控预警。

(1) ETL任务管理:对ETL任务进行集中管理,包括启动、禁止、执行周期维护、任务维护等。

(2) 调度监控管理:对ETL任务进行进度监控管理,并根据任务紧急度、临时资源分配调整等情况,对ETL任务的执行进行干预处理。

(3) 日志管理:对ETL任务的执行日志进行维护,进行必要的任务执行分析及错误核查等工作。

(4) 异常监控预警:对任务执行过程中的异常状态设置预警机制,包括任务执行超时、资源不足、任务失败等。

3.4.6 数据安全管理

主要包括数据加解密、数据脱敏、分级分类、行为审计等功能。

(1) 数据加解密:在数据传输和数据存储时可选择不同的加密算法进行加密,确保数据可信传输和存储。在接收数据和使用数据时使用解密算法进行解密,得到所需要的数据。

(2) 数据脱敏:实现对敏感性信息的脱敏,包括新增、修改和删除脱敏的数据项及脱敏规则等。

(3) 分级分类:实现对用户的分类、分级的授权管理,控制用户能够按权限访问数据,加强用户身份安全管理。

(4) 行为审计:记录用户对数据的所有访问和操作记录日志,并对用户的行为进行分类统计和分析,对用户的违规访问和危险操作进行告警。行为审计内容包括:用户登录审计、用户访问审计和用户操作审计等。

4 结束语

该系统的设计与实现立足产业分析和产业监测的需求,设计了数据采集系统、数据处理系统、数据服务系统和数据管理支撑系统,详述了数据采集的方式、数据清洗和数据融合的方法等。通过产业数据治理系统的搭建,有效拓宽了产业数据的渠道,提高了产业数据质量,提升了产业数据治理水平,为产业监测、产业分析和产业决策提供了数据支撑。

参考文献:

[1] 芮忠.基于数据中台的数据治理系统的实现[J].科技创新与应用,2020(26):39-40.

[2] 胡锐,芮忠.基于数据中台的高校数据治理系统的设计[J].电子世界,2020(12):187-188.

[3] 姚洪.基于数据中台的数据治理系统的设计与实现[J].科学技术创新,2020(35):74-75.

[4] 王逸晨.基于数据共享及开放的数据治理体系研究[J].中小企业管理与科技(中旬刊),2020(6):154-155.

[5] 吕渊.高校的数据治理系统的设计与实现[J].电子技术与软件工程,2020(10):157-158.

[6] 胡志伟,汪振强.关于大数据治理的研究与分析[J].时代报告,2014(7):177.

【通联编辑:代影】

收稿日期:2021-07-26

作者简介:王晓波,高级工程师,硕士研究生,主要研究方向为电子政务、数据分析和软件工程。

猜你喜欢

数据融合数据治理数据采集
基于本体的企业运营数据治理
云端数据治理初探
基于数据融合的家庭远程监护系统研究
基于开源系统的综合业务数据采集系统的开发研究
船舶动力定位中的数据融合技术文献综述
大数据治理模型与治理成熟度评估研究
基于信源编码的数据融合隐私保护技术
大数据时代城市治理:数据异化与数据治理