APP下载

高校数据质量管理技术研究与实践

2019-11-15樊建永刘洋

卫星电视与宽带多媒体 2019年12期
关键词:数据质量数据管理教育信息化

樊建永 刘洋

【摘要】本文通过对高校数据管理过程的梳理,提出高校数据质量管理的方法、步骤及主要技术框架,并对数据质量管理过程中的数据标准建设、数据采集、数据预处理等问题进行研究与实践,将数据管理从单纯的技术操作层扩展到技术、业务、管理相结合的复合模式,让数据更好的支撑学校各部门的教学管理,从而提高管理水平和工作效率。

【关键词】数据质量;数据管理;教育信息化

目前高校信息化已得到长足发展,数据中心已积累了大量的教学、科研、管理等数据,然而数据的质量参差不齐,数据的共享大部分也仅限于主数据的交换,数据的可用性并不高,因此通过数据管理系统,将数据质量管理从单纯的技术操作层面扩展到“技术+业务+管理”的复合模式,将数据质量管理的参与者从信息管理部门推广到全校各业务部门,实现数据的全生命周期管理。对于数据管理部门,通过数据质量管理系统能够以全局视角观察数据在其产生、流通、留存、使用、变化和归档过程中的状态,另外可以查看各部门在数据使用、维护、变更过程中的参与程度和状态反馈,不仅对数据的质量、数量、更新频度及规范性进行方便的管理,还能高效安全的将数据提供给用户,服务于一站式门户、数据填报、决策支持等综合性业务管理,充分发挥数据的价值。

数据质量管理流程主要包括数据调研、数据标准制定、数据识别、数据采集、质量检查、清洗转换和标准数据入库几个步骤,如图1所示。

1. 数据标准制定

数据标准的制定,以业务分类和业务规范为指导,以符合学校管理和业务模式为原则,引入学校正在使用的代码实际标准,尽量减少对原有业务系统及管理过程的影响。最终生成的数据仓库应按照标准规范进行数据分类和数据模型定义,并进行统一的管理。

数据标准制定包括数据标准的编制、审查、发布三部分。数据标准管理部门将数据标准通过数据管理平台发布展示,并将发布后的数据标准、版本说明保存备案。对数据标准的变更将及时更新至数据标准管理平台。

按照教育部颁布的教育管理数据标准的要求,在高校管理信息的基本体系结构、数据元素的元数据结构的基础上,还需做以下几个方面的优化,第一表结构优化,需要结合学校实际数据使用场景进行表结构的优化。第二对扩展命名的规范,例如部标中定义的数据对象包含表、字段、代码集,校标需要在此基础上扩展数据开发、过程管理、接口管理等命名规范。第三代码集优化,校标在部标代码集的基础上需要扩展学校相关属性的代码表。第四新标准补充,因为部标是通适性的规范,因此需要在部标的基础上扩展学校特有的标准内容。

在数据标准制定的过程中,数据生产部门参与数据标准的收集和整理工作,并按照协商一致的原则形成数据标准初稿。在对数据标准初稿进行讨论完善后,形成数据标准送审稿提交给学校数据标准管理部门,经过数据标准管理决策者的讨论审核后,由学校数据标准管理部门再次进行数据标准的修改完善,最终完成数据标准的发布。

最终形成的数据标准体系内容应包括元数据标准、代码标准、编码规范(如学号、工号、房间号、部门编号等编制规则)和对象命名规范(如表、字段、接口、文档等统一命名规则)。

2. 数据的采集

根据高校当前的数据现状,大部分业务数据已完成了数据归集,还有部分业务数据需要从数据生产部门收集,对于批量的数据集成可以直接通过ETL工具将全量业务数据采集到预处理数据库。

对于网络设备、安全设备以及服务器产生的日志数据,采用FTP方式将日志文件推送到日志服务器;对于其他非结构化数据以HBASE数据库或者以HDFS文件的方式存放。除了在线的信息系统数据外,对于线下的电子表格数据,采用工具導入到关系型数据库进行存储。对于图像数据以BLOB大字段的形式存放在关系型数据库或者分布式数据库中,也可以直接通过ETL工具采集到HDFS中进行存储。

数据采集过程主要包括以下几个步骤,第一识别有效数据,通过数据字典的指引,对原始数据进行识别理解,从中甄别出有效的数据(即数据标准所对应的数据范围),并进行相应的标注,例如是否主数据、是否关键过程数据、备注等。第二数据采集映射,数据识别完成后,即通过配置ETL转换,将数据从源库加载到目标库。除了需要记录表与表之间的映射关系外,还需要进一步记录字段与字段之间的映射关系。第三元数据标识过程,主要是建立元数据模型,并对模型数据进行初始化。

3. 数据质量核查

数据质量核查是数据采集识别后的关键步骤。数据质量核查主要包括三部分,第一配置质量检测规则,并将质量规则绑定到对应字段上,一个字段可以同时绑定多个规则;第二执行数据质量检查;第三输出质量检核报告。

3.1 设置质量规则

在进行数据质量检测前,配置数据质量检测指标、检测规则(分为值域正确性、枚举正确性、正则匹配性、关联一致性),配置规则应与学校业务系统要求相对应,并由业务部门进行逐项确认。

3.2 绑定字段

在设置了数据质量检验规则后,将相应的字段和规则进行绑定,然后按照规则选择数据字段进行规则检验。比如,年龄字段需要绑定对应的值域规则(0-100),电话号码、电子邮件字段需要绑定相应正则规则等。

3.3 输出质量报告

全面及时发现已有数据的质量问题是数据后期治理的重要依据,数据质量报告应考虑完整性、唯一性、一致性、准确性、合法性、及时性等因素。通过数据质量规则定义,结合数据质量报告,可以深度挖掘当前数据质量存在的问题及所需改进的部分,并按照数据管理手段督促相应的业务部门对源数据进行修改。

数据质量检测完成后,还需要对系统中的数据质量问题进行统计分析和预警,管理人员可以查看检测报告的详情。检测报告支持图形化展现,并支持多维度动态钻取,同时支持数据导出功能。此外还可以设置邮件及短信提醒功能,从而将自动生成的数据质量报告以邮件方式发送到指定人员,方便其及时对数据问题进行修正。

4. 数据清洗转换

对于源系统中数据存在的质量问题,可以通过数据清洗转换方式进行数据质量提升,主要包括以下几个步骤:

4.1 预处理规范定义

为了保证数据预处理过程的有效性,根据制定的数据标准,可对原始数据进行预处理,数据预处理包括数据清洗、数据集成、数据转换、数据归约、数据标签化等。

4.2 数据审核

数据审核的内容主要包括以下几个方面:

4.2.1 完整性审核。检查应调研的部门是否有遗漏,所有的调研项或指标是否完备齐全。

4.2.2 准确性审核。从数据的真实性与精确性角度检查数据,重点是检查调研过程中所发生的误差。

4.2.3 适用性审核。根据数据的用途,检查数据的有效性和相关性。具体包括数据与分析主题、与目标总体的界定、与调查项目的解释等是否匹配。

4.2.4 及时性核查。检查数据是否按照规定时间报送,如未按规定时间报送,就需要检查未及时报送的原因。

4.2.5 一致性核查。检查数据在不同业务系统、不同时间段是否一致。

4.3 数据筛选

在数据审核完成后,对审核过程中发现的错误应尽可能予以纠正。如果有数据不符合标准要求且又无法改正时,应需要对数据进行筛选。数据筛选一方面是将某些不符合要求的数据或有明显错误的数据予以剔除,另一方面是将符合某种特定条件的数据筛选出来。

4.4 數据集成

不同的数据源通过ETL工具或数据总线集成到数据仓库中,同时完成数据的清洗转换。数据集成管理的内容包括:

4.4.1 数据集成资源展示,集中展示已连接到数据中心平台的各种数据源信息,包括数据源类型、接口类型、数据业务类型、数据规模、数据更新频度以及是否系统同步数据。

4.4.2 集成过程展示和监控,主要展示各数据集成项目数据集成内容、项目集成名称、数据同步开启时间、结束时间、运行状态以及任务的操作状态。

4.4.3 数据集成相关统计信息展示,主要包括集成数据总量、连接数据源数、集成业务表数量、数据集总数、集成任务总数等。

4.4.4 数据安全规则配置,针对需要集成的基础数据和过程数据,可设置数据冗余的规则对数据进行溯源,也可采用“拉链表”和“历史表”的设计方式提供数据备份功能。

4.4.5 集成运行监控,通过各类查询和报表,可以实时查看每日数据集成运行情况,可自定义生成各种统计报表,并动态展现其运行的情况,同时提供异常信息的警告机制,可通过邮件、短信进行报警。

4.5 数据转换

数据转换即对抽取的数据,按照数据标准进行数据格式的统一和规范。数据转换通过数据之间的映射关系,完成数据统一命名、数据格式标准化、计量单位转换以及数据粒度转换等工作。

对数据类型的不一致问题,采用编程处理或者使用数据库管理系统提供的转换函数,进行日期到整型、字符串到整形等转换。对数据标准的不一致问题,比如在人事系统中性别的定义为“男”、“女”,在教学管理系统中则以“1”代表男,“0”代表女,按照标准库里面的定义,进行统一转换。

在数据仓库的场景中,有一些数据内容属于源数据库中可能不存在的数据,需要做数据二次计算,即对源数据进行字段分割或计算,组合成新的内容。数据二次计算主要是对数据的汇总,比如从人员基础信息中统计出各个学院的人数、职称比例等数据,对中间计算数据进程存储,在最终分析呈现的时候提高数据计算的效率。

5 标准数据入库

依据标准要求定义数据范围和数据内容,对原始数据经过采集、识别、质量检查、清洗后,就形成了标准数据。数据完成清洗转换后,依次按照数据子集分类存储到标准数据仓库,完成后使用质量监控工具,对数据再做一次完整的数据质量检查。

标准数据入库后,为了能够让前端快速准确的对数据进行检索排序,需要数据检索的功能,在数据治理阶段,需要对采集到数据中间库的元数据进行标识,比如给ODS中元数据的某个字段添加特定的标识,不仅可以定位数据在流转过程中的位置,也便于对数据的排序和检索。

6 结束语

通过数据质量管理,提升数据的质量及数据可用性。对于高校职能部门,能够方便的查看、浏览、使用数据标准和数据资产,履行本部门数据的生产使用责任,对数据质量问题、数据填报需求、数据纠错申请进行处理,方便调用所需的数据,了解数据流动的方式和状态,执行数据操作的规范和要求,让数据更好的支撑部门管理过程,从而提高管理水平和管理效率。

对于广大师生,可以方便查看自己在学校各种数据,让每个人能够通过一站式服务门户、智慧教室、协同科研、移动校园等应用获得高质量的教学服务、生活服务,体验到信息化成果带来的便捷和高质量服务。

参考文献:

[1] 刘冰,庞琳. 国内外大数据质量研究述评[J]. 情报学报, 2019, 38(2):217-226.

[2] 张新兴.高校科学数据管理研究综述[J].情报资料工作,2016,37(6): 48-54.

[3] 王宏志.大数据质量管理:问题与研究进展[J].科技导报,2014,32(34):78-84.

[4] 韩京宇,徐立臻,董逸生.数据质量研究综述[J].计算机科学,2008,35(2):1-5.

[5] 卢本新. 数据仓库数据质量管理的研究[D]. 大连理工大学,2013:18.【摘要】本文通过对高校数据管理过程的梳理,提出高校数据质量管理的方法、步骤及主要技术框架,并对数据质量管理过程中的数据标准建设、数据采集、数据预处理等问题进行研究与实践,将数据管理从单纯的技术操作层扩展到技术、业务、管理相结合的复合模式,让数据更好的支撑学校各部门的教学管理,从而提高管理水平和工作效率。

【关键词】数据质量;数据管理;教育信息化

目前高校信息化已得到长足发展,数据中心已积累了大量的教学、科研、管理等数据,然而数据的质量参差不齐,数据的共享大部分也仅限于主数据的交换,数据的可用性并不高,因此通过数据管理系统,将数据质量管理从单纯的技术操作层面扩展到“技术+业务+管理”的复合模式,将数据质量管理的参与者从信息管理部门推广到全校各业务部门,实现数据的全生命周期管理。对于数据管理部门,通过数据质量管理系统能够以全局视角观察数据在其产生、流通、留存、使用、变化和归档过程中的状态,另外可以查看各部门在数据使用、维护、变更过程中的参与程度和状态反馈,不仅对数据的质量、数量、更新频度及规范性进行方便的管理,还能高效安全的将数据提供给用户,服务于一站式门户、数据填报、决策支持等综合性业务管理,充分发挥数据的价值。

数据质量管理流程主要包括数据调研、数据标准制定、数据识别、数据采集、质量检查、清洗转换和标准数据入库几个步骤,如图1所示。

1. 数据标准制定

数据标准的制定,以业务分类和业务规范为指导,以符合学校管理和业务模式为原则,引入学校正在使用的代码实际标准,尽量减少对原有业务系统及管理过程的影响。最终生成的数据仓库应按照标准规范进行数据分类和数据模型定义,并进行统一的管理。

数据标准制定包括数据标准的编制、审查、发布三部分。数据标准管理部门将数据标准通过数据管理平台发布展示,并将发布后的数据标准、版本说明保存备案。对数据标准的变更将及时更新至数据标准管理平台。

按照教育部颁布的教育管理数据标准的要求,在高校管理信息的基本体系结构、数据元素的元数据结构的基础上,还需做以下几个方面的优化,第一表结构优化,需要结合学校实际数据使用场景进行表结构的优化。第二对扩展命名的规范,例如部标中定义的数据对象包含表、字段、代码集,校标需要在此基础上扩展数据开发、过程管理、接口管理等命名规范。第三代码集优化,校标在部标代码集的基础上需要扩展学校相关属性的代码表。第四新标准补充,因为部标是通适性的规范,因此需要在部标的基础上扩展学校特有的标准内容。

在数据标准制定的过程中,数据生产部门参与数据标准的收集和整理工作,并按照协商一致的原则形成数据标准初稿。在对数据标准初稿进行讨论完善后,形成数据标准送审稿提交给学校数据标准管理部门,经过数据标准管理决策者的讨论审核后,由学校数据标准管理部门再次进行数据标准的修改完善,最終完成数据标准的发布。

最终形成的数据标准体系内容应包括元数据标准、代码标准、编码规范(如学号、工号、房间号、部门编号等编制规则)和对象命名规范(如表、字段、接口、文档等统一命名规则)。

2. 数据的采集

根据高校当前的数据现状,大部分业务数据已完成了数据归集,还有部分业务数据需要从数据生产部门收集,对于批量的数据集成可以直接通过ETL工具将全量业务数据采集到预处理数据库。

对于网络设备、安全设备以及服务器产生的日志数据,采用FTP方式将日志文件推送到日志服务器;对于其他非结构化数据以HBASE数据库或者以HDFS文件的方式存放。除了在线的信息系统数据外,对于线下的电子表格数据,采用工具导入到关系型数据库进行存储。对于图像数据以BLOB大字段的形式存放在关系型数据库或者分布式数据库中,也可以直接通过ETL工具采集到HDFS中进行存储。

数据采集过程主要包括以下几个步骤,第一识别有效数据,通过数据字典的指引,对原始数据进行识别理解,从中甄别出有效的数据(即数据标准所对应的数据范围),并进行相应的标注,例如是否主数据、是否关键过程数据、备注等。第二数据采集映射,数据识别完成后,即通过配置ETL转换,将数据从源库加载到目标库。除了需要记录表与表之间的映射关系外,还需要进一步记录字段与字段之间的映射关系。第三元数据标识过程,主要是建立元数据模型,并对模型数据进行初始化。

3. 数据质量核查

数据质量核查是数据采集识别后的关键步骤。数据质量核查主要包括三部分,第一配置质量检测规则,并将质量规则绑定到对应字段上,一个字段可以同时绑定多个规则;第二执行数据质量检查;第三输出质量检核报告。

3.1 设置质量规则

在进行数据质量检测前,配置数据质量检测指标、检测规则(分为值域正确性、枚举正确性、正则匹配性、关联一致性),配置规则应与学校业务系统要求相对应,并由业务部门进行逐项确认。

3.2 绑定字段

在设置了数据质量检验规则后,将相应的字段和规则进行绑定,然后按照规则选择数据字段进行规则检验。比如,年龄字段需要绑定对应的值域规则(0-100),电话号码、电子邮件字段需要绑定相应正则规则等。

3.3 输出质量报告

全面及时发现已有数据的质量问题是数据后期治理的重要依据,数据质量报告应考虑完整性、唯一性、一致性、准确性、合法性、及时性等因素。通过数据质量规则定义,结合数据质量报告,可以深度挖掘当前数据质量存在的问题及所需改进的部分,并按照数据管理手段督促相应的业务部门对源数据进行修改。

数据质量检测完成后,还需要对系统中的数据质量问题进行统计分析和预警,管理人员可以查看检测报告的详情。检测报告支持图形化展现,并支持多维度动态钻取,同时支持数据导出功能。此外还可以设置邮件及短信提醒功能,从而将自动生成的数据质量报告以邮件方式发送到指定人员,方便其及时对数据问题进行修正。

4. 数据清洗转换

对于源系统中数据存在的质量问题,可以通过数据清洗转换方式进行数据质量提升,主要包括以下几个步骤:

4.1 预处理规范定义

为了保证数据预处理过程的有效性,根据制定的数据标准,可对原始数据进行预处理,数据预处理包括数据清洗、数据集成、数据转换、数据归约、数据标签化等。

猜你喜欢

数据质量数据管理教育信息化
《大数据管理》课程思政教学质量评价体系研究
如何有效开展DCMM数据管理成熟度评估
数据挖掘在学生成绩数据管理中的应用研究
数据挖掘在学生成绩数据管理中的应用研究
浅析统计数据质量
金融统计数据质量管理的国际借鉴与中国实践
浅谈统计数据质量控制
基于虚拟仿真技术的地方高校实验教学探讨
高职学院信息化建设中面临的问题和思考
创新信息技术支撑教学变革