APP下载

元数据评估模型及质量提升对策

2021-11-05蒲飞涂旭东陈苗赵正辉

中国新通信 2021年18期
关键词:元数据数据质量对策

蒲飞 涂旭东 陈苗 赵正辉

【摘要】    跟随教育信息化的飞速发展,高校信息化系统迅速扩张,产生了海量教育大数据。许多高职院校都建立了校级的数据中心,高质量的元数据是数据中心的最基本部分。元数据质量直接决定着大数据分析结果的准确性,但由于数据来源的多样化和复杂化,导致数据形式、格式不一,元数据的质量难以保证;导致难以支撑高校教学、科研和管理模式改革。本文以数据质量的判定模型为标准,对重庆医药高等专科学校元数据来源进行分析,并针对性提出提高数据质量的解决方法策略,为其他高职院校数据质量分析提供借鉴。

【关键词】    元数据    数据质量    判定模型    对策

一、元数据质量是智慧校园建设的基础

随着教育信息化的来的深入发展,各高校纷纷开始启动大数据战略,并建立数据中心,来深度推进学校信息化的建设和发展。当前各高校正在从数字化校园的建设逐步迈向智慧校园的建设,这样就使得数据中心的数据变得更为海量化、复杂化、多样化和快速化。另一方面,数据中心元数据的质量直接决定着大数据分析的结果,数据中心元数据的质量如果得不到一定程度的保证,后续的大数据分析将会建立在这些不可靠的数据之上。因此学校数据中心的元数据质量是决定学校能否从数字化数园顺利过渡到智慧校园的关键。但学校元数据的质量到底如何,又该如何进行评价,下面通过元数据质量评估的模型,以重庆医药高等专科学校元数据为例来进行探讨提升数据质量的方法。

二、数据质量的判定模型

通常对数据质量的理解就是存储于计算机及网络系统中的数据质量的好坏和优劣[3]。如何来判断数据中心数据质量的好坏和优劣,当前并没有一个很好的标准。我们在对学校数据质量的判定中,主要是按照元数据四个不同的维度对质量进行评估:如下图1。

2.1数据质量模型评估标准四个方面的关系

从图1中可以看出,评估标准的四个方面中,可获得度是解决能否从系统中获取数据的问题,包括通过一定的数据转换模型来获得的数据[3]。数据的可获得度是数据可理解度的基础,它与数据可理解度一起,构成了挖掘数据的基本条件。只有获取了数据,并且对数据的语法、语义理解之后,用户才能进行数据挖掘。但当用户获取并理解了数据之后,随之而来的一个问题是:数据是否可信。假设数据的可信度很高,那么接下来的问题是:数据是否有用。因此可以说数据质量评估的四个方面:可获得度,可理解度,可信度,可用度,是一种递进深入的关系。元数据质量的是否优劣,须依次回答四个问题[5]:一从哪里获取数据;二是否明白和理解已获取的数据;三数据有多少是可信的;四可信的的数据中有哪些数据对分析和挖掘有用。经过上述四个流程筛选之后,元数据质量就会得到保证,接下来就可放心地对数据进行预处理,然后就可以根据创立相应的算法,使用相应的模型进行数据分析了。

2.2数据质量12个影响因子的相互关系

影响数据质量的因素,既可按照评估标准分成4个大的方面,又可根据每个具体的评估标准拆分成12个最终影响因子(如图1)。即数据质量的优劣其实是根据这12个因子来评判的,当然这12个因子在对数据质量判定上的作用各有侧重,并不是都完全相同的。有些因子,如准确性、可靠性等之类的,对数据质量的判定作用几乎是一票否决,而有些因子如相关性、可比性等之类的,对数据质量的判定作用相对而言要弱一些。这些影响因子既在评估标准每个方面的内部之间相互关联、相互影响,同时又能影响其他评估标准下的影响因子。

比如数据的准确性较差,那么数据的可靠性、有效性就不会太高;如果数据同时能够做到准确、一致、有时效,那么数据的可靠性就比较高。因此12个影响因子缺一不可、相辅相成构成了对数据质量优劣的评判。

2.3数据质量研究判断的难题

从上述12个数据质量的影响因子中可以看出,这些影响因子对数据质量的评判更多的是一种定性的判断。相对于数据分析而言,数据质量的评判需要给出定量的结果。假设抽样数据的准确性不是100%,而是准确性为90%,一致性为91%、完整性為92%。按工程上的准确率计算方法,根据这三个因子相乘计算得出的数据质量优劣率为90%*91%*92%*100%=75%,如果再有其它的几项因子相乘,那么数据质量的优劣率将会变得更低。除非保证数据质量影响因子的参数值都为100%,否则数据质量优劣率都将会低于100%,也就是说数据都将是不完全可信的,但是12个数据质量影响因子同时定性为100%,这在现实中不太可能。在实际中,总是希望数据质量越高越好,这只是一种定性的说法,能不能对数据质量建立一种更为精确的定量分析方式,使得数据质量根据各项指标的参数值进行综合评判,当数据质量的各项影响因子达到某些阈值的时候,数据才是可靠和可性的,才会在数据分析中具有研究的价值,但是实际的情况是阈值的确定,这是数据质量评估要深入研究的一个课题[5]。

三、重庆医药高等专科学校元数据质量现状

在高职院校的各项信息数据中,高校普遍存在数据质量不高的事实,而且当前越来越多的高校也已经意识到因数据质量不高而可能产生的各类问题。为了摸清我校数据质量的状况,学校信息图书中心联合其它相关职能部门,对本校数字化校园内的,一段时间内和一定范围内的数据作了一次数据质量抽样的摸底调查分析。由于数字化校园数据类型多样、庞大,因此有必要在作摸底调查之前,对每种类型的数据作一个从数据选择到分析方法的大致规划。将结构化类型数据采取数值量化、将非结构化数据中不易量化的数据划分为优、良、一般、劣四个等级[4-5],确保本次抽样数据质量分析接近本校的实际情况。

3.1个人手工输入方式数据

在整个系统中涉及数据手工输入的操作者主要有学生、普通教师、系统平台管理员类, 它们一方面由于对系统各个子平台使用不熟悉,对某些填写内容理解不透彻[3];另一个方面是由于计算机技能欠缺, 培训机会不多和责任心不强,在录入数据时可能会误填、漏填或误添某项数据;又加上系统中的某些数据定义不明确、概念混淆,系统在开发时控制和校验不严,造成数据的缺项和漏项,导致系统中数据质量问题很多,从而影响数据的准确性。

3.2外部系统来源的结构化数据

从外部系统导入到学校系统的结构化数据,主要存在不同系统之间数据编码冲突的问题,这是因为大多数系统之间没有统一的技术和数据标准,数据不能自动导入,缺乏有效的关联和共享[5]。

不同数据源的相同数据编码不一致,常见的有两种情形,一种为属性编码的不一致。以学校招生管理系统中学生的性别为例,外部系统数据源编码为“男=1,女=2”,而在学校系统数据源中编码为“女=1,男=2”,这样就造成了数据导入的出错,影响数据的准确性。另一种为字符编码的不一致,常见的中文字符编码有GBK编码和UTF-8编码,一种字符编码的数据在导入到另一种字符编码的数据时容易出现乱码,因此在导入外部系统来源的结构化数据之前有必要做好属性编码和字符编码的转换。

另一方面,在高校当前的各个应用环境中,不同系统之间存在大量的业务数据依赖,比如教务系统中学生的基本信息数据,可能是从招生管理系统或者迎新管理系统中导入,来自迎新管理系统的数据,因为某些学生未来入学和各管理员没有在系统中对学生的信息进行及时核对,导致学生的数据变得不准确,因此在从其它系统导入数据之前,有必要对相关数据进行核对,以保证数据的准确性和完整性。

3.3外部来源的非结构化数据

非结构化数据一般是指无法用固定结构来逻辑表达实现的数据,包括办公文档、文本、图片、XML、HTML、各类报表、图像和音视频等等,相比结构化数据而言,这类数据特别是音视频文件没有统一的格式,关键词不统一。这类非结构化数据的内容大多数不易改动,质量的决定主要是清晰度,但是一般而言在存储时候,都会作一次筛选,因此数据质量较高。

3.4应用系统自动生成的结构化数据

应用系统自动生成的结构化数据,如门禁系统数据和一卡通系统数据,相比外部导入的结构化数据而言,数据的准确性,完整性的都很好,数据质量相對较高,这主要是因为系统自动生成的数据格式固定,不会出现手工输入数据存在的各种问题。因此从这上面可以看出,如果要想数据质量高,尽量应使用系统自动产生的规范线上数据。

3.5应用系统自动生成的非结构化数据

由于是应用系统自动生成的非结构化数据,数据的准确率相对也是很高。

四、提高元数据质量的措施

4.1组建专业的管理人员队伍

高校数字化校园系统对学校来说是及其重要的部分,不可能让每一个人都对系统进行增删改,必须赋予一部分特定的人员较高或最高的权限,来对系统进行管理和独立操作。另一方面,高校数字化校园系统对数据的处理要求很高,这主要是因为业务中对数据的提取,加载,转换和处理比较频繁[5],这必须要求要有一定计算机水平的管理人员来维护数据的一致性与完整性,在数据录入时控制数据的来龙去脉,对输入的数据,要进行完整性约束。 我校在意识到此问题之后,是在每一个部门设一个部门数据管理员,并且定期组织数据管理技能培训。

4.2建立严格的审核机制

正确地输入数据是系统进行有效数据分析的前提和保证,错误的数据只会让系统输出不正确或无用的结果,从而导致后续数据的处理和分析失去意义,因此有必要要求各平台和各系统管理员对手工输入的数据进行严格的审查和核对;另一方面要求信息系统也具有一定的自动审核机制,比如自动清除字符之间的空格,判断必填项是否为空等等,真正实现从源头上控制数据的质量,从而降低数据出错的概率,为后续数据的导出或分析奠定坚实的基础。

4.3建立统一的数据标准

业务数据的标准化包括统一的数据字符编码标准和统一的属性编码标准,统一的属性编码标准是指属性的值有多个字段,给每个字段进行统一的编码,比如“民族”这个属性,对汉族进行编码为1,壮族编码为2等等。目前中华人民共和国教育行业标准中的《高等学校管理信息标准》以及数据标准化的思想尚未得到全面应用[3],但是很有必要在全国进行推广。我校通过此数据治理也建设了一套适用于本校的数据标准,主要原则是“有国标用国标,有省标用省标,无标就自建校标”的方法。

4.4建立可靠的数据质量评估和监督机制。

数据质量的持续改进和提高,需要相应的数据管理部门来评估和监督,需要相关部门负责对数据质量标准进行定义和控制,包括抽查等,目的是为了当有数据质量问题时,及时告知各业务部门,找出导致问题的源头数据,并监督相关业务部门改进,这些在保证数据质量继续改进的同时,又避免了较大数据事件的出现。

五、结束语

随着各高校的数字化校园建设正逐步迈向智慧校园建设,用户对各个系统的功能要求也越来越高。一方面,要求系统提供更多更强的功能,从原来功能的“单一化“发展为现在功能的“多样化”,从原来数据的简单获取,发展为现在数据的综合分析,再到数据为决策者提供决策支持;另一方面,信息化建设的重心正在发生转变,之前主要是以关注各个应用系统的功能要满足各个业务部门工作为主,现在逐渐过度到了以关注用户包括各职能部门管理者的决策分析使用需求为主。

并要求系统能提供定制化和个性化的集成服务。因此高校的信息化建设要真正实现精准化服务,真正满足用户对系统和数据日益增长的需求,就必须进一步提高各系统数据的质量,为智慧校园打下坚实的数据基础。

参  考  文  献

[1]贾宏.高校机构资源库元数据质量控制研究.南阳师范学院学报,2017(16):65-67.

[2] 郭晓明,高校信息化环境中数据质量问题探析.中国教育信息化,2016(15):59-62.

[3] 宓詠.智慧时代数据服务的发展与思考[J].中国教育网络,2015(8):23-26.

[4] 郭晓明,张巍.高校信息化建设中公共数据平台的探讨[J].中国教育信息化,2015(19):69-72.

[5]杨勤.高校统计数据质量问题若干问题[J].现代经济信息.2016(1).

蒲飞(1970.05),男,本科,高级工程师,研究方向:系统规划与管理、数据管理、治理。

通讯作者: 陈苗(1990.07),女,研究生,讲师,研究方向:计算机系统结构、移动计算。

猜你喜欢

元数据数据质量对策
提高中小学音乐欣赏教学质量对策探讨
“深度伪造”中个人隐私的保护:风险与对策
走,找对策去!
我国货币错配的现状及对策
基于来源的组织机构元数据构建研究
元数据与社会化标签在微视频搜索中的应用
高等院校智慧校园建设规划与实现
浅析统计数据质量
金融统计数据质量管理的国际借鉴与中国实践
浅谈统计数据质量控制