APP下载

基于元数据的数据资源管理机制探究

2019-02-28张梅张新阳

科学与财富 2019年1期

张梅 张新阳

摘 要:当今社会,不同生产、生活领域信息化程度的逐步加深,电子文档与数据资料的大量积累,使得电力管理与开发数据资源成为实现组织单位快速发展的重要途径。元数据可以看作是对数据的描述,当前阶段的元数据模型通常采用都柏林标准,即利用一个元数据对不同种类的数据资源进行描述,便于信息开发人员更好地管理著录格式,提高信息检索、描述的效率。

关键词:元数据标准;模型驱动;数据访问

科技社会的数字化进程逐步推进,使得以原数据为基础的资源管理、开发模式进入了成熟发展的阶段,可以实现快速获取信息、统一视图的功能。然而,大数据资源管理趋势的影响下,电力行业表格数据以及统计数据的规模更加庞大、类型更加多样化。静态、单一的元数据管理模式无法完全实现数据的一致、系统管理,无法兼顾元数据与数据的描述,如果每一类的数据都通过静态元数据描述,将会产生数量极多的元数据实例,增加数据维护的投入成本。因此,本文深入研究电力行业数据开发的情况,通过元数据的动态管理模型构建,对元数据的应用与管理进行系统的探析。

一、元数据的标准及其质量评估

1、元数据的标准

元数据的标准主要是指描述特定资料数据的规则集合,分为语义层次方面的著录规则以及语法层次的规则。其中,语义层次的规则主要对数据不同领域的概念进行描述,按照规则类型的不同分为类、约束以及属性等,属于比较具体的元数据规则。与此相对应的,语法层次的规则是一种元语言,通过定义使用的语言、语法,对数据的格式以及结构进行描述。元数据产生及发展的过程中,其实际的标准被不断地修订,逐步完善元数据在不同领域适应过程中的规则。从元数据研发至今,国外学者针对元数据的规则与标准进行深入研究,将单一的元数据划分规则演化为多种数据集的规则,在此基础之上,以都柏林为核心提出了元数据的可扩展标准,进一步细化了核心元数据的定义、说明、报名规则、扩展规则以及特定元数据概念。国内相关元数据的标准化建设成果包括2014年的图书馆系类著录规则以及元数据规范丛书等著作的集中出版,体现了我国元数据规则研究的发展进程。

2、元数据的质量评估以及具体控制

对元数据的质量进行评估以及控制主要指以功能需求为导向,对元数据的质量进行具体控制,保证元数据质量符合应用的实际需求,确保元数据的利用水平达到设计的预期效果。相关学者对元数据的具体评估指标与资源管理体系的研究重点在于评估指标的选择、数据应用环境以及应用目标等。国外相关的元数据综合评估与控制课题的研究已经取得了系统性的成果。在国内,专家学者也陆续发表了如《基于元数据的数据质量控制与评估模型研究》等学术成果,对元数据质量的影响因素进行了综合分析,同时对数据流动的质量检测、控制、评估等内容开展了研究工作,提出了以元数据为基础对数据资源进行质量控制的模型。

二、以元数据为基础的资源管理系统

针对现阶段静态元数据应用的漏洞,本文提出了以元数据为基础的动态数据模型,对数据资源进行系统管理,并在电力单位进行实践的过程中取得了较为显著的成效。该种数据管理模式主要是利用元数据的模型,对管理的数据对象开展标准化模型建设工作,然后利用动态数据对资源进行管理。这种利用元数据的动态管理模式,可以对数据进行实例描述,在确保模型一致性的同时,保证了多种形式数据资源的统一管理效率。

1、数据管理的范围

动态资源管理与静态数据控制都是以元数据为基础建立模型的,从电力管理统一性以及元数据控制标准化角度来说,数据资源的主要范围包括:

(1)基础元数据(标准元数据)

基础范围的元数据属于对领域中一般性业务进行抽象,得出的标准化模型,主要功能在于为数据实例提供标准的管理视图。

(2)领域元数据(扩展元数据)

扩展元数据是依照不同类型的业务特征提取出来的特殊数据模型,对数据资源的不同功能进行描述。

(3)数据资源

数据资源包含的内容较多,不仅涵盖了不同格式的数据文件(office文件、视频文件、音频文件、数据库及其他),还包括数据本身(统计数据、个人信息、凭证等)

(4)标准数据

标准数据是指符合国家标准、国军标与国际标准以及领域内标准数据规则的数据,包括固定范围内的分类标准以及数据字典。

(5)数据规则与数据约束

通常情况下,只有数据信息与标准数据才具备约束、关联等局限性条件,属于数据复杂性的深度体现。

2、动态元数据体系的分层描述

数据资源的管理对象不同,使用的管理形式与模型构建方法也存在差异,通过分层管理,可以实现由简单到复杂的系统管理,最终通过数据映射保证动态管理的目的。

(1)元元模型

元元模型对全部的数据类型进行定义,包括字符、整型等。

(2)元模型

对领域的元数据进行基础的定义,该种模型能够利用分类体系对不同领域的元模型进行动态管理,同时通过不同的版本对分层的元数据演化进行区分。

(3)元数据

以元模型为基础对数据进行管理,从数据库的角度出发,可以视为一种表单,对管理领域的实际资料数据进行存储。

(4)实例

實例也可以称为INFO,是一种能够真实存储的资源。其第二与第三列分别对应模型的内容与实现手段。以元元模型为例,作为一般性的通用语言,对抽象数据的全部数据格式进行了定义,为更复杂管理层的信息描述提供基础。

以电力单位需要进行检修的设备为例,修理数据包括:单位名称、负责人、生产信息、修理日期以及设备编号等数据,分层管理模型的构建流程为:首先对元元数据进行定义,涉及字符型、数字型、日期型等;其次,对元数据模型进行定义,以都柏林体系或领域要求为基础,进行模型创建,具体包括:创建者、创建时间、资源名称与类型等;第三,定义元数据、模型,内容为单位名称、修理日期、负责人、设备编号等,其中元模型和数据模型中,每项都是通过元元模型进行描述;第四,实例,是构建完成后基于元数据的动态数据资源模型的存储表,一般为主从表的二维关系映射。

3、模型驱动机制

为了实现元数据分层模型,从技术实现角度,采用模型驱动的方法完成從平台无关到平台实现的递进实现。其中元元数据和元数据模型构建是平台无关的,针对领域数据资源进行逻辑模型构建,形成PIM。在逻辑模型校验和审核无误后,可以进行平台相关的物理模型构建,形成PSM。最后根据平台约束转换成平台依赖的脚本库及代码,完成模型的最终构建。这里和数据库建模的过程基本一致,但是最大的不同在于,基于元数据的动态数据资源管理模型构建,是以模型管理和领域分类管理为核心,最终会形成以元数据模型为基础的数据资源体系。

三、动态元数据管理的技术架构

根据模型驱动原理和分层设计体系,采用SOA面向服务的技术架构,实现分层模型定义、模型转换和数据访问的一体化动态数据资源管理平台,便于电力单位对数据资源进行系统化管理。

1、可视化模型设计器

开发框架由系统框架层,技术框架层构成。在系统框架层,包括操作系统层和数据库层。在技术框架层,包含各种企业应用开发必须的技术控件,包括数据交换引擎、业务应用服务、IOC容器、数据持久化框架、ESA及各类引擎等。各种服务和工具都基于SOA架构,可以实现灵活的接口输出。使用模型设计器创建分层模型并发布。平台如下图所示。

2、数据访问架构

平台模型构建中通过引入对象-关系映射系统中间件,实现数据库的快速开发。平台可通过JDBC实现单独的持久化层,把数据库访问操作封装起来,提供简洁的API,供业务层统一调用,实现了独立的ORM系统。最上层提供了基于元数据的持久化接口。可以实现对模型数据对象持久化操作,比如基本的增、删、查、改等操作。电力单位通过这些持久化服务可以进行对模型数据的数据库操作。同时业务建模框架还提供了代码生成和SQL生成的相关功能。其中代码生成用于生成模型对象(元数据实体)的类代码。

四、以原数据为基础进行资源管理的应用情况

现阶段,元数据的应用范围主要包括:数字图书馆、数字化的档案馆、教育以及政府电子资源组织几个领域。

1、数字化档案馆

元数据属于数据资源管理的重要基础,在图书馆、档案馆与博物馆等领域应用范围较广。三馆作为文化遗产保护单位、历史文化管理单位与书籍资料存储单位,是元数据应用的重点发展方向。基于三馆合一基础,开展元数据的动态管理,不仅可以打破数据资源的相对孤立情况,提升数据关联的效率,还可以为用户提供更加便捷的数据服务。具体的管理优势表现在以下几方面:首先,元数据管理能够更快的建立起档案之间的内在关联;其次,元数据可以使档案的管理更加高效化、科学化;第三,档案馆通过元数据模型的构建,能够提供多元化的信息服务平台。

2、教育领域

元数据在教育领域的应用主要体现在两方面:一方面是教育资源的深度开发上。相较于其他信息资源,教育资源具备共享程度低、多源异构以及互操作性差等局限问题。通过元数据的深入应用,可以为教育资源的共享、开发提供更加广阔的服务平台。与此同时,嵌入聚类算法的管理机制能够帮助用户更加快速、精准的定位需求资源,保障学习者的E-Learning环境和谐;另一方面,电子课本、书包等资源模式,也是现代教育关注的重点之一,以元数据为基础的电子课本对电子元数据的体系进行了层次化动态管理,保证了内容、类别之间的管理一致性。通过研发电子课本的数据资源约束、XML绑定等,提升了教育资源的共享性。除此之外,现阶段远程教育与MOOC(幕课)的研究与发展,使得数据资源的管理越发的复杂,因此需要通过元数据与本体技术等手段,保证远程教育知识共享的实践性与稳定性。

结论:元数据理论与应用在不同领域的深入发展,使得以元数据为基础的动态资源管理系统成为数据资源开发的重点。在此基础之上,本文结合电力单位的数据开发情况,从管理需求、数据定义、技术实现等方面出发,结合实际案例对数据资源动态管理的模型进行了具体分析。该平台可以在高效处理大数据的基础上,通过一致性、系统性的管理,为用户提供更便捷的数据服务。

参考文献:

[1]杨博文,刘太敏.基于元数据的军用数据资源采集汇总系统的设计与实现[C]//中国指挥控制大会.2018;

[2]张铮.基于XML元数据的农作物光谱信息管理系统的研究与设计[D].华中农业大学,2016;

[3]刘婧.基于元数据的多源异构海洋情报数据交互共享研究[J].情报杂志,2016,35(9);

[4]高劲松,刘洪秋.基于生命周期理论的文物元数据开放机制研究[J].图书情报工作,2017(12).