APP下载

面向互联网资源共享的元数据收割系统研究

2016-08-22梦,孟

电视技术 2016年7期
关键词:提供者服务提供者数据库

陈 梦,孟 放

(中国传媒大学 信息工程学院,北京100024)



面向互联网资源共享的元数据收割系统研究

陈梦,孟放

(中国传媒大学 信息工程学院,北京100024)

随着网络技术的飞速发展,互联网资源的有效管理与共享成为亟待解决的问题。针对资源元数据进行的收割操作可实现对音视频等网络资源的共享,提高资源利用率。首先介绍基于OAI-PMH协议的元数据收割流程及其应用现状,之后设计并实现了一个用于网络资源元数据收割的简单示例系统。该系统在MySQL5.6和VC环境下开发,简单实用,在一般配置计算机之间即可实现元数据收割功能,对该系统的测试,可验证各项基本功能实现有效。并且通过此示例系统的运行可看出,基于OAI-PMH协议的元数据收割系统可作为互联网资源共享与管理的有效途径之一。

网络资源共享;OAI-PMH;元数据收割

随着计算机与网络的迅速发展,人们的生活已经进入了互联网时代。从传统途径获取的资源已经无法满足人们工作生活的需求,越来越多的人开始在网上搜索、传播资源。因此,随着网络上的资源数量呈几何级数增长,海量资源的有效管理、共享与简洁高效的展示成为人们亟待解决的问题。对于网络视频、音频等大数据量的资源直接进行传输与检索,无论在成本或是技术的实现上都是不现实的。因此,为了提高网络中各类资源的利用效率,出现了许多对于网络资源元数据的描述与操作管理标准。

针对元数据的收割操作是实现各地互联网数字资源的开放式共享的关键技术。在收割系统中,中心数据库可实时和定时向节点数据库分发与收割元数据和对象数据,各数据库采用完全分布式的架构,以网络传输和元数据相关标准为规范,对于数字资源采用元数据的形式进行描述,其目的是实现元数据资源和对象资源的统一管理和共享式检索。目前,国际上比较通用的对于网络资源共享的互操作标准中,OAI(Open Archive Initiative)[1]得到了广泛的认可与应用。OAI意为开放文档先导,目标是寻求各种结构数据库间数字资源的共享式检索。在1999年,美国圣达菲举办的“电子出版文献互操作”会议中提出。2001年4月,OAI组织发表了OAI-PMH(Open Archive Initiative Protocol for Metadata Harvesting)元数据收割协议[2],该协议针对资源元数据的互操作给出了可实现框架。在推出后的几年,以其简单性、开放性、可操作性的优势得到了广泛应用。

目前已有基于OAI-PMH协议的元数据收割系统,多数应用于数字图书馆或高校间进行文献资源的共享,在网络资源管理方面应用较少。这些系统大部分利用开源软件搭建系统与数据仓储,普遍规模庞大且功能繁杂,并不适用于需要实现简洁共享的互联网资源管理。针对这个问题,本系统设计作为用于网络资源元数据收割的简单示例系统,脱离开源代码,深入分析OAI-PMH协议并以其核心功能为基础,在MySQL5.6和VC环境下自行开发,简洁实用,在一般配置的计算机间即可实现元数据收割功能并测试有效。通过对此示例系统的运行测试可看出,该系统可简单有效地解决互联网资源元数据的收割问题,为解决网络资源管理与共享的问题提供了一种可行思路。

1 OAI-PMH协议

OAI-PMH是能独立于应用的、规范实现网络环境下元数据收割功能的互操作协议标准。根据职能责任不同,协议将元数据互操作双方划分为数据提供者(Data Provider,DP)和服务提供者(Service Provider,SP)两类。数据提供者作为发布元数据的管理系统,是元数据资源的拥有者,在目前的应用模式下可以是嵌入式的元数据仓储、资源发布系统等;服务提供者是以OAI-PMH为基础获取元数据来建立增值服务的一方,可以是资源门户系统、资源检索系统,也可以是供其他搜索引擎获取数据的元数据仓储系统[3]。

OAI-PMH收割系统框架如图1所示,数据提供方和服务提供方通过OAI请求和OAI响应来实现通信与数据传输。OAI请求根据服务提供者的需求而定,由SP发出请求获取DP仓储中的信息,进而收割得到所需元数据资源。数据提供方根据OAI请求做出响应,从数据仓储中把所需元数据资源以OAI响应格式向服务提供方提供。OAI-PMH协议规定了建立在TCP/IP协议基础上的网络连接,并根据不同的收割内容和范围定义了6个请求动词[4-5]:

1)GetRecord:获取特定唯一的元数据记录。

2)Identify:获取元数据仓储的基本信息。

3)ListIdentifiers:返回仓储中记录头部的标识符。

4)ListMetadataFormats:返回数据库中可能的元数据格式,检索特定格式的元数据资源。

5)ListRecords:用于从仓储中获取多条完整的记录。

6)ListSets:返回仓储内的结构信息,被用于进行选择性收割。

图1 OAI-PMH协议收割系统基本框架

以这6种命令动词不同组合、不同参数设置实现全部收割、增量收割和单条收割等不同收割模式并设定不同的收割周期。系统框架中的OAI请求与响应都以XML格式进行传输。并且DP与SP之间为多对多的关系,服务提供者作为收割方,可同时收割多个机构中的元数据资源,而数据提供方可作为中心数据库,向多个节点数据库进行分发操作。

2 OAI-PMH在数字图书馆中的应用及评价

OAI协议推出以后,以其配置简单、源码开放等优点,得到了许多组织与科研机构的认可,尤其在数字图书馆领域得到了广泛响应与使用。包括数字图书馆联盟在内的一些图书馆、大学和信息研究所机构都资助并参与了许多关于OAI的项目。在国外方面,美国目前最大的国家科学数学图书馆NSDL(Nation Science Digital Library)便是基于OAI-PMH协议构建元数据仓储,将全美各州元数据库资源收割汇总到国家图书馆数据库中。跨库文档检索系统中的CRS(Collection Registration Service)负责记录所有的数据提供者,描述他们的仓储信息、OAI服务和收割信息、收割时刻表和日志。自动周期收割上百的数据提供者。NSDL从113个集合收割元数据,可最终检索上百万条的元数据,其中小部分因没有URL无法获取对象资源。该平台每年1 000次以上的自动收割操作中,仍存在由于数据提供方XML数据错误和违反协议规范产生的收割失败可能[6]。

由于OAI-PMH协议源码开放的优点,大部分机构使用开源平台实现元数据的收割和检索操作,其中ARC[7]是Old Dominion大学开发的一个基于OAI-PMH的联合搜索服务开源平台,它包括收割器、搜索引擎、一个简单的搜索界面,能够支持一个专业组织的扩展和定制。目前ARC提供统一界面可对约六百万条收割的元数据进行检索服务。此外,麻省理工大学开发的Dspace系统[8]和针对数据提供者构建的OAICat[9]等开源软件[10]的广泛应用,减小了OAI协议实现的难度和成本。

在国内方面,近年来越来越多的项目开始采用OAI协议来实现元数据的互操作。其中,国家科学数字图书馆采用OAI协议提供的资源检索服务,实现了“科学数据库跨库搜索引擎”。北京大学中文古籍数字图书馆也采用了OAI协议来发布和检索估计拓片的元数据信息[11]。OAI-PMH协议的应用虽越来越广泛,却仍局限于各数字图书馆与高校间,对象数据也以文献资料为主,对于互联网音视频元数据收割方面的应用还相对较少。

3 互联网资源共享元数据收割系统框架及实现

3.1系统框架设计

在对元数据收割协议OAI-PMH进行研究后,针对互联网数字资源的互操作,以OAI-PMH协议的系统框架与收割模式为基础,结合实际需要与系统规模,设计了本课题所需的互联网资源共享元数据收割系统的基本架构。如图2所示,要实现数据的共享,解决数据的传输问题,首先要实现基本的物理连接,选用的是客户端/服务器(Client/Sever,C/S)模式,建立基于两台服务器之间的连接。建立连接后便可进行文件的传输,由元数据收割协议中规定的数据提供者作为客户端,服务提供者作为服务器端。本系统中客户端作为网络资源的拥有者,服务器作为向数据拥有者进行收割的一方为基础搭建的架构。系统主要由服务器、客户端连接通信模块、XML文件解析生成模块、仓储数据库连接查询模块3部分组成。其中本系统仓储内元数据结合网络数字资源对象数据特点,考虑系统通用性需求,选取在DC格式基础上扩展的元数据格式。

图2 互联网资源元数据收割系统框架

3.1.1服务提供者

在服务器与客户端建立通信后,进行收割一方的服务提供者实现框架如图3所示,首先由元数据收割器发送相应的收割命令请求所需的元数据资源。在本系统中定义了3个收割命令动词,分别实现元数据资源的全部收割、单条收割和增量收割功能。3个命令动词分别是:

History_mass,即获取数据提供者仓储内的全部元数据信息。

History_single,即获取数据提供者仓储内特定的一条元数据信息。Identifier为一个被要求提供的参数,指明仓储中条目的唯一标识符。数据提供者根据传来的唯一标识符返回特定元数据条目。

Fresh_mass,即获取数据提供者仓储内继上一次收割结束后新增的元数据信息。参数Lasttime为最后收割时间戳,指明仓储内上一次收割结束时间。数据提供者根据最后收割时间戳返回此时间截点后新增的元数据条目。

图3 服务提供者实现框架图

收到数据提供者返回的XML格式的收割响应后,对其进行解析,去掉文件中的结构化标签,保留元数据信息并存入本地数据库。通过向用户提供检索、展示等增值服务,服务提供者可以对仓储内收割到的元数据进行有效利用。

3.1.2数据提供者

数据提供者作为资源的拥有者,主要作为元数据发布方。其实现框架如图4所示,数据仓储中的元数据格式定义结合了网络数字对象数据的特点,在DC都柏林元数据的基础上进行了扩展,包括唯一标识符、题名、主题、格式、创建者、上载时间戳等12个必要元素。数据提供者获得收割命令,解析后将仓储中符合要求的元数据条目打包成一个XML格式的OAI响应返回。

图4 数据提供者实现框架图

3.2系统模块实现及运行测试

3.2.1系统模块实现

系统从实现的角度可以划分为3个模块,分别是Socket通信模块、XML文件的解析与生成模块和MySQL数据库连接模块。

Socket通信模块基于C/S(Client/Server)服务器客户端通信模式搭建系统,选用速度快且可双工传输数据的Socket套接字通信方法。套接字的类型有两种:流式Socket和数据报式Socket。面向连接的是流式套接字,适用于可靠传输。而数据报式套接字是一种面向无连接、不可靠的传输方式。本系统为TCP连接,所以采用流式套接字;XML文件解析模块采用TinyXML开源解析库实现。它主要由DOM模型类和操作类构成。因为它的API接口和Java的十分类似,有很好的面向对象性,可对XML schema中各节点进行指定查询、指定删除、指定增加和修改;MySQL数据库连接模块使用VC++中自带的MySQL API库中的函数实现即可。

3.2.2系统运行测试

为了验证系统在独立的两台服务器间通信和数据传输的可行性,在服务器与客户端分别建立了符合OAI协议的元数据仓储。服务器端作为服务提供者向数据提供者进行收割操作,对于系统元数据各收割功能进行测试。客户端仓储中数据包括大量数字文化资源和一部分网络影视资源的DC格式元数据信息,分别测试History_mass、Hisory_single和Fresh_mass这3个动词,分析返回结果,均满足收割请求条件要求且完整。以对History_mass动词进行测试举例,客户端元数据仓储接收结果如图5所示,下面是收割完成后返回的元数据XML schema片段:

……

……

图5 全部收割后数据仓储显示结果(截图)

4 小结

目前,OAI-PMH协议已广泛应用于数字图书馆等相关领域,但在网络资源管理方面涉及不多。本文设计并实现了互联网资源共享元数据收割示例系统,并面向网络音视频等互联网数字资源构建了元数据仓储。此系统基于TCP网络传输协议和OAI-PMH协议提出的收割流程进行搭建,具有规模较小且简单实用的特点,可在一般配置的计算机之间实现对各类互联网资源元数据的单条收割、全部收割和增量收割功能,经测试验证准确有效。目前本系统可独立应用于局域网内小规模的元数据资源共享及管理。本文的下一步工作可在此系统基础上扩展对象资源收割、多用户定时收割等功能,进一步实现互联网资源的共享与有效管理。

[1]CARL L. The open archives initiative protocol for metadata harvesting [EB/OL].[2015-10-08]. http://www.openarchives.org.

[2]NELSON M,WARNER S. The open archives initiative protocol for metadata harvesting protocol [EB/OL] [2015-10-08].http://www.openarchives.org/OAI/2.0/openarchivesprotocol.html.

[3]MALY K,ZUBAIR M,LIU X M. An OAI data service provider for the individual [J].D-Lib magazine,2001,7(4):1082-9873.

[4]齐华伟,王军. OAI-PMH与数字图书馆的互操作[J].图书馆论坛,2005(4):19-22.

[5]王秀慧. OAI-PMH中元数据同步模型的研究[D].太原:太原科技大学,2009.

[6]LAGOZE C,KRAFFT D,CORNWELL T,et al. Metadata aggregation and automated digital libraries: A retrospective on the NSDL experience[C]//Proc. 6th ACM/IEEE-CS Joint Conference on Digital Libraries.[S.l.]:ACM,2006:230-239.

[7]LIU X,MALY K,ZUBAIR M,et al. Arc-an OAI service provider for digital library federation [J]. D-Lib magazine,2001,7(4):12.

[8]Dspace [EB/OL].[2015-09-15]. http://dspace.org/.

[9]OAICat[EB/OL].[2015-09-09].http://www.oclc.org/research/themes/data-science/oaicat.html.

[10]孟喆. 基于开源环境的数字仓储系统的研究与实现[D].北京:北京邮电大学,2009.

[11]王蜀安,汪萌,张铭. 支持OAI-PMH的元数据互操作体系结构设计与实现[J].计算机工程与应用,2003,39(20):168-172.

陈梦(1992— ),女,硕士生,主研数字电视技术,网络视频处理等;

孟放(1972— ),硕士生导师,主要研究方向为数字电视技术、视频图像处理、网络工程等。

责任编辑:许盈

Research of metadata harvesting system for internet resource sharing

CHEN Meng, MENG Fang

(SchoolofInformationEngineering,CommunicationUniversityofChina,Beijing100024,China)

With the rapid development of the Internet technologies, effective management and sharing of massive data become a challenge. Metadata harvesting will be helpful in sharing metadata resources and improving the utilization of those resources over the Internet. First, the process of metadata harvesting based on OAI-PMH and its applications are introduced. After that, a metadata harvesting system for Internet resource sharing is designed and implemented in this paper. This system that based on the MySQL5.6 and VC, can realize the metadata harvesting function between computers with general configuration. Experimental results show that the system can be used as an effective way for Internet resources sharing and management.

internet resource sharing; OAI-PMH; metadata harvesting

TP391.3

ADOI:10.16280/j.videoe.2016.07.014

国家科技支撑计划项目(2012BAH01F00)

2015-11-25

文献引用格式:陈梦,孟放. 面向互联网资源共享的元数据收割系统研究[J].电视技术,2016,40(7):60-64.

CHEN M,MENG F. Research of metadata harvesting system for internet resource sharing[J].Video engineering,2016,40(7):60-64.

猜你喜欢

提供者服务提供者数据库
网络服务提供者的侵权责任研究
网络服务提供者的侵权责任研究
网络交易平台提供者的法律地位与民事责任分析
论网络服务提供者连带责任的理论困境
基于隐私度和稳定度的D2D数据共享伙伴选择机制
网络言论自由的行政法规制研究
数据库
论网络服务提供者的侵权责任
数据库
数据库