APP下载

元数据在数字图书馆的应用研究*

2010-08-15

长沙大学学报 2010年2期
关键词:检索数字图书馆

刘 丽

(鸡西大学图书馆,黑龙江 鸡西 158100)

元数据在数字图书馆的应用研究*

刘 丽

(鸡西大学图书馆,黑龙江 鸡西 158100)

以元数据的概念为铺垫,对元数据在数字图书馆应用的必要性做了阐述,重点探讨了元数据在数字图书馆的应用及应当注意和解决的问题.

元数据;数字图书馆;DC

元数据是为了解决互连网上海量信息资源的组织与管理问题而兴盛起来的,它具有信息的发现与选择、描述与揭示、整合与集成等功能.元数据被广泛应用在图书馆、自然科学、政务办公、社会科学等领域.由于数字图书馆的收藏种类繁多,数量庞大,既有传统的印刷资源,又有类型各异的数字资源等特点,因此为了满足用户快速、准确地获取到所需信息,数字图书馆必须使用元数据对其信息资源进行有效组织与管理.离开元数据的数字图书馆将是一盘散沙,无法提供有效的检索和处理.

1 元数据概述

元数据 (metadata),是用于描述数据的内容(what)、覆盖范围 (where,when)、质量、管理方式、数据的所有者 (who)、数据的提供方式 (how)等信息的数据,是数据与数据用户之间的桥梁.简言之,元数据是关于数据的数据.

在图书馆与信息界,元数据被定义为提供关于信息资源或数据的一种结构化的数据,是对信息资源的结构化的描述.其作用为:描述信息资源或数据本身的特征和属性,规定数字化信息的组织具有定位、发现、证明、评估、选择等功能[1].

从上述定义我们可以看出元数据所揭示的内涵似乎与传统的书目数据、MARC数据极其相似,都是关于对象数据 (或资源)重要特征的描述,以促进信息对象的发现和检索.但是,我们也不能将元数据简单地等同于传统的书目记录.我们知道元数据产生于网络时代,它是为组织与检索海量网络信息资源而提出的,它的内涵比书目记录要丰富得多.它可以为各种形态的信息资源提供规范、普遍的描述方法和检索工具,为分布的、由多种资源组成的信息体系 (如数字图书馆)提供整合的工具与纽带.

2 元数据在数字图书馆应用的必要性

数字图书馆的基本逻辑构成是“资源”,资源是可以被标识的任何东西,可以是物理的实体,也可以是数字对象或者虚拟的复合对象或对象集合.元数据的出现就是要整合这些资源,使其有序化.由于元数据提供了对资源的各种属性的描述,因而可以看成是“资源”的替代品.数字图书馆通过管理元数据而管理资源,并提供绝大多数功能.因此元数据通过定义数字图书馆中资源的信息结构,以及定义由数字对象构成的资源库的组织结构,决定着数字图书馆的信息组织和利用方式,同时元数据还是实现跨资源库语义互操作的基础.具体来讲,元数据在数字图书馆信息组织中的必要性表现在以下几方面:

2.1 信息的查找与识别

浩瀚的网络资源为信息资源的生成带来了极大的便利,几乎任何人在任何时间内都可以成为信息资源的创建者,但由于资源创建者自身素质的差异极大,且缺乏严格的网络出版监督机制,导致了信息资源质量的参差不齐,因特网成了展示这些“商品”的杂店.作为数字图书馆的信息组织人员,其首要的任务就是利用信息资源创建者提供的简单元数据,对这些杂货店的商品进行严格筛选,以提供给最终用户以高质量的信息资源[2].

2.2 信息的描述与揭示

对信息资源的描述与揭示是元数据的最主要的功能,也是数字图书馆信息组织的核心.同传统图书馆一样,对于筛选过的、已成为数字图书馆馆藏的信息资源,信息组织人员需要根据资源类型使用传统元数据标准 MARC或现代元数据如 DC、VRA、FGDC等对其进行描述与揭示,以方便用户对资源的发现与检索.

2.3 信息的整合与集成

利用元数据整合与集成的功能,建立元数据体系,将传统馆藏和数字化馆藏整合集成到一个统一的用户界面上,使得用户可以通过任意一个数字化图书馆的单个界面,访问互联网上的其他数字化图书馆和信息库,为用户提供统一的集成服务.

3 元数据在数字图书馆中的应用

3.1 数字图书馆建设中的应用

由于 DC(Dublin Core元数据)具有结构简单、易操作、可扩展性等特点,因此数字图书馆建设多采用DC作为元数据方案或参照DC元数据,并根据实际需要对 DC元数据进行扩展,实现对信息资源的组织及提供检索.

上海图书馆在数字图书馆建设中,共实现了 7个数字化项目,包括:善本古籍、上海图典、上海文典、中国报刊、民国图书、点曲台和科技百花园.这些文献资源中的图书已经有完整的MARC格式记录,古籍已用特殊的元数据来描述,图典则需要重新加工和组织.这样,上海图书馆在建设的过程中面临的是多种元数据并存的局面,为了满足不同元数据集之间因应用的需要而产生的互操作的需求,定义一个核心元数据集显得非常必要,为了实现不同数据集间的互操作,上海图书馆选用 DC元数据作为核心元数据集,以便于元数据之间的转换与整合.

北京大学的元数据设计是在一个总则和总的规范性文件——《北京大学中文元数据标准框架》的指导下,分别完成各资源对象的元数据设计.该文件规定了元数据的设计原则、功能、结构等问题.元数据分为描述型元数据、管理型元数据和应用型元数据,其中描述型元数据又划分为核心元素、本馆核心元素和个别元素.其中,核心元素采用了 DC的 14个元素,并且在使用的过程中严格遵循 DC的语义定义,通用性最强,此层次的元素是数据交换和共享中的核心所在,各资源对象的核心元素都包含在这 14个元素内.本馆核心元素和个别元素则是根据不同对象的特性而定制的.目前已经设计完成的元数据方案包括拓片元数据、古籍元数据、学位论文元数据、舆图元数据、电子图书元数据以及人物类元数据.

作为美国“数字图书馆首倡计划”之一的斯坦福大学数字化图书馆,是一个分布式的、异构的、基于代理的数字图书馆,其自动服务和收藏功能通过代理服务器来间接获得.为满足元数据的可容性和内部操作性,它的元数据体系包括以下四个基本组成部分:属性模型代理、属性模型翻译器、搜索代理的元数据设地、元数据包.其中,属性模型是指自包含的属性集,即诸如 DC、US MARC等元数据标识集.属性模型代理包含了属性集和为首要对象定义的属性,也允许包含属性间的种种关系.属性模型翻译器将来自某个属性集的属性和属性值映射到另一个属性集中.搜索代理的元数据设施为搜索代理的可访问资源和搜索能力提供了结构化的描述.元数据包积聚了从其他三个组成部分中挑选出的元数据,以利于元数据的全局查询和局部检索,是该数字化图书馆的基础设施,它的核心是代理 (包装器).元数据体系的建成便于各种格式的元数据在网络数据库间进行导入和导出,实现不同格式的元数据之间的互换,使得数字化图书馆最终成为互联网上阅读浏览的网络数据库.

3.2 数据库建设中的应用

作为国内知名的数据提供商,万方公司于 2003年 8月正式启动元数据标准项目,经过对中外各类成熟的元数据的分析和对国内几大图书馆元数据方案的调研,对文献类 (期刊论文、会议论文、引文、科技文献)数据库、机构类 (科研机构、高等院校、企业产品)数据库、标准法规类数据库、成果专利类数据库、人物类数据库共五大类一百多个数据库进行数据规范的设计.最终决定除人物类采用 vCard元数据外,其他四类均采用 DC作为描述型元数据的核心元素集,使得 DC在国内的推广和应用又迈进了一步.

3.3 信息组织中的应用

数字图书馆的信息组织由指针、元数据和数据部分组成.指针是唯一用来标识数据的,对应于传统图书馆的排架号;元数据是一组用来描述数据本身特征的数据集,对应于传统图书馆的目录;数据是数字图书馆的基本信息对象,对应于传统图书馆的文献[3].对象数据可分布式存放在各地的资源点内,用户查询时,利用元数据搜索引擎,即通过一个统一的用户界面帮助用户在多个搜索引擎中选择和利用合适的 (甚至是同时利用若干个)搜索引擎来实现检索操作,是对分布于网络的多种检索工具的全局控制机制[4].著名的元搜索引擎有 InfoS-pace、Dogpile、Vivisi mo等 (元搜索引擎列表 ),中文元搜索引擎中具有代表性的为搜星搜索引擎、搜魅网 (someta)、马虎聚搜等.在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如 Dogpile,有的则按自定的规则将结果重新排列组合,如 Vivisimo.因此,在数字图书馆信息组织中应用元数据,可以使用户充分利用元搜索引擎带宽广的特性来访问远程资源,以提高检索效率.

4 元数据在数字图书馆应用中需注意的问题

元数据在数字图书馆的建设中已经取得了一定的成绩,但也存在着一些需要注意和解决的问题,尤其是标准化问题、通用性问题、互操作问题等等.

4.1 元数据方案的标准化问题

在数字图书馆建设中,标准问题最重要的是元数据的制作,而与元数据的制作紧密相关的问题是元数据方案的设计.元数据方案的标准化具有广泛的内涵.它包括元素著录内容的标准化、同类型数字化信息资源的著录所采用元数据的一致性、元数据方案所采用编码语言的统一性这几个方面[5].例如在超星数字图书馆的一条文献记录中,将 Publisher理解为“数字式资源制作者”,Data理解为“数字式资源制作日期”,这与 DC元素的本意是否相符合,还有待商榷,而 Format、Type等几个元素的意义也比较抽象和模糊,各单位在应用的过程中也不尽相同,这些都涉及到元数据使用过程中的标准化问题,因此我们在使用元数据的过程中,应理解元素的语义定义并严格遵守.

4.2 元数据方案的互操作性问题

今天,在分布式信息环境中已经有多个元数据格式存在,并将有更多的元数据格式出现,因此元数据的互操作问题已成为元数据的开发者和潜在使用者关注的焦点.但在过去的几年中,不兼容的数据格式和数据结构阻碍了信息系统之间的互操作.一个日益重要的问题是怎样实现各种元数据间的互操作,以保证任意系统的用户能够在整个分布式环境中发现、检索和利用所需要的任意资源和任意服务.因此,笔者建议采用统一的元数据标准、元数据映射、元数据转换等方式,以实现真正意义上的互访.

4.3 元数据方案的结构、层次与整体性问题

随着元数据的不断发展,元数据已经不仅仅用于描述信息对象的内容,还可以描述信息对象的制作过程、保存、评估、服务、使用权限等各方面的内容,因此元数据的结构和层次也越来越复杂化.人们根据元数据的功能把元数据的元素划分为描述型元素、管理型元素、技术型元素、长期保存型元素等,根据元数据的重要性把元素划分为核心元素、非核心元素或个别元素等等.元数据结构与层次的划分有利于数据处理、数据交换或共享过程中对数据进行区分,因此,在对元数据的结构层次进行正确的设计时,还应该考虑元数据的整体性与系统性问题.

[1]沈凤善.元数据在数字图书馆中的应用[J].牡丹江师范学院学报,2005,(1):122-123.

[2]邵晓红.元数据在数字图书馆信息组织中的应用[J].鄂州大学学报,2008,(5):14-16.

[3]盛小平.论元数据在数字图书馆信息组织中的应用[J].图书情报工作,2001,(7):43-45.

[4]周立清.元搜索引擎概述[EB/OL].http://baike.geiwosou.net/index.php?doc-view-32.html,2010-03-02.

[5]孙岚玲,等.元数据在数字图书馆中的应用 [J].情报科学,2004,(10):1230-1233.

(责任编校:简子)

G202

A

1008-4681(2010)02-0076-03

2010-01-21;

2010-04-14

刘丽 (1980-),女,山西代县人,鸡西大学图书馆馆员,硕士生.研究方向:数字图书馆的发展.

猜你喜欢

检索数字图书馆
图书馆
答数字
数字看G20
专利检索中“语义”的表现
去图书馆
成双成对
国际标准检索
国际标准检索
数字变变变