APP下载

网络环境下信息资源描述方法及其应用

2011-07-24

图书馆界 2011年5期
关键词:字段图书馆资源

毛 芸

(北京师范大学管理学院,北京 100875)

1 网络信息资源描述的特点

网络信息资源是指以电子数据的形式将文字、图像、声音、动画等相关信息存放在光、磁等介质上,并通过网络通信、计算机或信息终端等方式再现出来的信息资源。它是电子资源的一个重要组成部分。但由于网络信息资源自身的特点,目前对于网络信息资源的描述还缺乏有效的规范。具体来说,网络信息资源有以下几个特点。

(1)信息量大,质量良莠不齐。由于网络信息具有很大的随意性和自由度,其发布也没有经过严格的审查、监督和质量控制,信息质量良莠不齐。

(2)内容丰富,格式多样化。网络信息资源的内容包罗万象,覆盖了不同学科、不同领域、不同地域、不同语言的信息资源;网络信息资源的格式呈现多样化,如HTML、XML、TXT等;网络信息资源的文献类型也不尽相同,包括网上出版物、动态信息、书目数据库、联机数据库、软件资源等。

(3)信息源不规范,难以准确定位。网络信息资源一般缺乏类似实体信息资源的主要信息源,其主要著录信息一般散见于多个页面的不同位置,而且反映网络信息资源位置的URL具有较大的变动性,即不同的URL可能代表着同一个资源,同一个URL又可能在不同的时间代表着不同的资源,不具备实体信息资源中类似ISBN信息资源的可靠性和稳定性。

2 网络信息资源描述的主要方法

由于网络信息资源日益增长,为了对其进行规范化管理,从而更好地加以利用,有必要对网络信息资源的描述方法进行研究。目前,已经有多种描述网络信息资源的方法,本文主要介绍MARC、DC、MODS这三种。

2.1 MARC

美国最早开展将MARC格式用于网络信息资源的编目研究工作。早在1991年5月1日,美国国会提交的49号讨论件就已经提出以USMARC格式为主要架构制定能囊括网络信息资源的有关字段。此举是图书馆界参与网络信息资源描述的创举。同年,OCLC也分阶段进行了网络信息资源编目的实践,研究USMARC和AACR2对网上信息资编目的适用性。随后几年,LC和OCLC不断对USMARC格式进行了局部修改,以满足网络信息资源编目不断发展的需求。

对于中文的网络信息资源而言,可以运用135、230、336、337和856字段来提高MARC描述网络信息资源的能力。专门对网络信息资源的统一资源地址(URL)进行著录,并进行超文本链接。

MARC作为描述网络资源具有以下特点:

(1)描述资源的字段丰富、详尽,标准化程度高。MARC是一种详细描述的元数据格式,其定义的每个字段都非常详尽,而且对著录的内容有严格的限制,能够提供多种检索途径,提高资源的查准率。从一定程度上看,MARC是目前发展最早也是最成熟的资源描述方法,它是其他更新的元数据格式(DC、MODS)的重要参考依据。

(2)对于多套格式的同一资源的描述具有一定的优势。由于国内数字图书馆的兴起,很多传统图书馆纷纷向数字图书馆发展。许多纸质资源,如图书、期刊、乐谱等都进行了电子化和数字化处理。由于MARC对传统的完整、静止的书目信息描述有很大优势,同时它又有针对电子资源描述的字段,故MRAC能够兼顾这种多套格式的同一资源的描述。

(3)对于描述动态的网络信息资源较为薄弱。由于MARC的字段设计得很严谨,而且字段较多,非图书情报专业人员较难掌握。对于动态、海量的网络信息资源而言,MARC的使用则缺乏一定的灵活性。

2.2 DC 元数据

DC元数据全称为Dublin Core Metadata,是国际组织Dublin Core Metadata Initiative拟定的用于标识电子资源的一种目录模式。网络信息资源的无序性对检索时的查全率和查准率造成极大影响,DC元数据可以促进网络信息资源的发现,是支持网络检索而建立的元数据模式,目前已更新到1.1版本。

DC元数据有简单和复杂之分。简单的DC有15个核心元素,而且可以根据需要选择若干元素进行资源描述,这样可以简化著录项目。复杂的DC是在简单DC基础上引入修饰词的概念,主要有体系修饰词(Scheme)、语种修饰词(Language)和进一步修饰元素属性的子元素修饰词(Subelement)。其中体系修饰词借鉴了MARC的优点并把分类法、主题词表等控制语言吸收进去。DC元数据标准规范见表1。

表1 DC元数据元素一览表

DC元数据作为描述网络信息资源的方法,主要有以下几个特点:

(1)DC元数据可采用多种编码语言描述。DCMI推荐认可多种语言对DC元数据进行描述,如XHTML metatags,XML,RDF/XML等。但在图书馆领域中,使用最多的还是XML这种技术手段。为了便于DC元数据与其他元数据进行格式上的转换,DC元数据采用了RDF(资源描述框架)格式。[1]RDF可以使用XML和RDF Schema将不同元数据标准描述成为数据模型,形成结构化的XML数据,便于搜索引擎精确查找。DC现已更多地从技术层面来进行网络信息资源的规范控制,而不仅仅是从标准上解决电子资源的描述问题。

(2)DC元数据简单易用,灵活方便。相比MARC,DC元数据使用起来更为简单,不论是图书情报专业人员还是用户,都能较容易掌握和使用。DC的15个核心元素都是可选的,针对不同行业学科的资源,可以选择不同的元素进行描述。同时DC各元素是可重复的,可以根据信息资源属性的多样性进行重复著录,从而很好地解决了多语种、多创建者、多版本资源的著录问题。

(3)DC元数据具有良好的可修饰性。DC采用子元素限定词、控制词作为数据单元来进一步描述资源。大多数元素都有子元素,限定词的使用非常灵活,结构也较为简单。例如,核心元素Relation就包含 hasVersion、isVersionOf、replaces、isReplacedBy、requires、isRequiredBy、hasPart、isPartOf等多个子元素限定词。

2.3 MODS

MODS(Metadata Object Description Schema)的中文译名为元数据对象描述模式,是由美国国会图书馆下属的网络发展部和MARC标准办公室共同研制出来的一种新的元数据,目前已推出了3.4版本。MODS是在MARC的基础上发展起来的,其复杂程度介于MARC与DC之间,既克服了两者的缺陷,又对两者都有着良好的兼容性。

MODS由元素、子元素、属性三个部分构成。在MODS 3.4版本中,共有20个主元素和2个根元素。每个主元素下都有若干个子元素,元素具有属性。所有元素都可以重复使用,但属性不可以重复使用。每个MODS记录至少要有1个元素,即主元素“题名信息”和子元素“题名”是必不可少的,其他元素均是可选的。MODS的主元素见表2。

表2 MODS主元素表

MODS之所以适用于网络信息资源的描述,主要是源于以下几个特点:

(1)元数据集比DC更丰富,比MARC更简洁。DC的元素字段过于简单,而MARC字段又过于详细,结构过于复杂。[2]MODS元数据参考 MARC字段,取自MARC的子集,同时又提供了比DC更为丰富的字段。

(2)MODS允许开发者自定义标签。MODS采用的语言标签允许资源创建人员自定义标签,标签的名称和含义可由创建者根据需要作出选择。而资源创建者也不需要具备专业的编目能力。因此简单实用,能够快速地编制记录,满足各类信息交换的需要,具有良好的普适性。

(3)MODS是集成MARC及DC的桥梁。由于MODS与DC都在一定程度借鉴了MARC的标准,是从MARC发展而来,故三者具有一定的互通性。而MODS的结构复杂程度介于MARC和DC之间,故可将MODS作为MARC和DC之间转换的桥梁。

3 信息资源描述方法在特定网络资源中的应用

在三种描述方法中,MARC最为详细,MODS的难易程度适中,DC元数据最简单。这三种描述方法在不同的网络信息资源的描述中各有优势。目前也已经有很多图书馆及组织机构利用这些方法描述网上信息资源,国内外也有一些项目专门研究这些描述方法的利用情况。

MARC的优势在于描述传统书目信息资源。目前大多数图书馆的书目数据仍以MARC为主要描述标准。由于数字图书馆的兴起,许多传统图书馆纷纷向数字图书馆转型,馆藏中不可避免地出现了内容相同而载体不同的信息资源。为了保持数据的一致性,需要使用同一种元数据标准对上述类型的资源进行描述,而MARC就能很好地满足这个需求。既可以用MARC描述传统纸质资源,又可以着重采用扩展的MARC字段来描述与纸质资源对应的数字化资源。如中央音乐学院图书馆对于纸质的乐谱资源进行数字化,建立了自有乐谱数据库。为了方便用户同时检索到纸质版乐谱和数据库版乐谱,其在常规MARC字段中加入了电子资源描述字段,对两者进行关联。

DC元数据灵活易用,它对于描述动态的海量网络信息资源有着一定的优势,如非正式出版的各类网络信息资源、综合性门户网站内容等,可用于一般网络信息资源的标志和检索。但是,DC结构较为简单,对于专业学科类网络信息资源具有一定的局限性。所以,为了增强DC元数据的描述能力,同时又保持DC简单易用的特点,DCMI成立了多个工作组,根据不同学科领域的需求分别对DC进行了扩展,制定了 DC-Agent,DC-Citation,DC-Library,DC-Education,DC-Government等不同DC元数据标准并得到了应用。[3]如澳大利亚政府定位器服务(Australian Government Locator Service)就宣布采用DC元数据格式作为其电子政府文献的信息著录标准。

MODS最重要的一个功能就是作为MARC和DC两种标准集成的桥梁,起到中间转换的作用,所以MODS适用于复合型图书馆资源的描述。MODS主要用三种方式来实现不同格式的集成:1)MARC转为MODS,DC转为MODS,以 MODS为统一元数据格式进行集成处理;2)MARC转为MODS,再转为DC,以DC为统一元数据格式进行集成处理;3)DC转为MODS,再转为MARC,以MARC为统一元数据格式进行集成处理。[4]无论是哪种方式,都必须首先转为MODS格式。现在也有较多以MODS为标准元数据集成各类资源描述格式的项目,如美国国会图书馆主办的“美国记忆”就把American Memory和Global Gateway中大约20万条MARC记录转为MODS格式;澳大利亚国家图书馆主办的“澳大利亚国家书目数据库元数据项目”将原DC元数据格式转为MODS,再转换为MARC,最终全部转入澳大利亚国家书目资料库。[5]

4 结语

网络信息资源的描述方法有很多,不仅仅局限于以上三种。不同的网络信息资源描述方法都各有优、缺点,不能简单地说哪种标准好或不好。这些描述方法由于自身的不足或是网络环境因素在网络信息资源中的应用都还不是非常普遍。目前,我国的网络信息资源组织标准化建设还处于不断探索、不断实践和不断完善的时期。鉴于国外在信息资源开发与建设的标准化研究方面处于领先水平,因此我国网络信息资源标准化建设应参照相关国际标准,结合中国国情,建立标准的、结构化的同时被人们认可的元数据标准体系。通过“联合、开放、共享”的运作模式,建立合理的资源共享标准体系,从而促进我国网络信息资源的规范发展。

[1]张云瑾.DC元数据——组织网络信息资源的有效工具[J].引进与咨询,2004(1):30—32.

[2]吴桂英.元数据MODS及其应用前景展望[J].科技情报开发与经济,2009(8):125—127.

[3]王 伟.近年来我国DC元数据研究文献综述[J].图书馆理论与实践,2007(5):58—60.

[4]李卫峰.基于MODS的数字图书馆元数据集成[J].大学图书情报学刊,2010(6):58—94.

[5]倪 娟.MODS元数据的新发展与应用[J].农业图书情报学刊,2006(6):165—167.

猜你喜欢

字段图书馆资源
带钩或不带钩选择方框批量自动换
我给资源分分类
资源回收
做好绿色资源保护和开发
图书馆
激活村庄内部治理资源
无正题名文献著录方法评述
无正题名文献著录方法评述
去图书馆