关联数据在图书馆服务中的应用方式探讨

2015-02-22卢玉红孙晓凤

成都中医药大学学报(教育科学版) 2015年3期

关键词：关联语义标签

卢玉红孙晓凤

(1.成都中医药大学图书馆，四川成都 611137;2.青岛远洋船员职业学院，山东青岛 266071)

作为一种发布和链接数据的规范，关联数据能够帮助现有的文件网络进化为富含语义的、计算机能够理解的数据网络。因此至2006年被提出以后，它受到了社会各界的广泛关注，企业、政府、各类研究机构都纷纷加入到研究行列中来，图书馆也不例外。

一、关联数据概述

1.关联数据的定义

关联数据是在现有万维网技术与架构上，实现各类数据、信息和知识之间语义关联的一种规范。它利用统一资源标识符(Uniform Resource I-dentifier，以下简称URI)命名数据，采用资源描述框架(Resource Description Framework，以下简称RDF)在网络上发布和链接数据，并通过超文本传输协议(Hyper Text Transport Protocol，以下简称HTTP)揭示和获取这些数据。目的是通过对万事万物及其相互之间关系进行机器可读的描述，使现有的文件网络进化为一个富含语义的、互联互通的数据网络[1]。

2.关联数据的四原则

关联数据的提出者——蒂姆·伯纳斯·李认为创建关联数据应该遵守以下四个原则[2]:①使用URIs作为任何事物的标识名称;②使用HTTP URI，使任何人都可以访问这些标识名称;③当有人访问某个URI时，提供有用的信息(采用RDF、SPARQL标准);④尽可能提供更多链接，以指向其它相关的URI，便于用户发现更多的相关信息。作为建立关联数据网络的基础指导原则，关联数据四原则建议尽可能地建立自身数据与外部数据之间的关联，而不具体规定必须使用某种特殊的、私有的协议或者应用程序接口，这实际上就决定了关联数据的通用性和开放性。

3.关联数据的特点

(1)拥有良好的描述能力

由于RDF能描述各类复杂的关系，因此关联数据也具有了描述各类数据语义关系的能力。同时关联数据还提倡建立和发布不同数据之间的关联，这些关联可以把各自为政的“数据孤岛”链接起来，形成一个全面的知识库，而一个数据与其它数据之间的链接，又恰恰可以反过来描述这个数据本身，就像字典里的词语一样，一个词语代表了什么，往往是通过与其相关的另外一些词来说明的。

(2)普遍适用的数据发布方式

关联数据的基本原则没有对描述对象的内部组织机制、系统调用接口等提出具体要求，并独立于任何具体的工具，只和相关的Web标准有关，因此人们可以使用多种方式来实现，这使得关联数据成为一种普遍适用的数据关联发布机制[3]。

(3)实现成本低廉

关联数据是建立在目前的Web体系之上的，它采用的技术是现有的技术，它也不需要推翻目前的一些网络基础和架构，只是需要在现有的系统之上搭建一个支持数据发布的机制即可，因此关联数据实现成本低廉。

(4)具有良好的开放性

关联数据试图构建一个开放的数据环境，强调数据与数据之间的关联，这种彼此之间的互联本身就是一种开放。另外关联数据的实现技术简单，每个人都可以发布自己的数据，并且发布者不会被强制采用一个集中的数据存储中心，或者一套统一的关系表达方式，他们可以把数据存储在本地，采用自己认为合适的描述词表来表达数据之间的关系。

二、关联数据在图书馆服务中的应用方式

1.关联数据对图书馆服务的影响

多年来，图书馆一直通过代码化的字段来描述资源的内容和外在特征，这样做大大强化了资源的数据结构描述，有利于资源在图书馆之间进行交换与共享。但是这种线性的，缺乏语义联系的组织方式不能很好地区分信息对象的实体层次和相互之间的关系，无法很好地对信息对象的各种表现形式进行集中，也不能很好地揭示信息对象本身的衍变关系。这样的状况不仅容易让图书馆重复进行信息对象描述，造成工作效率低下，还会致使图书馆的资源服务效果不理想，影响用户对信息的识别和选择[4]。另一方面，目前图书馆的各类资源数据还处在一个比较封闭的环境中，虽然近年来图书馆也开始利用各类技术(如API、联邦检索等)来实现内外部数据的融合，但是由于技术本身的复杂和标准的差异，大范围的数据融合还是比较难以实现，这也极大地影响了图书馆资源服务的开展。而关联数据可以采用规范的组织模式来对数据之间或者各个数据属性之间的关系进行序化，充分揭示它们之间的内在语义关联，提高图书馆资源服务的效率和准确率。与此同时，关联数据可以将图书馆的资源与外部的相关数据链接起来，实现内外部数据的互联，这样不仅可以帮助图书馆利用外部的数据，扩大资源范围，还可以让外部的用户(人或者机器)顺着这些链接来到图书馆，进而增加图书馆服务的受众面。

2.基于关联数据的图书馆服务方式

大量的数据被发布为关联数据以后，图书馆可以利用这些富含语义的数据构建丰富的应用，或者改善现有的应用，以提升自身的信息服务能力。具体而言，关联数据在图书馆中可以应用在以下几个方面:

(1)资源发现服务

为了扩大图书馆资源的检索面和提高检索效率，资源发现服务应运而生，为图书馆书目目录增加了额外的丰富信息，例如图书封面、外部评级、评论等，并为图书馆的众多资源提供了单一的检索入口。但是，这些数据只是简单地被导入到目录中，或是链接到具体的记录上，链接的建立是处在目录层次上，实际能提供给用户的详细信息是很有限的[5]。实施资源发现服务的目的就是为了扩大检索面，为用户提供更多、更全的信息，而关联数据则允许图书馆关联到更广泛的信息资源，用户检索某一资源时，可以很自然地根据资源链接到作者信息，再根据作者信息找到其所著的其它研究成果，根据这些研究成果又可以找到一些相似作者或相似研究等等，这无形中就扩大了用户发现所需资源的路径。目前，已经出现了的一些关联数据的仓储和搜索引擎可以帮助图书馆来扩展资源发现的途径。

(2)资源推荐服务

图书馆除了拥有大量的文献资源外，还保存有大量的用户借阅信息，而用户的借阅信息可以真实地反映出用户的兴趣。图书馆可以对这些信息进行数据挖掘，分析用户的借阅规律，再根据这些规律向用户实施个性化的主动信息推送服务[6]。但是图书馆的用户信息、借阅信息和图书馆的资源信息是存储在不同的系统中，要实现数据的融合需要跨越系统间隔障碍。借助于关联数据，可以在这些不同的系统上层搭建关联数据层，将来自不同系统的数据进行关联，再依据这些数据之间的关联找出用户可能感兴趣的资源，最后主动推送给用户。例如根据用户的借阅信息，可以在图书馆资源库中找到其它相关信息，把这些相关信息推送给用户的同时，还可以依据借阅信息之间的相关性分析出相关读者群，再依据他们的借阅信息进行资源相互推荐。

(3)数据融合

随着数字化资源的不断增加，现在的图书馆已经出现了由信息资源拥有者转变为信息资源使用者的趋势[7]，为了能应用外界丰富的资源，图书馆开始对数据融合高度重视。发现图书馆内部数据和外部数据之间的关系，建立两者之间的关联，不仅可以扩展数据搜索与获取的范围，还可以扩大用户链接回图书馆的机率。由英国联合信息系统委员会(Joint Information Systems Committee，以下简称JISC)支持的LOCAH(Linked Open Copac and Archives Hub)项目致力于利用关联数据技术把Copac(一个由英国国家图书馆、多个大学图书馆和专业图书馆合作构建的联合目录)中的书目数据和档案中心的档案数据融合起来发布为可用的关联开放数据，并与其它数据集建立关联，提供可视化的浏览与检索方式，以便研究者们能发现影响他们研究结果的资源，同时也让隐藏起来的资源能暴露出来以供需要的人使用。目前这个项目发布的数据已经和DBPedia、BBC、LCSH、OCLC的名称规范数据集建立了关联[8]。

(4)增值服务

单纯地把图书馆的数据以关联数据的形式发布出来是远远不够的，用户需要的往往不是数据，而是利用数据生成的增值服务，图书馆应该利用自身的数据优势，将可用的数据利用起来，发挥数据应有的价值。例如图书馆可以利用自身数据优势来提供抽词服务[9]。

目前，图书馆在这方面的应用还是一个空白，但是在图书馆以外，已经有很好的关联数据服务模式值得图书馆学习，汤姆森路透公司的Open-Calais就是一个很好的学习案例。OpenCalais是汤姆森路透公司Web服务融入到Drupal内容管理平台中的产物，它可以利用自然语言处理、机器学习等技术来分析用户上传的内容，发现其中的各种实体，并将这些实体提取出来并以关联数据形式发布，以便搜索引擎发现和索引[10]。

(5)语义标签

标签是用户参与资源建设的一个重要工具，它允许用户采用任意词语对信息资源进行标注，便于资源的组织与管理。但由于语义模糊、用户非专业性、自由词分类复杂等因素，利用标签来进行图书馆信息组织和检索的效率低下，而将关联数据与标签技术相结合而产生的语义标签则可以为此提供一个有效的解决途径。语义标签使用数据网络中已经存在的实体构成用户标签的通用受控词表，每个标签都有着各自的关联关系。图书馆又恰恰拥有大量由专业人员制作并维护的受控词表，并且有些已经发布成为了关联数据，它们可以成为语义标签通用受控词表的主力军[11]。

Faviki就是一款语义标签工具，它以URI的形式表示相关概念、概念属性，并在标签之间建立起了语义链接，用户可以根据某一个标签就发现丰富的相关资源，目前Faviki的语义标签主要来源于 DBpedia[12]。

关联数据是一个新兴的事物，图书馆应该积极地尝试引进此类新的技术或者概念到自己服务中来，以便应对来自外界知识服务机构的竞争冲击，当然，关联数据在图书馆服务中的具体应用不限于上面提到的几种方式，随着关联数据种类和数量的增多，相应的应用会逐渐丰富起来。

[1]刘炜.关联数据:概念、技术及应用展望[J].大学图书馆学报，2011(2):5－12.

[2]Berners－Lee T.Linked Data－ Design Issues[EB/OL].[2014－05－12].http://www.w3.org/DesignIssues/LinkedData.html.

[3]沈志宏，等.语义网环境下数据溯源表达模型研究综述[J].现代图书情报技术，2011(4):1－8.

[4]白海燕，等.基于本体和关联数据的书目组织语义化研究[J].现代图书情报技术，2010(9):18－27.

[5]黄永文.关联数据驱动的Web应用研究[J].图书馆杂志，2010，29(7):55－59.

[6]雷蕾.基于关联规则的个性化图书推荐研究[J].情报探索，2011(1):49－50.

[7]程焕文.知识应发现而美丽——图书馆发现系统创新研讨会暨中山大学发现系统开通仪式上的讲话[EB/OL].(2013－03－29).[2014－04－02].http://blog.sina.com.cn/s/blog_4978019f0102e2if.html.

[8]Ruddock B.Linked Data and the LOCAH project[J].Business Information Review，2011，28(2):105－112.

[9]林海青，等.图书馆关联数据:机会与挑战[J].中国图书馆学报，2012(1):55－65.

[10]OpenCalais[EB/OL].[2014－02－14].http://drupal.org/project/opencalais/.