APP下载

资源发现系统存在的问题及其对策

2015-02-12翟中会西安交通大学图书馆陕西西安710061

图书馆建设 2015年3期
关键词:排序检索数据库

翟中会 (西安交通大学图书馆 陕西 西安 710061)

资源发现系统存在的问题及其对策

翟中会 (西安交通大学图书馆 陕西 西安 710061)

图书馆的资源发现系统存在排序结果不一致、缺乏高级检索功能、不能满足查全率、不利于用户信息素养技能提高、链接全文功能不稳定等问题。这些问题可通过改变资源发现系统的默认设置、提供最好的推荐及“便当盒”样式加以改进。

资源发现系统 检索相关性 高校图书馆

资源发现系统打破了图书、论文和其他文献类型之间的“筒仓”,为用户提供了类似于Google“单盒子”的检索体验[1]。虽然资源发现系统为用户提供了良好的检索体验,但其仍存在一些问题,如排序结果不一致、缺乏高级检索功能、不能满足查全率、不利于用户信息素养技能提高、链接全文功能不稳定等。其中,用户认为最严重的一个问题是查询结果的不相关性[2]。笔者在对资源发现系统的测试和使用过程中,总结出了资源发现系统存在的7个问题,并以此为基础,提出了高校图书馆解决资源发现系统可用性的3种对策。

1 问 题

1.1 缺乏数据库高级检索功能

资源发现系统的检索功能有两种发展趋势,一是数据库最常用的标准功能+资源发现系统特有的功能,这种资源发现系统定位为数据库的补充检索工具,如Summon;二是资源发现系统中尽可能多地融入数据库的检索功能,用资源发现系统替代数据库,如EDS(Ebsco Discovery Service,Ebsco发现服务)。各种资源发现系统不断加强其高级检索功能,但仍不及专业数据库。存在这个问题的主要原因是资源发现系统包括了各种类型的资源,因此不能建立一个统一的控制词汇系统(如MESH词表),也就不能像专业数据库那样以学科水平进行细颗粒过滤。

1.2 目标人群定位不统一

不同资源发现系统有不同的目标人群定位。Serials Solutions指出,Summon不能代替传统数据库(无论是全文或索引)[3],其用户定位为刚开始检索资料的大学生。Ebscohost在2014年高校图书馆发展论坛上宣称,EDS加入了各种索引数据库,所以EDS不但适用于本科生而且适用于研究生及研究人员[4]。笔者认为,EDS除了加入了大量索引数据库外,其本身内置于Ebsco平台,有许多类似于数据库的高级检索功能,因而EDS比Summon更适合高级用户。

1.3 匹配算法不统一

当前,许多索引数据库都加入了资源发现系统,如Summon现在支持ERIC(Education Resource Information Center,教育资源信息中心)、MLA(Modern Language Association of America,美国现代语言协会)等100多个索引数据库[5]。EDS覆盖更多的索引数据库,并且建立了一个融合平台[5]。EDS供应商宣布其拥有一些独一无二的索引数据库,如Psycinfo、EconLit等。

用户检索时是匹配“全文+元数据”还是仅仅匹配“元数据”,理论上,“元数据+全文”匹配更加强大。但是在资源发现系统中,由于算法的问题导致用户经常检索到许多不相关的条目。EDS中有一个设置“searched full of matching”,用户可以打开或关闭这个选项。Summon没有限制元数据检索设置,但是后来Summon改进了算法,将全文匹配限制在前200单词内,这种限制主要是把全文匹配限制在关键词出现的页面,减少了检索结果的不相关性。

1.4 检索结果显示不一致

有些资源发现系统将用户定位于本科生,本科生主要通过资源发现系统查找图书馆目录,因此,其如果列出图书馆不能获取的文献,将不利于缺乏检索经验的本科生使用。Summon本身默认显示订购或能够免费访问的资源。但是,如果资源发现系统包含了索引数据库、机构库、Open Access(开放获取)等资源,用户可以看到“citation only”标识,即表示这些条目用户没有权限访问。Summon的“citation only”包括pre-login和post-login两种类型,典型的pre-login检索结果一般不会显示“citation only”条目,但有时会发生一些例外,这是由于资源发现系统包含了机构仅订购部分内容的数据库(如一些单位只订购了Proquest dissertation and thesis数据库的部分内容),但是资源发现系统包含了这个数据的所有内容。虽然用户在检索结果中可以看到该数据库的所有条目,但是用户对有些条目不能看到详细的信息。为了减少不可访问资源对用户的干扰,Serials Solutions设置了“Exclude Citation Online Content”检索,用户可以利用这项功能排出不能访问的资源。在Summon中,大多数摘要数据库在没有授权下不允许显示在结果中,如Web of Science、MLA等数据库。也就是说,要在资源发现系统结果中显示Web of Science的结果,用户必须有访问Web of Science的权限。因此,用户有时会发现,在不同的网络环境下使用资源发现系统会出现检索结果不一致的现象。Ebscohost采用了post-login模型,用户的检索结果中能够显示包含的索引数据内容,但是用户访问详细内容时也需要授权。

1.5 显示OPAC记录问题

资源发现系统收割了馆藏目录的MARC(Machine Readable Catalogue,机器可读目录)记录,但是当用户点击检索到的书目信息时,资源发现系统又将链接转到馆藏目录界面。这将导致用户突然从资源发现系统界面切换到传统OPAC(Online Public Access Catalogue,联机公共目录查询系统)界面,用户可能会感觉到一些不适应。笔者认为,有3种方法来解决这一问题:①资源发现服务供应商本身就是ILS(Integrated Library System,图书馆集成系统)供应商,如Ex Libris和Primo Central联合提供服务。②资源发现服务供应商与ILS供应商合作。③高校图书馆采用开源软件接口,如以Vufind作为资源发现服务索引用户接口。美国麻省理工大学在这方面具有成功的经验,该校图书馆直接在资源发现系统中显示馆藏信息及图书状态,这也保证了OPAC目录和资源发现系统同步,不会出现馆藏目录和资源发现系统数据不一致的现象[6]。

1.6 内容提供商与资源发现系统的合作问题

JSTOR、Sage、Science Direct等数据库已经加入Summon的索引,越来越多的索引数据库(如Web of Science、MLA、ERIC)也被加进授权用户的资源发现系统中,但是也有一些索引数据库仅和E bsco合作(如Psycinfo、EconLit等);同时,仍有一些聚合数据不愿意与资源发现系统合作(如Proquest和Ebscohost)。

1.7 全文链接丢失问题

资源发现服务依靠openURL获取全文,但openURL链接全文并不是百分之百可靠,因此,资源发现系统采取了一些替代方法链接全文。例如,Summon实现了“Index-Enhanced Direct Linking”,EDS实现了“smart links”和“custom links”,其中“smart links”主要解决Ebscohost 数据库的全文链接问题。但是,一些报纸文章、非期刊条目及免费内容仍存在一些问题。

2 高校图书馆的对策

高校图书馆的目录系统大约有几百万条书目记录,加之期刊论文、报纸文章和一些其他类型的文献,其馆藏记录数量将比原来至少增加50~100倍,西安交通大学(以下简称西安交大)图书馆资源发现系统的馆藏记录数量已超过4亿条[7]。随着馆藏记录数量和类型的增加,用户在检索时系统会显示大量不相关的结果。目前,四大资源发现系统(Summon、Primo、EDS、Worldcat Local)都不允许用户更改相关排序算法,不同需求的用户只能采用相同且唯一的等级算法。另外,即使系统允许高校图书馆馆员更改相关等级算法,这对高校图书馆馆员来说也是一个非常复杂且困难的事情。因此,高校图书馆馆员只能在不改变资源发现系统排序算法的前提下,修改资源发现系统的其他方面以提升其可用性。

2.1 改变资源发现系统的默认设置

高校图书馆馆员虽然不能改变资源发现系统的排序算法,但是能通过调整系统的默认设置影响检索结果的显示。西安交大图书馆从2012年开始部署了Summon,该系统包含了大量的报纸文章和书评,目前资源数量已达到1 568 872条[8]。Summon对报纸文章和书评的排序等级非常高,在用户检索时,其报纸文章和书评排在检索结果列表的最前面。为了满足用户需求,Summon在方面检索栏里设置了“不显示新闻报纸中的文章”以排除这类资源,并将这一检索限制的位置提升到了更醒目的位置,下调了“内容类型”、“出版时间”等方面检索的位置。通过方面检索,用户能够很好地排除一些不相关文献,但是笔者根据资源发现系统日志分析发现,用户很少使用资源发现系统的方面检索。因此,许多高校在部署资源发现系统时直接排除了新闻文章和书评。通过这种默认设置,用户对系统的抱怨明显降低。例如,在Summon中输入“galdwell outliers”(全名是outliers:the story of success by galdwell),如果将新闻和书评过滤掉,检索结果是第6条;而如果没有过滤新闻和书评,检索结果为第17条。资源发现系统服务商在Summon2.0中已经注意到报纸文章这方面的问题,其将报纸文章单独排序显示在一个独立的News组中。

EDS和Summon相同,也不允许用户修改等级排序算法。E D S中允许用户更改的设置包括应用相关关键词(apply related word)、在全文中检索(also search with the full text of the articles)、限制图书馆馆藏(available in library collection)。

2.2 最好的推荐

笔者对资源发现系统的可用性进行了测试并对其研究发现,在“知道”条目的搜索中,资源发现系统的表现非常差[9]。例如,用户在资源发现系统中输入期刊名“Urban Geography”,其本意是找到该期刊的链接,但是Summon却将报纸文章、书评、图书排在了最前面,导致用户很难找到该期刊的链接。这一问题直到Summon2.0发布了“best bets”后才得以解决,即允许系统管理员在某一个关键词匹配后手动创建消息和链接。与Summon相同,EDS也提供了类似“best bets”的配置。Primo采用了美国伊利诺伊大学香槟分校的建议系统,应用算法自动对期刊标题或数据库名称进行完全或部分匹配,然后推荐期刊或数据库链接。资源发现系统在测试过程中,用户输入只有一个单词的期刊名称如“science”或“nature”,资源发现系统便可以很好地显示结果。但是,当用户输入两个单词的期刊名称时,则仍会出现排序异常的现象,这一问题还需笔者进一步探明原因。

2.3 “便当盒”样式

资源发现系统的最初动机是为用户提供一个类似Google“单盒子”的检索系统,即将所有类型的资料放在一起,打破原来不同数据库之间的“筒仓”。这一动机的实现有两个难点:一是将本机构所有的资源建立一个单一的索引(许多内容需要供应商的许可) ;二是将不同类型资源按照相同的等级算法统一排序显示。这种将不同内容统一显示的方式越来越受到人们的怀疑,一些人指出,即使像Google这样卓越的搜索引擎也存在“筒仓”,如Google搜索并没有混入Google books、Google scholar及Google news中的内容。

“单盒子”类型的检索系统将不同类型的记录展现在同一个列表中,但是将图书、书评、报纸文章、期刊论文等资料类型全部放在一张列表中,会使用户难以找到其所需资料。因此,笔者认为,“便当盒”样式的检索系统更适合资源发现系统在高校图书馆的应用,即在资源发现系统的同一个页面显示不同的“盒子”,每个“盒子”中存放不同类型的文献。目前,美国普林斯顿大学、哥伦比亚大学和维拉诺瓦大学等高校图书馆的资源发现系统都实现了这种“便当盒”样式[10]。其中,维拉诺瓦大学图书馆是将页面分为3个“盒子”:第一个“盒子”的内容为图书,第二个“盒子”的内容为期刊论文和其他,第三个“盒子”的内容为学校图书馆网站内容[11]。美国北卡罗来纳州大学图书馆在资源发现的基础上实现了全图书馆发现,该馆将资源发现系统的结果列表分为5个“便当盒”,包括期刊论文、图书和多媒体、数据库、主题数据库、学校图书馆网站和FAQ[12]。

“便当盒”样式在资源发现系统的配置中变得越来越流行,其具有如下优点:①“便当盒”将资源按照类型分类,方便用户按照资源类型选择资源,这对检索经验较少的用户尤其重要。②“便当盒”样式有利于高校图书馆将其服务整合进资源发现系统,方便高校图书馆从资源发现进展到服务发现。③资源发现系统将不同类型的资源整合在一起,而且使用同一种排序算法,这是影响检索结果相关性最重要的一个因素。如果资源发现系统能将检索结果按照“便当盒”样式分类显示,不同类型资源的排序采用不同算法(如书目信息可以采用ILS等级排序,期刊论文可以采用另外一种算法排序),这就将大大提高资源发现系统检索结果的相关性。④通过实现本地用户接口的开发,未来无论资源发现系统如何改变都不会影响本地用户接口,只要通过API(Application Programming Interface,应用程序编程接口)将检索结果接入接口层即可,从而实现了索引层和接口层的分离[13]。目前,四大资源发现系统仍没有将其原生接口改为“便当盒”样式。Summon2.0仅对报纸文章进行了高亮显示,如果用户进一步点击报纸文章,检索结果最终只显示报纸文章的内容[14]。Serials Solutions已宣布将实现其他类型资料的高亮显示[15]。资源发现系统实现“便当盒”样式的主要方式是将资源发现系统的索引装载在一些开源软件(如VuFind、Blacklight、Xeres等)中,也有机构独立开发用户接口,如美国维拉诺瓦大学采用VuFind实现了其用户接口的开发[16]。资源发现系统实现“便当盒”样式还可以使用收费软件,如机构可以使用SciVerse配置资源发现系统的各种检索功能,方便用户在使用时可以随时关闭不需要的功能。

[1]包 凌, 蒋 颖. 图书馆统一资源发现系统的比较研究[J]. 情报资料工作, 2012(5): 67-72.

[2]张 蒂. 非熟练用户对于两种资源发现系统的体验分析:基于焦点小组的调研[J]. 图书馆工作与研究, 2014(1):104-108.

[3]刘颉颃, 陈定权, 郭 婵. 用户对图书馆资源发现系统功能的期望:基于广州大学城高校图书馆学生用户的调研[J]. 图书情报工作, 2012(7):27-31.

[4]赵 媛, 张 鹏. 数字时代 资源为王:2014中国高校图书馆发展论坛综述[J]. 中国现代教育装备, 2014(11): 88-91.

[5] 陈定权, 卢玉红, 杨 敏. 图书馆资源发现系统的现状与趋势[J]. 图书情报工作, 2012(7):44-48.

[6] 罗 彬, 张 健, 冯 勤. VuFind功能与技术创新给我们的启示[J]. 图书馆学研究, 2013(6):53-55.

[7] 宋 敏. 2010-2013年资源发现系统在大学图书馆应用的对比分析[J]. 知识管理论坛, 2013(12):18-24.

[8] 巩林立. 高校图书馆资源发现服务系统体系构建[J]. 图书馆学研究, 2013(9):69-71.

[9] 翟中会, 韩维栋. 资源发现系统用户可用性测试研究[J]. 图书馆学研究, 2014(15):58-64.

[10]Phetteplace E,Darrington J. A Hybrid Approach to Discovery Services[J]. Reference & User Services Quarterly, 2014, 53(4): 291-295.

[11]Lown C, Sierra T, Boyer J. How Users Search the Library from a Single Search Box[J]. College & Research Libraries, 2013,74(3): 227-241.

[12]UNC Libraries. Articles+Catalog Search Results[EB/OL].[2014-10-01].http://library.unc.edu.

[13]窦天芳, 姜爱蓉. 资源发现系统功能分析及应用前景[J]. 图书情报工作, 2012(7): 38-43.

[14]FindMore@NUSL[EB/OL]. [2014-10-01]. http://libportal.nus. edu.sg/frontend/index.

[15]Summon2.0[EB/OL]. [2014-10-01]. http://www.proquest.com/ libraries/.

[16]Houser J. The VuFind Implementation at Villanova University[J]. Library Hi Tech, 2009,27(1):93-105.

Problems of the Resource Discovery System and Its Strategies

The resource discovery system of the library has many problems, such as the inconsistent sorting result, the lack of the advanced retrieval function, not meeting the recall ratio, going agaist improving information literacy skills of users, the unstable function of linking the full text. These problems could be improved by changing the default setting of the resource discovery system, providing the best bet and the ''bento box'' style.

Resource discovery system; Retrieval relevance; University library

G254.929.1

B

2014-10-09 ]

翟中会 男,硕士,馆员,已发表论文10篇。

猜你喜欢

排序检索数据库
作者简介
恐怖排序
瑞典专利数据库的检索技巧
一种基于Python的音乐检索方法的研究
节日排序
数据库
数据库
专利检索中“语义”的表现
数据库
数据库