APP下载

对CALIS查收查引系统的测试和应用效果评价

2016-09-28马芳珍李峰季梵刘姝王旭

大学图书馆学报 2016年2期

马芳珍 李峰 季梵++刘姝++王旭++刘素清

摘要:CALIS论文收录及引用检索系统是基于图书馆论文收录及引用检索业务开发的一款软件,具有较强的实用价值。北京大学图书馆对该系统进行了六轮测试和近半年的试用,得出对该系统的功能评价和核心模块测试结果,据此为系统的进一步改进提出建议。

关键词 查收查引 系统测试 系统评价CALIS

分类号G250.7

DOI 10.16603/i.issnl002-1027.2016.02.015

1.背景

查收查引服务是检索证明机构根据委托人提供的已发表文章的题名、作者、出版时间等信息,检索文章在参考数据库中的收录和被引用情况,并出具相应的论文收录及引用报告。目前北京大学图书馆查收查引服务的检索数据源包括WOS(Web of Sci-ence)平台的SCI(Science Citation Index)、SSCI(So-cial Sciences Citation Index)、A&HCI(Art&Hu-manity Citation Index)、CPCI-S(Conference Pro-ceedings Citation Index-Science)和CPCI-SSH(Conference Proceedings Citation Index-Social Sci-enees & Humanities)英文数据库和CSCD(ChineseScience Citation Database,中国科学引文数据库)、CSSCI(Chinese Social Science Citation Index,中文社会科学引文索引数据库)。

由于引用者标注的引用格式不规范、数据库误标误引、作者重名等原因,查收查引工作容易出现漏检、误检、自引误判等问题,需要检索人员耗费大量时间反复判断,也为全自动化的查收查引工作的实现带来很大困难,因此许多机构仍采用手工检索的方式。但手工检索的人力和时间成本较高,难以满足委托高峰期的用户需求。目前已有许多关于手工检索技巧、流程规范等方面的研究文献,也有一些机构开发了论文查收查引工具。北京大学图书馆的李晓东、卢振波曾提出通过工具软件实现作者论文数据的采集、自动检索和自动下载等功能,但许多功能仅有构想框架,并未实践。中国科学院文献情报中心的查收查引报告自动生成系统基本实现了英文文献预处理一收录检索一引用检索一报告生成功能,但对中文数据库的检索却未涉及。山东大学图书馆的师晓青梳理了高校图书馆查收查引的工作流程,但没涉及检索过程的自动化。除了开发软件,樊亚芳、陈锴等提出利用Excel的筛选功能和EndNote Web等文献管理软件辅助检索,改进手工检索和统计流程。

为了提高查收查引的工作效率,实现工作智能化,CALIS技术中心与北京大学图书馆联合开发了CALIS论文收录及引用检索系统(以下简称查收引系统)。系统开发完成后,接到许多同行的咨询,为更好地分享使用经验,本文从工作流程、基本功能和检索结果等层面来论述系统的评测结果。

2.查收引系统的功能测评

北京大学图书馆信息咨询部于2014年11月至2015年4月进行了查收引系统的测试和试运行,共完成428个委托单、10517篇文献的检索,具体检索情况见表1。

在试运行过程中主要对系统的基本功能和流程、文献检索准确性这两项内容进行了重点测试和验证。

2.1查收引系统的基本功能和流程使用评测

在手工环境中,查收引服务主要分为10个步骤(见图1)。查收引系统完全实现对步骤3-8和步骤10的管理,步骤1、2、9目前仍然采用传统方式,准备在系统升级版中实现相关功能。

经过六轮测试和系统改进,查收引系统在功能上能够完成对查收查引业务的规范管理的需求,流程控制顺畅,操作步骤简单。查收引系统的主操作界面见图2。

对查收引系统的功能和流程管理的试用主要考察三个方面:正确性、易用性和可靠性。正确性是指能够正确完成指令;易用性是指操作便利流畅;可靠性是指控制有效,能处理错误操作,有回滚机制等。试用结果显示,查收引系统的各模块均满足正确性和可靠性要求,表2为对各模块功能的易用性评价。

2.2对查收引系统功能的测评

2.2.1对英文数据库的查收引功能测评

查收引系统支持在WOS核心库和EI数据库的论文检索功能,包括SCI、SSCI、AHCI、CPCI-SCPCI-SSH和EI数据库的收录检索,以及SCI、SS-CI、AHCI数据库的引用检索。

(1)对英文数据库的查收录功能测评。

查收引系统的收录检索包括两部分:一是查询委托文献是否被目标数据库收录,二是对检索到收录的文献,从数据库中获取规范信息并自动更新到系统中。

系统抽取文献的作者、题名、刊名、发表年份等信息字段,使用预设的检索策略对文献逐条检索,如果命中记录则终止检索。系统再根据匹配策略判断命中记录为完全匹配或疑似匹配。有疑似匹配时,系统将提示工作人员进行人工确认。

对于正确规范的论文清单,系统检索结果的正确率接近100%;对于部分信息有误的论文清单或缺失信息较多时,系统会出现未检索到等问题。表3即为系统检索英文文献的测试结果。

表3中“人工再确认”是指检索结果与原文献清单有部分不一致,或原论文清单信息缺失,系统无法判断,需要人工干预。由于系统在匹配策略中设置了合理的容错机制,因此即使论文信息不完全准确,仍可在不需要人工干预的情况下准确命中大多数记录。同时系统设计了便利人工干预,因此馆员可以轻松地在系统提供的近似结果中进行判断和选择。

“错误检索”主要是由于文献清单有误或者数据库信息不规范导致数据库有收录而未用系统检出的情况,因此当系统反馈“未收录”结果时仍需谨慎对待,核查用户提供的文献信息是否准确。

(2)对英文数据库的查引用功能测评。

查收引系统的查引用是将用户提交的文献清单按检索策略进行检索,并自动对检索结果进行匹配和过滤,将完全匹配和近似匹配的记录下载到系统中供馆员确认,“校对引证”的界面见图3。

引用查全率是查收引系统关注的重点问题之一,在实际检索过程中,由于数据库的引文信息易出现错误,并且受作者署名习惯、引文习惯等因素的影响,会导致漏检和错检。针对可能出现的诸多问题,系统通过组合多种策略,从多个角度检索文献的被引信息。查收引系统检索英文文献的引用信息的正确率见表4。

表4中,“错误检索”是指由于数据库中的施引文献信息不规范而未检索出的情况(这种情况下,人工检索也无法查到)。值得提出的是,部分数据库中

不规范或错引的信息,系统也能很好地检出并作为近似结果供馆员选择,例如:

1)能够正确识别作者各种形式的简称,例如linzc、lin z、zc lin、z lin。

2)施引文献与论文年份前后相差一年的情况,如查询某篇2007年文献的引用情况,数据库中有3篇施引文献将其标注为2006年,手工可能漏检,而系统通过放宽条件能够检索到。

综上所述,查收引系统的收录和引用检索策略采用机器判断+人工判断的机制,英文文献的检索结果基本上能够达到人工检索的标准,部分检索结果甚至超过人工检索。

2.2.2对中文数据库的查收引功能测评

查收引系统支持在CSCD和CSSCI数据库检索中文文献。中文数据库的检索策略与英文数据库类似,但是由于中文数据库的特点,也有不同之处。

(1)对中文数据库的查收录功能测评。

系统检索中文文献收录的步骤与英文数据库一致,但检索策略和匹配策略都进行了调整。检索中文数据库时,对中文题名和期刊题名等信息都进行了检索前的过滤和字段规范,滤掉了所有非中文字符,用空格代替;在结果匹配阶段又增加了切分词处理,以保证部分匹配值的计算。系统检索中文文献的收录情况见表5。

中文文献的查收录功能可以发现“错误检索”的情况,例如:

1)年份错误。如论文为2007年发表,而数据库错写为2001年,与原文年代跨度较大。

2)论文题名有错误,同时数据库里的信息也有误。如《突发性泥沙灾害危险性快速区划方法》,作者是倪晋仕、刘仁志,作者误将题目写为《突发性泥土灾害危险性快速区划方法》,误将作者写成倪晋仁、刘仁志),因此系统未检出。

(2)对中文数据库的查引用功能测评。

CSCD与CSSCI数据库在引用检索时有一个最大的不同是CSCD不能使用题名检索,因此需要单独制定CSCD的检索策略。查收引系统对中文数据库的查引用情况如表6所示。

虽然有错误检索,但系统具有很好的容错率,可识别很多特殊情况,例如:

1)学报类期刊的多种书写格式,如北京大学学报(自然科学版)、北京大学学报·自然科学版和北京大学学报(自然科学版)等写法,系统都能检出。

2)三个作者以上的文献,如果作者名字写错,如王妍和王研,系统也可检出。

3)CSCD在被引检索中只显示部分作者,对于多作者文章,如一篇论文作者有宋述光/季建清/魏春景/苏犁/郑亚东/宋彪/张立飞,在CSCD的引文检索时只显示前三位,但引用此文的文章有一篇出现了作者苏犁,人工判断自引和他引时容易出错,而系统可根据来源文献智能判断。

2.3查收引系统的边界和特例测试

(1)作者数量超多的情况。

在识别自引和他引问题上,作者数量多少是准确快速判别的主要条件,一般情况下,文章作者多为5人以内,但有一些团体作者的文章,作者数量可达几千个。例如以北京大学物理学院的班老师发表在PHYSICS LETTERS B(2014)的文章Constraintson the Higgs boson width from off-shell produc-tion and decay to Z-boson pairs,作者有2138个,但使用系统从新建清单到完成报告只需5分钟。

(2)单篇文章引用数量超大的情况。

大多数文献的被引量在100条以内,手工检索和下载也很便利。但个别文献的单篇引用量多达几千条,由于WOS平台的“打印下载”的条数限制(每次下载50条),一篇文献的引用信息就需要几十次翻页和下载。例如北京大学物理学院的汤老师,有两篇文章的被引次数分别为3567和2409次,如果手工下载,要翻页72次和49次,但系统可在10分钟内自动完成下载。

(3)委托人文章数量超多的情况。

对于委托人查询论文的数量为上百篇的,例如北京大学物理学院的余老师查询论文406篇,地球与空间学院的黄老师的团队查询论文358篇,在时间紧迫时,需分配多人同时检索,再合并检索结果。合并时要调整编号和表格,由于文档较大处理非常耗时,而系统则可自动完成检索并将结果合并。

3.查收引系统的应用效果

3.1提高馆员的工作效率

查收引系统支持多进程、多任务并行,可同时处理多个数据库的检索。例如建筑设计、心理学等专业,由于其跨学科性质,论文在各数据库都可能有收录或引用,使用系统进行多库并行检索,检索总耗时约为手工的三分之一。系统还设置了语种识别功能,允许中英文文献同步检索,系统会根据预先设定的语种自动识别检索库。其次,系统避免了处理检索中断的损失。在手工检索的时候,一般逐条检索完毕后再统一导出结果,如遇数据库或电脑的突然故障,会导致检索结果丢失。使用查收引系统,即使系统前台页面关闭、电脑关闭,系统后台仍会继续运行,不会丢失。再次,由于系统是自动检索,在下班前建立委托单,可充分利用夜间进行自动检索,第二天上班后核对检索结果。总之,查收引系统通过多种途径节省了馆员的工作时间,提高了工作效率。

3.2改善用户体验和图书馆服务质量

较手工检索而言,使用查收引系统缩短了检索时间,提高了处理效率,在保障本校委托的基础上,还能在高峰期接纳部分校外读者的委托。同时,系统实现了检索结果的结构化存储,用户可对同一委托提出不同需求,获得多份不同排列组合的报告。另外,除了正式的检索报告,系统还可提供文献的收录引用情况的概览清单,让用户轻松了解概况。由于查收引系统支持多种检索策略并行,在用户提供的文献信息部分有误时,也能获得较高的结果准确率。以上这些方面,使用户获得更好的服务体验,提升了图书馆的服务质量。

4.对查收引系统的展望

经大量测试和多次改进,查收引系统基本满足高校图书馆的服务需求,极大缓解了人力资源紧张,实用价值较强。但系统仍有进一步改善的空间,如在功能上应增加网上委托、用户跟踪委托情况、历史委托结果查询等,数据接口应支持多样化文献的列表导入,检索报告可增加期刊影响因子、委托人为第一作者的文献数等辅助标识和统计,为用户提供更多信息等。

目前,CALLS中心已经对70多家大学图书馆开通CALLS论文收录及引用检索系统的试用,包括7所985高校。希望借助本文分享系统的测试结果和应用效果,在大家的共同努力下,把高校图书馆的查收查引工作逐步推向自动化、智能化,大大提高科研支撑服务的效率。