APP下载

EICompendex Web数据库署名单位检索技巧研究

2015-05-13陈楠楠西安交通大学图书馆陕西西安710049

图书馆学刊 2015年2期
关键词:西安交通大学检索数据库

陈楠楠(西安交通大学图书馆,陕西西安710049)



EICompendex Web数据库署名单位检索技巧研究

陈楠楠
(西安交通大学图书馆,陕西西安710049)

[摘要]以西安交通大学图书馆利用EI Compendex数据库的多种检索功能为例,研究了以署名单位为检索重点时遇到的主要问题,提出了相应解决方案,最后提出了针对署名单位的最佳检索策略,并进行了案例分析。

[关键词]EI Compendex署名单位检索策略规范化

[分类号]G250.73

1 EICompendexWeb网络数据库的发展

《工程索引》(Engineering Index,以下简称EI)于1884年创办,是美国工程信息公司开发的核心产品。EI发展历经最初的印刷本、20世纪70年代的Dialog联机检索、80年代的光盘版(CD-ROM)、20世纪90年代的Ei Village 2数据库,至今已发展为EICompendex Web网络数据库。1999年,中国18所高校(包括西安交通大学)联合购买了网络版数据库的使用权,镜像设在清华大学图书馆。2000年8月,美国工程信息公司推出Engineering Village网络版第2版。2009年5月,美国工程信息公司推出了无核心期刊与非核心期刊之区分的新版本,新版EI网络数据库使用至今,共收录5600余种工程类期刊、会议记录和科技报告,共计170万余条数据[1]。

EI网络数据库是目前最常用的二次文献文摘型数据库之一,其侧重于收录工程技术领域的文献,其中期刊文献大约占总数的80%,90%的文献语种是英文。从1992年开始,EI收录中国期刊[2]。从EI网络数据库收藏的二次文献资源的广度和深度来看,都很值得工科院校和综合类院校图书馆从业人员进行深入的数据挖掘和数据分析。

2 EI数据库署名单位(Author Affili⁃ation)的研究意义

EI数据库的文章收录检索工作是图书馆界同仁经常要处理的业务,尤其是综合类、工科院校及科研院所针对EI文章收录的科研绩效考核、学科评估的需求很显著。目前,有关EI文章收录情况的决策信息支持服务是高校图书馆科技情报服务的重要组成部分之一,主要的服务对象由单一、零散的高校及科研院所委托人提供EI查收查引服务转变为保留原有的基本服务,全面为高校决策层提供有关EI数据的深入挖掘和分析服务。其次,服务内容由原先基本的文章收录及被引检索、自引和他引的区分、数据统计转变为有重点、有针对性地为高校各级决策层提供工学学科发展趋势对比分析、工学专业的学科评估、工科院校科研人员的绩效评价及人才引进评价等方面的信息支撑和专业化分析。具体来说,图书馆检索人员需要从整个学校的角度出发,检索各级单位(学校、学院、实验室、系、所及中心等)EI收录情况,并进一步分析数据的分布和发展趋势。因此,作为科研支持单位的图书馆,在提供EI数据库检索服务时需要从宏观和微观两种角度,以署名单位为检索着手点,全面考虑各种检索可能和检索条件,以便获得更准确的数据,提供更专业化的分析服务。因此,笔者在长期从事文献检索、查收查引和数据分析工作时,发现了一些代表性问题,很值得进一步研究和探索。

首先,当针对某一位或一个创新团队进行EI收录的文章级检索时,由于EI数据库中对作者署名检索形式的宽松化,导致检索结果出现大量满足检索条件的同名、同音作者的文章出现在EI检索结果里。为了进一步缩小检索范围,实现委托人提供的检索要求和检索结果,文献检索人员需要参考委托人的工作和教育经历,在EI数据库检索时加入该作者的署名单位地址信息来进行组合检索,最终希望可以获得一个更全面、更准确的基于以上作者所有发表文献被EI数据库收录的整体情况。所以,通过作者名和署名单位的组合检索,可以筛选掉大量的同名作者或同音作者发表的文献信息对检索结果的干扰。这是文献收录检索时署名单位最常见的利用,因此检索收录情况时署名单位字段的有效利用是秉要执本的重要举措。

另一方面,高校科研院所的图书馆界同仁们还承担着本单位科研绩效评估时的数据支撑、数据对比分析工作。针对EI数据库的学科服务由原先基本的数据统计和分析转变为有重点、有针对性地为高校各级决策层提供学科发展趋势对比分析、学科评估、绩效评价、人才引进评价等方面的信息支撑和专业化分析。在以上这些工作中,EI数据库中的署名单位检索字段逐渐成为针对以上EI收录检索需求和数据分析工作的不可回避的着手点。

3 EI数据库署名单位的(Author Af⁃filiation)研究现状

目前,已正式公开的有关署名单位与学术论文著作权研究的文献很多,李兴昌在其撰写的《科技论文的规范表达:写作与编辑》一书中提到机构名的规范表达应该是“一般的机关、团体、学校、研究机构和企业等的名称,在论文中第一次出现时应写全称,随后的表述方可用简称,简称也应是共知共用的,不能有歧义”[3]。并且该文章进一步对署名的位置和格式做了要求:学术期刊中将署名置于题名下方,作者工作单位应写全称,“工作单位地址包括所在城市名及邮政编码”,例如“西安交通大学图书馆信息咨询部,陕西,西安,710049”,而“西安交大图书馆咨询部,西安,710049”的表述是不完整、不规范的署名单位格式。

同时,笔者还发现国内基于《著作权法》的署名权方面以及针对高校及科研院所投稿署名单位规范化的研究。针对这样一个署名现状,一方面可以体现出国内学术界对作者署名权的法制化和规范化越来越重视,另一方面也凸显高校及科研院所在规范其科研人员对期刊投稿时针对署名单位的中英文规范化要求的不足之处。这就导致同一单位的不同科研人员在投稿时提供的署名单位的中英文表达上形式多样,尤其是英文表达上差异最大。甚至还出现了同一单位的同一科研人员在针对不同期刊的投稿时署名单位的英文表达上形式多样,差异很大。例如,EI数据库检索中发现,仅西安交通大学的署名形式就有Xian Jiaotong University、Xi An Jiao Tong University、Xian Jiaotong Univ、Xi An Jiao Tong Univ、XJTU 710049等。

另外,从EI数据库录入信息的研究来看,EI数据库“采用计算机编排,它的著录项目完全遵照作者本人所提供的线索,许多比较明显的名称或地名错误,都将被一字不改地予以反映”。也就是说,EI数据库将完全遵照期刊的著录格式要求、作者的著录习惯等把相应署名单位映射到数据库中的相应单位字段,并进一步在数据库用户检索时,予以比对和显示[4]。利用EI数据库检索时,人名、地名、机构名称等拼写非规范化的问题就凸显出来[5]。

因此,笔者基于目前的研究现状和工作中遇到的实际问题,着手开展了针对EI数据库中署名单位检索策略的研究。

4 EI数据库署名单位检索功能利用研究

EI数据库提供针对署名单位(Author Affiliation)的检索功能,并提供署名单位名称索引的浏览功能。该浏览功能按照英文字母顺序排列,把EI数据库里署名单位字段出现的单位英文名称都收集整理到一个独立页面上展示。用户通过该浏览功能可直观获得EI收录文献的所属单位各种表达形式的英文全称。以西安交通大学为例,笔者在EI数据库的署名单位名称索引中共查到15种不同的表示形式,最具代表性的有:Xi An Jiao Tong University、Xi'an Jiao Tong University、Xian Jiaotong Univ等[6]。因此,如果针对一个单位EI收录的整体情况进行检索,需要充分考虑到该单位科研人员的投稿习惯或规律,即单位名称在数据库中的各种英文表达形式,并通过科学利用截词符、布尔运算符等,检索并获取到更准确全面的EI数据库的文章收录情况。

笔者在EI数据库里针对署名单位这项内容进行检索、统计分析工作时,发现针对某一署名单位的检索,数据库显示出的检索结果不准确并且出现大量干扰项,极大地影响了检索结果的准确性和后续的统计分析工作。需要考虑到产生这一问题的主要原因可能有如下几个方面。

原因一:从文章作者的角度来看,同一单位内科研人员投稿时针对署名单位的署名习惯不同,尤其是英文文章投稿时,作者对单位的英文名称表述差异很大。这样导致一级单位名称(校级)、二级单位名称(院级、国家重点实验室级)和三级单位名称(系、所、中心等级别)表述形式多样。并且,单位物理地址的表述也形式多样。

原因二:从单位决策层的角度来看,每个单位内的各级相关科研机构繁多,导致机构结构和科研合作关系形式复杂。而学校决策层目前并未强制或明确规定相应每一级下级或下属单位科研人员在投稿时采用的中英文全称和简称表达形式,未足够重视本单位科研人员的署名单位表述不一致、不标准、不规范的问题和影响。

基于以上两种主要原因的相互作用,同一单位的署名单位产生了多种多样的表达形式。例如,针对西安交通大学航天学院为署名单位的院系地址出现以下多种英文表达形式:MOE、Dept Engn Mech、MOE Key Lab Strength & Vibrat、SV Lab、MOE Key Lab Strength & Vibrat Mech Struct、MOE Sch Aerosp、S&V Lab、MOE Lab、MSSV、SVL、Sch Aerosp。

原因三:从图书馆检索业务的角度来看,仅运用AND、OR等常用布尔运算符无法准确限制和缩小检索范围,检索结果会出现大量干扰项,从而影响数据分析的结果。针对这一问题,检索人员需要使用ONEAR/n运算符来精确限制检索词之间的距离。通过综合利用AND、OR以及ONEAR/n的组合检索,可以提高针对署名单位的检索结果的全面性和准确性,减少大量干扰信息的出现,最终获得准确的数据分析结果。例如,当检索西安交通大学为署名单位在近5年内的EI文章收录情况时,在针对“(Xian Jiaotong Univ*)WN AF)”这个检索条件检索时,Xian Jiaotong Liverpoor University就成为干扰因素,只有通过使用EI数据库认可的布尔运算符ONEAR/0,限制检索结果中署名单位的Jiaotong和University是紧邻关系,中间不出现其他词,才可以排除掉署名单位为Xian Jiaotong Liverpoor University对分析数据的干扰,检索结果只显示署名单位为Xian Jiaotong University的EI文章记录。但在检索分析其他高校的EI收录情况时,如以浙大为署名单位的EI收录情况时,使用以上方法无法排除掉署名单位为Zhejiang University of Science and Technology等多个单位的EI收录文章对Zhejiang University的EI收录文章的干扰。笔者下面会针对这个经典案例做进一步分析。

原因四:从全国高校及科研院所的署名发展来看,我国各级高校及科研院所取名的唯一性、独特性、特色性等方面存在不足,导致了以上情况的大量出现。例如,当检索以南京大学为署名单位的EI文章收录情况时,在针对“Nanjing Univ*”这个检索条件的检索时,检索结果中的Nanjing University和Nanjing University of Science and Technology等为署名单位的检索记录互为干扰项。

基于以上两种主要原因会检索出多个满足检索条件的署名单位。例如,Xian Jiaotong University、Xian Jiaotong University City College和Xian Jiaotong Liverpoor University互为干扰项,Nanjing University和Nanjing University of Science and Technology互为干扰项,同样Zhejiang University和Zhejiang University of Science and Technology互为干扰项。

原因五:在利用EI数据库针对某一个或多个署名单位进行检索研究时,还必须考虑到该学校的不同校区地址可能会对署名单位检索结果的影响。例如,西安交通大学在西安主要有3个校区,分别是兴庆校区(邮编710049)、雁塔校区(邮编710061)、科技园校区(邮编710054)。因此,检索时可以利用布尔运算符OR来检索所有这些地址为署名单位地址的记录。否则,检索结果数据将会大打折扣。再例如,笔者在检索浙江大学在EI数据库中的文章收录情况时,考虑到浙江大学主要有6个校区,分别是玉泉校区(邮编310027)、西溪校区(邮编310028)、华家池校区(邮编310029)、之江校区(邮编310008)、紫金港校区(邮编310058),因此,综合利用邮编信息也是署名单位检索的关键切入点。

5 EI数据库针对署名单位的检索策略案例分析

5.1浙江大学EI检索案例分析

笔者在EI数据库里检索以浙江大学为署名单位的近5 年EI文章收录情况,详见表1。首先,当在EI数据库中署名单位字段的检索式为(Zhejiang University)时,检索结果里会出现很多满足该检索条件的干扰信息,如:Zhejiang University of Technology、Zhejiang University of Science and Technology、Zhejiang University City College、Zhejiang Sci-Tech University、Zhejiang Gongshang University、Zhejiang Forestry University、Zhejiang Sci-Tech University、Zhejiang Ocean University及Zhejiang Wanli University;当在EI数据库中署名单位字段的检索式调整为Zhejiang ONEAR(0)University时,ONEAR布尔运算符可以排除掉Zhejiang Sci-Tech University、Zhejiang Gongshang University、Zhejiang Forestry University、Zhejiang Sci- Tech University、Zhejiang Ocean University和Zhejiang Wanli University。这样处理检索过程减少了第一次检索时出现的干扰项中的大部分。其次,还可以尝试综合利用西文双引号与西文逗号排除署名单位为Zhejiang University of Technology、Zhejiang University of Science and Technology及Zhejiang University City College这些干扰项。最终,检索以浙江大学为署名单位的EI收录情况时获得的检索结果将是比较精确和完整的数据。保证基本检索数据的完整性就可以进行下一步的数据挖掘和数据分析,如针对院系等的数据分布统计分析等。因此,本次检索的最佳检索式为“((Zhejiang ONEAR/0 Uinversity OR Zhe Jiang ONEAR/0 University)WN AF)”。

5.2山东大学和南京大学EI检索案例分析

类似情况出现在检索山东大学和南京大学的EI收录情况时。具体来说,在进行山东大学的署名单位检索、统计分析工作时,山东科技大学、山东师范大学、山东理工大学、山东财经大学、山东农业大学的英文全称等就成为检索的干扰项,需要进一步利用布尔运算符ONEAR来排除以上的干扰信息,得到准确的山东大学的EI收录情况。在检索南京大学EI收录情况时,仅仅用Nanjing Univ*作为检索词,由于南京市的很多大学都包涵南京和大学这两个关键词,所以检索结果中出现的干扰项将会更多。比如,南京农业大学、南京理工大学、南京航空航天大学、南京邮电大学、南京工业大学、南京林业大学、南京医科大学、南京中医药大学、南京师范大学、南京财经大学等都成为了本次检索结果的干扰项。需要修改检索式为NANJING ONEAR/0 UNIV*才能排除以上的干扰信息。因此,在检索山东大学和南京大学的EI收录情况时,最佳检索式分别为“((Shandong ONEAR10 University OR Shan Dong OHEAR10 University)WN AF和((Nanjing ONEAR10 University OR Nan Jing ONEAR10 University)WN AF)”。

5.3同济大学EI检索案例分析

然而,在检索同济大学等高校的EI收录情况时,不会出现以上这些问题。究其原因主要有二。首先,同济大学的名称很具有独特性或唯一性,检索中没有出现过干扰项。其次,绝大部分同济大学的师生在发表文章时采用了Tongji University这个规范表达形式,少量的师生采用了Tongji Uni-versity这个表达形式。在进行同济大学EI收录情况的检索时,检索式为“((Tongji University OR Tong Ji University)WN AF)”。

表1 在EI数据库里以浙江大学为署名单位的检索策略

6针对EI数据库署名单位检索工作的启示和思考

笔者在参与了大量的针对EI数据库署名单位检索统计工作之后,获得很多有益的启示。首先,检索人员以某一个或多个高校及科研院所为主体进行EI收录情况的检索工作时,需要详细了解这些单位的署名规范或规律、校区的分布情况以及是否有相似的署名单位等。其次,由于文章作者针对署名单位的表述不规范、形式不统一,检索人员需要以“或”的布尔关系来综合检索这些多种署名单位的表述形式,以期获得更准确的检索结果。另外,针对署名单位书写规范的重要性也凸显出来。西安交通大学已经于2009年开始重视这个问题,并通过工作邮件方式通知全校师生:在文章投稿时,署名单位“Xi An Jiao Tong Univesity”是官方认可的规范表达形式。但是在进行EI数据的深入分析时,由于目前还没有针对院、系及实验室署名规范的正式要求,数据的进一步分析工作会受到比较大的影响,这是今后需要面对和解决的问题。

因此,由于单位名称的不独特、文章作者投稿时署名单位书写的不规范等问题,导致检索人员在针对高校进行单位EI收录情况检索时,检索结果会出现大量干扰项,严重影响检索结果的正确性。通过科学合理利用AND、ONEAR等布尔运算符及截词符,可以排除掉大部分由单位名称相近导致的干扰项。但是,检索人员在最终导出检索结果后,还需要谨慎对待检索结果中由于书写不规范、不统一导致的干扰项。检索人员只有立足于比较纯的检索结果数据,才能进行更科学的数据统计和数据分析。

西安交通大学作为国内著名综合型大学,工科学科的成长和发展一直以来都是领航全校科研工作发展的主要动力。因此,EI收录数据的追踪、统计和分析非常必要。钱学森图书馆作为西安交通大学引进和收藏数字化资源的基地,拥有经验丰富的专业化学科服务队伍。充分发挥图书馆的资源优势,主动深入学校学科建设发展中,并为学校各级决策层、院系及学科发展起到更大的信息支撑作用,是我们图书馆界同仁们需要继续努力奋斗的目标。

参考文献:

[1] Engineering Information History [EB/OL]. [2014-01-10]. http://www.ei.org/evhistory.

[2] Ei Compendex Help [EB/OL]. [2013-12-16]. http://www. ei.org/help.

[3]李兴昌.科技论文的规范表达:写作与编辑[M].北京:清华大学出版社,1995:19.

[4]瞿晶,吴蓓珠,谢淑湘.利用EI、SCI、ISTP检索时应注意的几个问题[J].图书情报知识,1991(3):27-28.

[5]杨阳.新版EI Compendex Web查找收录文献的技巧[J].现代情报,2005(1):191-192.

[6] Ei Compendex Search Tips [EB/OL]. [2013-12-20].http:// www.engineeringvillage.com/search/quick.url?CID=quick⁃Search&database=1&acw=.

陈楠楠女,1975年生。硕士,馆员。研究方向:竞争情报。

收稿日期:(2014-09-29;责编:王天泥。)

猜你喜欢

西安交通大学检索数据库
《西安交通大学(社会科学版)》青年编委招募
《西安交通大学(社会科学版)》再获“最受欢迎期刊”
西安交通大学马克思主义学院简介
西安交通大学社科三刊简介
瑞典专利数据库的检索技巧
一种基于Python的音乐检索方法的研究
数据库
数据库
专利检索中“语义”的表现
数据库