APP下载

基于Web of Science的机构文献检索策略

2019-04-17魏凤萍何益华

上海高校图书情报工作研究 2019年1期
关键词:字段邮政编码检索

魏凤萍 何益华 方 吉 黄 进

机构文献检索是开展学科服务和深度学科分析的基础,及时、快速地获得完整、准确的机构文献数据将有效提高学科服务工作效率。以Web of Science数据库(下文简称WOS)为例,在实际的机构文献检索中,有直接利用机构名称[1]何先美, 沈晓韵, 牟玉萍,等. 1999~2008年度上海交通大学科技论文统计与分析[J]. 上海交通大学学报,2010,44(10):1470-1476.或邮政编码进行检索[2]徐楠, 马艳秋. 基于Web of Science中国民航大学科研论文收录统计分析[J]. 图书馆工作与研究, 2010(3): 95-99.,也有采用机构扩展途径[3]赵勇, 李晨英, 韩明杰. 中外高水平涉农高校的学科结构特征比较——基于QS世界大学农业学科排名的科学计量学分析[J]. 情报杂志,2015,34(5):92-97.进行检索。而对于文献检索方法,有学者研究机构名称混淆[4]刘杰. SCI地址信息著录的不规范性分析——以SCI收录的北京大学文献为例[J]. 中国科技期刊研究, 2005,16(6):848-849.、地址信息不规范的问题[5]丁海德, 庞芳芳, 李德成. SCI数据库中地址信息著录差异与错误分析[J]. 现代情报, 2008(4):173-174, 177.,还有提出机构文献检索模式[6]梁桂英, 袁润. 基于Web of Science数据库的非特异性机构论文检索模式构建[J]. 情报杂志,2015, 34(4):176-180, 175.和检索式的构造方法[7]苗艳荣. 机构检索在不同数据库中的检索方法及技巧[J]. 高校图书馆工作, 2015, 35(170):59-62.、步骤[8]谢群. 在Web of Science中准确进行中文机构检索的方法研究[J]. 图书馆论坛, 2011, 31(1):155-157, 154.。但目前尚未有研究如何结合地址信息的特点,优化机构文献检索策略的文献。本文将分析WOS数据库地址字段的结构和属性,介绍构造基于地址检索的机构文献检索策略。

一、WOS数据库地址信息分析

(一)地址信息的结构

地址(AD)是WOS数据库基本检索字段,包含作者的工作单位、国家/地区、城市、街道、邮政编码等多重信息。这些信息被单独提取出来并分别构成机构(OO)、下属机构(SG)、街道地址(SA)、城市(CI)、省/州(PS)、国家/地区(CU)、邮政编码(ZP)七个字段。因此,机构和下属机构等虽然是独立的检索字段,但也可以看成是构成地址字段的子字段。

根据文献著录的规则,地址字段可以描述为:机构,#[下属机构],#[街道地址],#城市[邮政编码],#[省/州],#国家/地区。西文半角的逗号和空格作为间隔符用来连接两个相邻的子字段,间隔符在进行字符串检索时会被忽略,方括号用来表示字段的属性。机构、城市和国家地区三个字段没有方括号,属于基本字段或必备字段,是所有文献地址必须具备的三要素。下属机构、街道、邮编、省/州等四个字段有方括号,说明这四项是可选字段或者非必要字段,文献的地址里可能有其中的几项,也可能一项都没有。

(二)地址信息转录的特点

WOS遵循客观照录的原则从原文中转录、提取各子字段的信息,仅对单词进行一定的技术处理。如:不区分单词大小写,冠词(a、an、the)和介词(of、in、for)等被自动忽略,and被用作逻辑与运算符,机构名称中的and被替换成&。

此外,还为一些常用单词建立映射,即用缩写形式替代全拼,已建立映射且拼写正确的单词被转换成缩写形式,少数未建立映射的单词也被转录成缩写形式。如地址信息“Huazhong Univ Sci & Technol, Sch Management, Luoyu Rd 1037, Wuhan 430074, Hubei, Peoples R China”,Univ、Sci、Technol和Sch均采用缩写形式,其中Univ、Sci和Sch已经分别与University、Science和School建 立 映 射, 但Technol和Technololgy并不具有映射关系。因为没有进行人工修正,原文地址中拼写错误的单词被照录。

(三)机构名称的特点

OO(机构)和SG(下属机构)两个字段与机构名称直接相关,正好对应地址信息中的前两项:机构,#[下属机构]。“机构”属于必备字段,“下属机构”是可选字段,地址中不一定都具备。

部分机构名称出现错误,一方面是论文发表时本身的错误被直接照搬,另一方面就是数据库公司在转录、识别的过程中产生的错误[9]魏凤萍, 何益华, 袁青. 基于Web of Science机构标引典型错误及其维护策略[J]. 数字图书馆论坛,2018(5):46-51.。不规范或者错误的机构名称有如下几种类型:使用简称、拼写不完整、单词顺序颠倒、机构名称用词不规范、单词拼写错误、机构名称缺失,使用汉语拼音直译时缺少空格或拼写错误,参见表1。

表1 不规范的机构名称

(四)城市、邮政编码等地理信息的特点

地址信息中后五个字段都属于地理位置信息,即:[街道地址],#城市[邮政编码],#[省/州],#国家/地区。其中城市和国家是必备字段,原则上每条地址信息中都必须具备;街道、邮政编码和省州属可选字段,文献地址中可能只有其中几项或一项都没有。

如表2所示的例子中都有城市和国家信息,部分有邮政编码和省州信息,没有街道地址信息。城市采用汉语拼音直译,很可能出现如例1的使用不规范缩写,例2平翘舌、例3的前后鼻音、例4的空格等问题;邮政编码除可能缺省外,还会出现如例5和例6的使用错误;省州基本采用汉语拼音直译,除可能缺省外,其拼写也容易出现错误。

表2 地址中地理位置信息

二、机构文献检索策略

(一)检索字段的选择

机构名称决定科研成果的归属权,是检索机构文献最理想的关键词[10]何建新, 胡方方. 论著者地址的情报价值[J]. 图书情报工作, 1998(7):18-19, 42.。机构是WOS地址字段的必备字段,每条地址信息中必须具备;下属机构、邮政编码等属于可选字段,不是每条地址信息中都具备。因此,为保证机构文献的检全率,文献检索的选词原则应是以必备字段为主、以可选字段为辅,即以机构、城市、国家/地区等信息为主,以邮政编码、街道、省/州等信息为辅。

城市、省州和国家指代的地区范围较大,独立检索时不足以专指某个机构,通常与机构名称一起使用,起限定或区分的作用。街道地址和邮政编码表达的地理范围相对较小,可能指向城市里的某个具体区域,若对机构的指向性明确并且专指度高,可以作为独立检索词使用。街道和邮政编码不是必备字段,并非所有地址信息都会填写,作为唯一检索词极易导致漏检,建议仅作为辅助条件对其他检索式和检索词进行补充。此外,若同一个区域内有多个机构共用一个邮政编码,如果作者存在误用,其作为限定词也可能产生误检。

(二)确保检索词的专指度

WOS是基于英文内核的数据库检索系统,所有字段都采用英文或者阿拉伯数字描述。通过地址字段进行检索时,检索词与地址的部分信息一致即认为匹配成功。对中国机构来说,其中文名称可能具有较高的辨识度,但其英文名称在检索时则可能产生混淆[11]刘杰. SCI地址信息著录的不规范性分析——以SCI收录的北京大学文献为例[J]. 中国科技期刊研究, 2005,16(6):848-849.。因此,利用机构名称进行检索,须核实其英文名称是否具有较高的专指度,只有具备较高检索专指度的英文名称才能直接进行检索。

比如,输入Wuhan University(武汉大学)可能检索到Wuhan University of Technology(武汉理工大学)的文献,输入Tsinghua University(清华大学)可能检索到National Tsing Hua University(台湾清华大学)等。对武汉大学与武汉理工大学等同在一个城市的易混淆机构,可以通过文献集合理论进行排除[12]梁桂英, 袁润. 基于Web of Science数据库的非特异性机构论文检索模式构建[J]. 情报杂志,2015, 34(4):176-180, 175.;对于清华大学与台湾清华大学等不在同一城市的易混淆机构,可以利用邮政编码、城市或者地区信息进行限定[13]苗艳荣. 机构检索在不同数据库中的检索方法及技巧[J]. 高校图书馆工作, 2015, 35(170):59-62.。

(三)重视不规范的机构名称

地址中除了存在因原文中作者的拼写错误被照录或信息提取错误等问题,还存在多种不规范的机构名称拼写形式,在机构文献检索中应尽量实现这部分文献的检索。

表3 机构名称可能存在的问题与检索策略

表3列出机构名称拼写中可能存在的问题及其解决办法,即:使用截词符或通配符来匹配单词的多种拼写形式,用逻辑或列举近义词、同义词等多种表达,将名称中的核心单词作不同排列组合并将不同词序组合去掉最后一个单词,即可解决机构名称拼写时词序颠倒和部分单词缺失的问题。

地址中,还可能出现机构简称、曾用名、机构名称缺失等问题。对机构简称和曾用名,都要确定其检索专指度高,若没有误检则直接作为检索词使用,否则就需要视情况增加城市、邮政编码等作为限定条件。而机构名称缺失的情况多出现于具有一定规模、科研实力较强的附属机构,较常见的有附属医院、大型实验室和研究中心等,可收集附属单位的信息并逐个分析、检索。

三、机构文献检索流程

机构文献检索可分为:准备、调试和汇总三个阶段。准备阶段主要收集整理各类信息,如机构官方英文名称,机构简称、曾用名,以及科研实力较强的附属医院、实验室等下属机构及相应的英文名称,并根据缩写词表将检索词转换成恰当的缩写形式。调试阶段的工作最为复杂,专指度高的名称直接用于检索,并进行截词、去尾和排序等技术处理,以适应可能出现的不同变体;不具备唯一性的名称须增加适当的限定条件,确保检索结果不产生漏检、误检。没有命中文献的检索式可以直接舍弃,有命中文献则暂定为有效检索式。汇总阶段要将从不同角度拟定的有效检索式进行精炼,去掉检索结果被其他检索式完全覆盖的检索式,最后用逻辑或将所有检索式连接、汇总,构成机构文献检索式。检索流程参见图1。

图1 机构文献检索流程

图2 显示对机构名称“Huazhong University of Science & Technology”中的“Hua”进行截词的过程。截词的调试中,命中文献数量增加表示匹配到新的变体形式,没有变化意味着暂时没有匹配到。

如出现新增文献,须对文献仔细验证,确认是否全部属于目标机构。若确认属实,说明该调试可行并且可继续;若出现其他机构的干扰文献,说明调试范围过大导致误检,应放弃。但须注意,若新增文献中既有其他机构文献,也有目标机构文献,此时虽然应停止继续截词,但要对新出现的目标机构文献进行研究,分析其特点和规律并写出恰当的检索式。对特别容易混淆的机构名称,进行限定后还要对检索到的文献进行分析,部分文献可能需要人工判断,将非目标机构文献做好记录,便于从结果中排除。

四、机构文献检索效率测评

笔者从规范名称及其各种变体、机构简称、医学院与附属医院、实验室、曾用名等角度为华中科技大学编写地址检索式,2018年6月26日检索结果如图3所示。#1是规范的机构名称,#2是机构扩展检索,#3是地址检索,#4说明近五年华中科技大学有643篇SCI论文机构名称拼写不规范,#5说明截止到检索日华中科技大学有119篇论文尚未进行机构标引,#6和#7说明规范的机构名称和机构扩展检索被地址检索完全覆盖。

五、结语

本文提出的机构文献检索策略是华中科技大学图书馆多年进行机构文献检索的经验总结,融合Web of Science数据库的信息处理特点、检索功能和机构的个性特征,对华中科技大学而言能有效弥补机构扩展检索的不足,满足本校对SCI论文数据的需求。不同机构的历史和发展各不相同,但数据库地址信息转换规则和检索功能是相同的,机构的不规范署名有相似之处,希望该检索策略能为其他机构提供借鉴和参考。

图2 对“Hua”进行截词的过程(2018.6.24)

图3 检索效率测评(2018.6.26)

猜你喜欢

字段邮政编码检索
图书馆中文图书编目外包数据质量控制分析
邮政编码的前世今生
邮政编码的前世今生
为什么寄信要写邮政编码?
专利检索中“语义”的表现
CNMARC304字段和314字段责任附注方式解析
无正题名文献著录方法评述
关于CNMARC的3--字段改革的必要性与可行性研究
国际标准检索
国际标准检索