APP下载

Wikipedia与WoS引用指标特征的比较研究*

2022-04-28沈利华

情报杂志 2022年4期
关键词:词条参考文献论文

杨 柳 沈利华

(浙江大学图书馆 杭州 310027)

0 引 言

Wikipedia(维基百科)是一个以开放协作、多语言、结构化为特点的Web 2.0知识系统[1]。“概念”是它的基本组成单元,通过“学科分类”进行有效组织。Wikipedia非常重视数据的来源,从发展的早期开始就规定“凡是引用前人(包括自引)已发表文献中的观点、数据和材料等,都要对其予以标明,并在文末列出参考文献”。同时,Wikipedia也规定了较完善的参考文献和语法格式,包括普通守则、行为指引、内容指引、其他指引、样式规范等[2]。Nature调查显示,Wikipedia词条具备较高的质量和可信度,和《大英百科全书》的准确度十分接近,且它的条目比《大英百科全书》更加多样化[3]。

如今,来自计算机科学、教育学、图情出版等众多学科领域的研究人员基于维基社区和维基数据已开展了广泛研究,其中从参考文献引用视角开展分析的研究主要包括:王志红[4]、常建宇[5]、邓莉[6]等从研究人员引用Wikipedia资源的角度出发开展量化分析,揭示学术研究中利用Wikipedia的特征与规律。以Wikipedia的参考文献为对象开展的研究中,国内主要有:杨阳将维基百科中历史类词条和《史学月刊》文章的参考文献进行数量、类型等对比分析,发现前者参考文献的数量较少,且主要来源是图书[7];杨思洛等以中英维基百科图书情报学类目的参考文献为对象,研究网络引文的分布规律,发现英文维基百科在引文总量、篇均引文等方面明显好于中文维基百科,且两个维基百科利用的网络资源呈一定的聚集和离散分布等结论[2]。

国外相关研究的热度高于国内:Banasik-Jemielniak N等对心理学期刊的Wikipedia引用、Wikipedia心理学词条的学术期刊引用量及引用时间轨迹等进行研究,发现Wikipedia引用率与期刊SJR分数之间有显著相关性等结论[8];Piccardi T等研究了Wikipedia使用过程中用户与参考文献的交互行为,结果显示新编辑词条的参考文献,开放存取资源及出生、死亡、婚姻等与生活相关的参考文献最受用户欢迎[9];Torres-Salinas D等将Altmetric.com平台下载的Wikipedia参考文献映射至Scopus数据库的人文学科开展共被引分析,结果表明历史是人文科学与其他领域产生关联的中心性学科,哲学为边缘性学科等[10];Serrano-Lopez AE等基于被Wikipedia引用的WoS风力发电相关文献和被WoS收录的Wikipedia中风力发电相关词条的参考文献两个数据集,开展引用量、引用率描述性统计分析及文献类型分布等比较研究,得到Wikipedia不适合作为风力发电主题评价指标等结论[11];Kousha K等研究了Wikipedia对Scopus论文和专著的引用是否能够反映文化、社会、教育影响力以及这些影响力是否存在学科、文献类型等差异,发现专著的引用率远高于论文,被引用率最高的学科为艺术和人文学科等结论[12]。

综上可知,Wikipedia参考文献的研究多为国外成果,国内相关研究较少。现有研究大多将某一学科/领域的Wikipeida参考文献和Scopus收录文献相关联,开展引用量/率、文献类型、学科类型等分析,鲜少聚焦于Wikipedia和Web of Science(下文简称为“WoS”),基于多学科大数据揭示Wikipedia提及指标和WoS引用指标的异同。笔者认为,Wikipedia、WoS分别是新兴网络百科、传统引文数据库的代表,对Wikipedia提及和WoS引用的特征开展系统性比较研究,有助于学界更为全面深入地了解与利用网络百科和引文数据库的相关资源,也可为数字环境下构建更加客观完善的科研成果计量与评价体系提供参考。鉴于此,笔者以Altmetric.com平台追踪的Wikipedia提及数据为样本,在呈现Wikipedia提及指标数据量分布、学科分布、代表性论文主题分布的基础上,深入探析Wikipedia和WoS在传播新发表论文速度、指标值累积模式、关注论文持续性上的特点,比较Wikipedia提及和WoS引用在不同学科、出版年上的相关性差异,并揭示二者关注主题的侧重点。

1 数据获取与处理

笔者之前的研究发现[13],众多Altmetrics平台中,Altmetric.com的评价对象以论文为主,数据时效性高,支持的文献检索和过滤方式最多,数据查询下载操作方便,因此本文选用Altmetric.com作为数据源。它基于Wikipedia Events API追踪英语、芬兰语和瑞典语Wikipedia的提及数据,能够自动识别用户最新编辑的词条。研究成果需满足以下两个条件方能被追踪到:一是位于页面上的引用区域;二是使用格式正确的引用标签。用户可以在Altmetric Explorer的“提及入口”访问所有提及类数据,以数据源类型、作者姓名、国家、时间、成果类型对检索结果进行过滤,并将查询结果的元数据导出至CSV表格中。

第1步,下载数据。在Altmetric Explorer中检索“Wikipedia Mentions(Wikipedia提及)”词条,时间限制为2015年1月至2020年5月,共下载得到1 433 118条结果,数据截取展示见图1;第2步,提取论文类提及数据。综合“Output Type”字段是“Article”和“DOI”字段非空为筛选依据,提取有DOI字段的论文类被提及成果,共得到828 952条Wikipedia条目。以DOI为依据去重,得到617 203篇被Wikipedia提及的论文数据;第3步,检索Wikipedia高提及论文的WoS施引数据。筛选Wikipedia提及次数在10次及以上的高提及论文,以DOI为检索字段,在WoS核心合集中进行高级检索,选取子库SCI-E、SSCI、A&HCI、CPCI-S、CPCI-SSH、ESCI、CCR-E、IC,时间设定为2015-2020年,限定文献类型为论文、会议论文、综述、数据论文,得到581条记录。将记录以bib格式导出,导入浙江大学图书馆购买的Calis查收查引系统,以检索每篇论文的WoS核心合集收录论文施引数据(包括总引和他引);最后,编程提取Calis查收查引系统返回的581篇论文及WoS他引施引论文的出版时间,分别计算高提及论文出版和WoS他引施引论文出版、Wikipedia词条提及的时间间隔。数据下载与清洗时间为2020年6月-8月。

图1Wikipedia原始数据展示

2 Wikipedia提及指标整体情况分析

2.1数据量分布617 203篇论文获得Wikipedia提及的区间为1~986次,其中获得1次Wikipedia提及的论文数高达83.07%,有1 860篇论文被Wikipedia提及10次及以上,占比0.30%。获得50次及以上Wikipedia提及的论文有143篇,仅占0.02%,详见表1和图2。

表1Wikipedia提及数据量分布

图2Wikipedia提及频次分布

2.2学科分布Altmetric.com使用Dimensions平台的学科分类数据,Dimensions凭借机器学习算法从论文摘要中提取短语和关键词,以此将论文归属至22个一级学科,一篇论文可以归属至一个或多个学科[14]。617 203篇论文的学科分布统计如表2所示。可以看出,2015年以来的Wikipedia提及次数学科分布差异明显,理学、医学类学科被Wikipedia提及较多,法律法规研究、创意艺术与写作研究、教育学等人文社会科学类被Wikipedia提及较少。提及论文数分布最多的学科为医学与保健科学、生物科学,这两个学科的提及次数也遥遥领先于其他学科。建筑环境与设计学分别以2 210篇论文数、2 731次提及位列22个学科的最末位。提及极大值、篇均提及两个指标排名前2的数值均出现在物理科学、地球科学两个理学学科中,教育学的提及极大值(11次)、篇均提及(1.17次/篇)最低。因被Wikipedia提及为1次的论文数高达512 704篇,22个学科的提及最小值、中位数均为1。

2.3代表性论文主题分布为探析Wikipedia提及最多论文的研究内容,选取被引次数在50次及以上的143篇论文为代表性论文,凭借Gephi软件,基于高频关键词在论文中的共现关系,通过聚类分析揭示其研

表2Wikipedia提及学科分布

究主题,结果如图3所示。代表性论文主要关注三大主题:主题一涉及星体分类、观测、演化等天文学相关研究,包含Catalogs、Stars: fundamental parameters、Solar neighborhood、Astrometry、Minor planets, asteroids: general、Stars: evolution、Methods: data analysis等中心词;主题二涉及生物形态学、系统学、地理学等生物科学相关研究,包含Morphology、Taxonomy、Phylogeny、Evolution、Biogeography、Apparatus等中心词;主题三涉及动植物分类与命名等动植物学相关研究,包含Classification、Coleoptera、New species、Bibliography、Staphylinidae等中心词。

图3 代表性论文研究主题聚类图

3Wikipedia提及指标与WoS引用指标比较分析

3.1传播新发表论文速度对比分析论文第一次被WoS引用的时间可以表征WoS传统科研成果数据库传播新发表论文的速度,同理,论文第一次被Wikipedia提及的时间可以反映Wikipedia新兴网络知识系统传播新发表论文影响力的及时性[15]。分别将每篇Wikipedia高提及论文的WoS施引论文出版时间、Wikipedia提及词条提及时间由早至晚进行排序,找出最早的施引、提及时间,并以月为单位分别计算二者和Wikipedia高提及论文出版时间的间隔,以进一步对比分析WoS和Wikipedia传播新发表科研成果的速度,结果见图4-图5。

图4 论文出版与第一次被WoS引用、Wikipedia提及的时间间隔

图5 论文出版与第一次被WoS引用、Wikipedia提及的时间间隔

以论文出版第8个月为分水岭,在此之前,Wikipedia第一次提及积累较快,WoS第一次施引累积量增长稍慢;在此之后,WoS第一次施引累积量的增长速度超越Wikipedia,二者积累速度大体趋于一致。Wikipedia、WoS最晚的第一次提及/施引分别发生在论文出版的第50个月、第60个月;Wikipedia有50.09%的第一次提及发生在论文发表的一个月之内,而距论文出版的第4个月,WoS第一次施引的数量才过半,较Wikipedia过半数的时间晚了3个月。此外,由于论文存在预出版、提前在线出版的情况,数据统计时出现了提及/施引时间早于正式出版时间的情况。581篇论文中,有118篇论文第一次被Wikipedia提及的时间早于论文正式出版日期,有48篇论文第一次被WoS引用的时间发生在论文正式出版日期之前。相较来说,WoS传播新发表论文的速度稍慢。

3.2指标值累积模式对比分析581篇Wikipedia高提及论文在近5年半的时间内共获得了73 591次WoS引用和14 154次Wikipedia提及,论文与全部WoS施引论文、Wikipedia提及词条的时间间隔分布及其累积占比见图6-图7。论文发表第2年获得的WoS施引文献最多,有18 368次施引行为发生在这个时间段内;正式出版前的WoS施引文献最少,仅有410篇。相较来说,Wikipedia提及行为发生更早、累积更快:在论文发表第1年,就获得了近半数(44.79%)的提及次数,并另有6.80%的提及行为发生在论文正式出版日期之前。Wikipedia提及中,发生在论文发表之后第61~64个月的提及行为最少,仅有25个词条。单从二者的时间间隔累积占比变化也可看出,WoS引用次数的累积增长速度显著慢于Wikipedia。

WoS是国际公认的反映科学研究水准的二次文摘型数据库,以SCI-E、SSCI等引文索引,CCR-E、IC化学索引等数据库享誉全球科技和教育界,它收录的期刊与论文在业内具备较高水准,这些论文需经作者研究成稿、同行专家评议、编辑审核校对之后方能被期刊录用,且一般需在正式出版之后才会被WoS收录,故而施引周期较长。而Wikipedia是来自世界各地的用户协同编辑的一个网络百科全书项目,任何人都可以自由、免费地开展词条编辑,以全部维基人讨论、修改的民主形式和系统中维基管理员清除破坏及封锁恶意破坏者账户相结合的方式开展词条审核[16],词条编辑、审核所经流程少,见网快,因而提及周期较短。

图6 论文出版与全部被WoS引用、Wikipedia提及的时间间隔

图7 论文出版与全部被WoS引用、Wikipedia提及的时间

3.3关注论文持续性对比分析分别计算每篇论文被WoS引用、Wikipedia提及的年份个数,进而统计出版时间之前至出版第6年共7个年份中各个年段的论文数分布。为方便和论文出版之后的提及/引用年份作区分,此处统一将论文出版时间之前的提及/引用划作单独的一年予以统计,结果见图8。

图8WoS引用、Wikipedia提及关注论文的持续性

WoS关注论文持续性分布最多的为3~5个年份,有125篇论文分别在4个年份都有被WoS引用,占比最高。论文被Wikipedia关注持续时间分布最多的为1~3个年份,其中2个年份最多,有34.25%的论文被Wikipedi在2个年份中提及,占比最高。Wikipedia对论文关注的持续性最长为5个年份,WoS对论文关注的持续性最长为7年。有3篇论文在正式出版之前至出版之后第6年的每年都有被WoS引用,它们均出版于2015年,其中2篇发表于综合性权威刊物Nature,1篇发表于生物学领域期刊JournalofMolluscanStudies,研究的内容分别为基于基因组测序技术研究欧洲印欧语系起源[17]、灵长类动物新大陆猴的起源和早期进化[18]、锥体蜗牛的新分类[19],这3篇论文得到的关注时间持续最久。相较来说,WoS关注论文的持续性更长。

7年中,论文出版的第几年最容易获得WoS、Wikipedia关注呢?为回答这个问题,本文分别对每个年份引用/提及的论文数进行统计,结果见表3。可见,在论文出版第2年,最易被WoS引用,565篇论文中,有82.12%的论文在出版第2年被引用。在论文出版当年,最易被Wikipedia提及,581篇论文中,有432篇在出版当年被提及。这一结论也与前文分析中论文分别于发表第2年获得的WoS施引文献最多,发表当年获得的Wikipedia提及最多这一结论相契合。

表3 论文被WoS引用、Wikipedia提及的时间分布

3.4相关性分析上文可知,Wikipedia提及论文中高达83.07%的论文仅获得了1次提及,为凸显相关分析的趋势性,此部分基于Wikipedia高提及论文数据集开展分析。凭借SPSS软件,采用非参数K-S单样本方法对581篇论文的WoS总引、WoS他引、Wikipedia提及共3个数据集进行正态性检测,结果显示数据集的显著性水平皆小于0.05,不服从正态分布,因而选取Spearman方法来开展各指标之间的相关性检测,结果见表4。来自同一数据库的WoS总引和他引在0.01的显著性水平上呈现极强的正相关关系,WoS总引次数随着他引次数的增加而显著增加。WoS总引、他引和Wikipedia提及指标之间的显著性水平分别为0.119、0.208,均大于0.05,说明两个WoS引用指标和Wikipedia提及指标不相关。

究其原因,从提及/施引人角度,Wikipedia的提及人可以是任意互联网用户,WoS的施引人则是各学术领域的专业研究者;从提及/施引环境角度,Wikipedia提及发生在网络知识交流过程,WoS引用发生在专业学术领域;从提及/施引目的角度,Wikipedia提及的初衷是为词条概念提供真实的参考凭证,侧重于知识科普。WoS引用则是为某一学术领域开展更为深入的研究提供前人已取得的成果依据,侧重于学术科研。综上,Wikipedia提及虽然和WoS引用一样都是对科研成果的参考行为,但与WoS引用侧重反映科研成果的学术影响力不同,Wikipedia提及侧重于呈现网络知识交流痕迹,揭示科研成果的社会影响力。

表4WoS引用与Wikipedia提及的相关性分析

3.4.1 在不同学科的相关性 WoS引用与Wikipedia提及在各学科之间的相关性分析,可以洞见两个指标的相关性是否有学科差异。为确保相关性分析的客观性,选取学科论文数在10篇及以上的10个学科展开分析,结果简化展示如表5所示。与全部论文一致,各学科的WoS总引与他引呈极强正相关性。生物科学、医学与保健科学、物理科学、环境科学、化学科学、工程学、人类社会学7个学科的WoS总引与Wikipedia提及、WoS他引与Wikipedia提及的显著性水平均大于0.05,两个WoS引用指标与Wikipedia提及在上述7个学科上无相关关系。地球科学WoS总引与Wikipedia提及、WoS他引与Wikipedia提及的显著性水平分别等于小于0.05,指标之间有相关性,相关系数分别为0.244、0.249,说明WoS总引、他引均与Wikipedia提及呈弱相关性。

历史与考古学WoS总引、他引与Wikipedia提及的显著性水平皆小于0.05,相关系数分别为0.545、0.487,即两个WoS引用指标和Wikipedia提及之间为中等程度正相关关系。上文学科分布部分可见,22个学科中,历史与考古学的篇均提及量(1.43次/篇)高居第4位,说明该学科获得Wikipedia提及的论文,其被提及的次数相对较多。Torres-Salinas D等的研究也发现,历史是哲学、古典文学、比较文学与文学理论、博物馆学、视觉艺术与表演艺术、宗教研究领域Wikipedia共被引的核心学科,是人文科学与其他领域产生关联的中心性学科[10],笔者推测学者在科研过程中有查阅上述领域Wikipedia词条需求时,较容易发现历史与考古学相关参考论文,进而可能触发专业学术引用行为。

认知心理学WoS总引、他引与Wikipedia提及的相关系数分别为0.823、0779,分别在0.01、0.05的显著性水平上呈极强正相关性、强正相关性。Vogl S等的研究显示WoS数据库2010-2012年心理学论文的在线提及指标(包括Wikipedia提及)与WoS影响因子指标呈中高水平正相关性[20],这与本文的分析结论一致。Banasik-Jemielniak N等的研究也从侧面印证了这一结论:Wikipedia心理学相关条目中被广泛引用的期刊在整个Wikipedia中也经常被引用,心理学期刊的Wikipedia引用率和期刊的SJR分数存在显著相关性[8],而SJR (SCImago Journal Rank)是基于传统数据库Scopus引文绝对数量和质量的评分指标。

表5WoS引用与Wikipedia提及在不同学科上的相关性

3.4.2 在不同出版年的相关性 为揭示WoS引用与Wikipedia提及之间的相关性是否与指标值积累时间长短有关,本文分别开展2015-2020年论文的相关性分析,结果简化展示如表6所示。同样与全部论文的结论一致,历年论文的WoS总引与他引的相关系数均在0.96以上,呈非常显著的正相关关系。WoS引用与Wikipedia提及的显著性水平皆大于0.05,两者在统计学上不相关。

表6WoS引用与Wikipedia提及在不同年份上的相关性

2020年论文的WoS总引、他引与Wikipedia提及的显著性水平皆小于0.05,分别与Wikipedia提及呈中等程度负相关性、弱负相关性。该年论文的特殊性主要在于因出版时间短,绝大多数论文积累了较多的Wikipedia提及次数,WoS总引次数、他引次数较少或暂时为零,未历经时间累积,所以呈现出Wikipedia提及越多,WoS总引、他引越少的趋势,这也在一定程度上印证了新出版论文更易获得Wikipedia提及,Wikipedia较WoS传播新出版论文的速度更快这一结论。从整体看,WoS引用与Wikipedia提及之间的相关性在论文出版年早晚上无显著差异。

3.5关注主题分析为揭示Wikipedia和WoS关注论文的异同,本文选取Wikipedia高提及论文中WoS总引次数排名前20%论文为Wikipedia、WoS关注皆高的论文集,排名后20%论文为Wikipedia关注高、WoS关注低的论文集,分别提取论文集合的关键词字段进行主题分析,结果见表7。

表7WoS引用与Wikipedia提及关注主题分析

从表7可以看出,Wikipedia关注高、WoS关注低的主题主要为New species、Distribution、Ornithischia、Lepidoptera、Integrative taxonomy等动植物分布分类相关研究。Wikipedia、WoS关注皆高的主题主要为基因组学溯源人类演化史、发展史相关研究,包括Genome sequence、Hominid、DNA、History、Evolution等中心词。此结论也与上文Wikipedia提及代表性论文关注的主题较为一致。

4 结果与讨论

2015年1月至2020年5月,Wikipedia共提及论文类成果617 203篇,绝大部分论文仅被提及过1次。Wikipedia对理学、医学类论文提及较多,对人文社会科学类论文提及较少,学科数据量分布差异显著。代表性论文关注的主题主要有:星体分类、观测、演化等天文学相关研究,生物形态学、系统学、地理学等生物科学相关研究,动植物分类与命名等动植物学相关研究。

Wikipedia高提及论文获得的WoS引用量是Wikipedia提及量的5倍左右,对于论文类科研成果来说,Wikipedia的提及量远低于WoS的施引量。Wikipedia反映新发表论文的影响力更及时,新发表论文更易获得Wikipedia提及,Wikipedia指标值累积增长速度也相对更快。但WoS对论文的关注时间持续更长,论文出版第二年最易被WoS引用,出版当年最易被Wikipedia提及;从关注主题看,动植物分布分类相关研究是Wikipedia关注高、WoS关注低的主题,二者关注皆高的主题为基因组学溯源人类演化史、发展史等相关研究;从相关性看,无论从全部高提及论文抑或不同出版年角度出发,两个WoS引用指标均与Wikipedia提及没有显著的相关性,说明它们之间的相关性与指标值累积时间长短无关;WoS总引、他引与Wikipedia提及在生物科学、医学与保健科学、物理科学、环境科学、化学科学、工程学、人类社会学7个学科上也无相关关系,在地球科学上呈弱相关性,仅在历史与考古学、认知心理学两个学科上有显著中等至极强正相关关系。可见,在生物科学、医学与保健科学等学科,Wikipedia反映的价值内涵与引文不同,Wikipedia高提及论文可以视为做出重大非学术贡献的科研成果[12,21]。在历史与考古学、认知心理学两个学科,Wikipedia呈现的影响力与WoS引文指标较为一致,Wikipedia提及值对之后的WoS引用值有较好的预见性。

尽管学界关于Altmetrics的解读至今仍未达成共识,但国内外学者已普遍肯定它追踪网络学术交流痕迹的作用,认可它是对采用传统引文指标评价体系的一个合理补充[22]。目前关于Altmetrics指标的研究,Twitter[23-24]、Mendeley[15,25]、F1000[26-27]相对较多,Wikipedia相对较少。Wikipedia提及作为Altmetrics指标之一,可以一定程度上弥补传统文献计量指标评价周期长、评价对象单一的缺陷,更快地呈现科研成果在网络知识交流中的影响力。但要想客观探究Wikipedia提及和WoS引用的相关性,至少需要考虑到两个因素:一是Wikipedia在论文类研究成果的提及率、提及量过低[7,12],需要过滤过多提及次数为1的论文对相关趋势的稀释影响;二是Wikipedia提及与WoS引用在不同学科上的相关性差异显著,有必要从学科角度进行分类分析。

5 不足与展望

本文基于Altmetric.com追踪的Wikipedia提及数据,对Wikipedia提及指标的数据量、学科、主题分布及其与WoS引用指标在传播新发表论文速度、指标值累积模式、关注论文持续性、关注主题上的特点,二者之间相关性在学科、出版年上的差异性进行分析。研究尚存在一定局限性:一是在将Wikipedia高提及论文映射至WoS数据库的过程中,舍弃了Wikipedia高提及论文中未被WoS收录的部分,未能揭示Wikipedia高提及数据全貌;二是因WoS引用滞后于Wikipedia提及,样本中2020年论文仅获得了Wikipedia数据,未迎来WoS引用高峰。我们将在后续研究中优化数据处理方法与分析策略,进一步扩展分析维度以进一步揭示Wikipedia提及指标的学科特性。

猜你喜欢

词条参考文献论文
利用简单的公式快速分隔中英文词条
The Muted Lover and the Singing Poet:Ekphrasis and Gender in the Canzoniere*
本期论文英文摘要
Study on the physiological function and application of γ—aminobutyric acid and its receptors
本期论文英文摘要
本期论文英文摘要
The Review of the Studies of Trilingual Education in inghai
2013年5—12月最佳论文