APP下载

基于文献计量的我国关联数据研究现状分析

2022-03-07贾婧怡

兰台内外 2022年4期
关键词:文献计量

摘 要:对国内关联数据领域文献进行统计计量分析,主要是为掌握该领域的研究现状、相关热点和未来趋势。运用Excel和SATI等软件,对中国知网(CNKI)收录的2010~2020年关联数据的期刊文献从年度发文分析、核心作者候选人及核心作者确认、来源期刊、研究热点和研究趋势等进行了分析,探讨了当前图情领域关联数据的发展现状和趋势,目前研究重点为关联数据的社会化应用方面,研究关注度日益增高,研究空间较大,值得广大研究者关注。

关键词:关联数据;文献计量;热点分析

关联数据(Linked data)的概念是互联网之父Tim Berners-Lee在2006年的语义网项目会议上首次提出,他指出“关联数据”是语义网的一种表现形式。其主要以HTTP URI方式表达和存取资源,并通过统一资源标识符来描述发布、共享以及连接互联网,从而提供数据、信息和知识的方法。

图情领域对于关联数据的引入是2008年,Brooks,Terrence A在电子期刊发文,正式在图情领域引入了Linked open data的概念;随后在2009年Bradley在纸质期刊上发文并阐述了Linked data的相关内容;同年,国内图情领域的学者姚小乐、刘炜等将关联数据(Linked data)一词正式引入国内,关联数据研究在行业内开始风靡。

关联数据在图书馆学、情报学、信息管理学等多个学科领域具有很大的应用和研究价值。本研究拟采用文献计量方法,对我国在2010~2020年间关于关联数据领域的相关文献进行研究现状、主要研究力量和热点方面的分析,旨在对国内关联数据领域的研究现状做出总结,同时为相关的研究人员提供一些参考。

一、数据来源与分析方法

本文将运用文献计量的方法,对国内关联数据研究文献进行分析,以中国知网(CNKI)的中国学术期刊网络出版总库中的相关文献作为来源,以“主题”为检索项,检索式为:主题=“关联数据”OR主题=“linked data”,检索年限为2010~2020年,检索时间为2021年1月1日。通过对检索结果剔除重复和非相关文献后得到有效文献413篇。

二、我国图情领域关联数据研究现状

1.年度发文分析

在一定程度上,发文的数量可以反映出某领域学术研究水平和发展速度,2010~2020年,国内共发论文413篇。国内关联数据研究文献主要以年为单位描述其在时间上的分布(如图1所示),根据数据分析可知,2010~2020年国内关联数据领域的研究大致上可以分为四个阶段:

一是研究初始阶段(2013年以前),从国内外对关联数据的关注开始,关联数据的概念从产生到引入图情研究领域,与图情领域的研究深入渗透,这一时期的发文量呈稳定增长态势。

二是研究平稳阶段(2013~2014年),这一时期相关研究进入平稳时期,主要原因可能是受资金、技术等因素的制约,此阶段的文献量出现停滞甚至倒退的情况。

三是研究爆发阶段(2014~2016年),上一阶段的制约增长因素取得突破,相关发文出现爆发增长的现象。

四是研究相对成熟阶段(2016~2018年),此时期,发文量的增长率逐渐变小,其曲线也相对变得平缓,主要体现了文献寿命长、文献质量对后期研究发展贡献大的特点。在2018年以后,该领域的发文量增长再次呈下降趋势,停滞现象再现的同时,突破也在形成。

图1 国内关联数据领域年度发文趋势图

2.核心研究作者分析

(1)核心作者候选人的确定

作者发文量可揭示作者对该领域研究的持续性、深度及贡献大小。核心作者候选人需要综合考虑该作者的发文量以及文献被引量,从而避免单一指标偏颇问题。因此,本文针对入选核心作者的标准为最低发文量和最低被引量。文中主要借鉴普赖斯定律来确定这两个数值,符合两个标准之一的作者就可以作为核心作者候选人。

在检索得到的413篇关联数据文献中,一共有作者528名(包括第二、第三等合著作者),通过EXCEL软件进行相关统计,根据普赖斯定律所提出的计算公式进行统计:

其中为该领域发文最多作者的论文数量,而M为该领域核心作者的最低发文量。为所有作者中累积被引频次最大值,为高产作者累积被引频次最小值。通过计算得出M的值约等于2.900,因此目前在国内关联数据研究领域,发文量在3篇以上的作者可以入围核心研究作者候選人,的值约等于20.621,所以在该领域文献累积被引频次在21次及以上的作者可入围该领域的核心研究作者候选人。核心作者候选人需要满足两个条件中任意一个即可。在对上述满足两个标准之一的作者进行统计和人工查重之后,本文确定的我国关联数据核心作者候选人共为123位。

(2)核心作者测评

对于某研究领域核心作者可通过综合指数法确定,综合指数法是一种以正负均值为基准,将每项指标折算指数后汇总为综合指数,然后按照数值大小对该对象进行排序和评价的方法。它表达了不同计数单位的两个或多个指标的综合水平,值最大为最优,大者为佳。

发文指标指的是核心作者候选人的发文指数水平,发文平均数指的是左右核心作者候选人计算所得的平均发文量。本文中2010~2020年关联数据领域中123位核心作者候选人共发文360篇,本文中,发文平均指数。

而被引指标指的是核心作者候选人所著文献量被引指数,被引平均数指的是所有核心作者候选人文献量的平均被引频次,本文中2010~2020年关联数据领域中的123位核心作者候选人发文被引频次计算后可得为8766次,人均发文被引平均指数。

本文将引用钟文娟学者用来测评核心作者的指标:发文量和被引量。发文量代表了作者对研究领域的重要性,被引频次代表了作者的学术影响力,同时本文将发文量和被引频次这两项指标的权重比例设为0.5∶0.5。按照下文所述计算核心研究作者候选人的综合指数:

在上述公式中,指的是第i位作者的综合指数,指第i位核心作者候选人的发文量,表示第i位候选人的被引频次。运用综合指数法对2010~2020年我国关联数据方面的123位核心作者候选人的综合学术水平值进行计算可得,综合学术水平值≥100的候选人共有29个(如表1所示),这29位作者即为2010~2020年我国关联数据研究领域的核心作者。其中,综合指数位列第一的是刘炜,综合指数约为754。根据普赖斯定律可得,当核心作者发文量占该领域总发文量的50%及以上时,便形成该领域的核心作者群。通过对相关数据的统计可得,关联数据领域核心作者候选人共计发文221篇,占关联数据领域相關发文数的53.51%,已经达到普赖斯定律的形成条件,因此我国关联数据领域已形成相对较为稳定的核心作者群。

3.期刊贡献度分析

依据布拉德福定律可知,刊载某研究领域等量论文的期刊数量,如果按照递减的顺序进行排序,那么这些期刊区可以分为核心区、相关区和非相关区,其期刊数量关系是1:n:n2(n>1)。把关联数据研究领域413篇相关论文所属期刊进行统计去重后排序,可以得到刊载这些期刊的数量为65种,前16种期刊共计发文240篇,占关联数据领域全部期刊发文量的58%。其中,图书情报领域的期刊占绝大多数。《图书情报工作》发文量最多,共计39篇。经过计算后发现,2010~2020年我国关联数据研究领域核心区、相关区和非相关区的期刊数量都符合布拉德福定律。最终,确定核心区的期刊数量为3种,核心区该领域的相关论文刊载量为94篇,相关区期刊数量为13种,期刊的实际分布情况如图2所示。

4.关键词分析

探究学科热点比较常用的方法是对关键词词频的统计,主要是对出现频次较高的关键词进行统计分析以确定某领域的研究热点。本文通过SATI对关联数据领域的735个关键词进行统计分析,在人工合并同义、近义词,删除无实际意义的词汇后,将关键词按频次降序排序(如表2所示)。

由该表可见,除“关联数据”为中心词外,“数字图书馆”“语义网”“本体”“书目数据”“数据网络”“元数据”“知识组织”“开放数据”“知识服务”等关键词出现的频次较高,因此这些关键词是关联数据领域研究热点。

经过内容分析发现国内关联数据研究的主题大致可以归纳为3个方面。

(1)关联数据领域的基础理论研究

这些文献主要对关联数据的概念、基本原则、相关模型、具体应用和前景挑战等方面进行研究。其主要探究了关联数据的基本概念以及在国内外该技术的应用实现情况,逐步对信息生命周期各阶段关联数据角色定位展开研究。

(2)关联数据的技术和工具研究

主要集中在对关联书目信息处理技术、方法和工具方面。较多立足于关联数据的描述、组织、存储、转化、发布、检索等进行研究,从关联数据的语义描述、组织、发布到检索使用的工具,到解决关联数据的管理、重用、共享和交互等方面的研究。目前,较多与数字人文领域交叉融合,对数字人文的相关项目进行关系数据的描述和处理。

(3)关联数据的应用研究

在图情领域(指图书馆、档案馆、博物馆等)的资源与服务上,主要集中在数字图书馆、知识服务、数据挖掘以及数字人文领域。通过对信息资源的创建、组织和发布使用的技术或工具,来引导应用的发展。同时,涵盖了网络资源的管理和服务,如开放政府、门户导航等。其他如名称规范、语义出版和可视化领域,较为独特的有机构评价、学者和学术关系发现、家谱等领域。这一类的研究已经拓展到地理学、经济学、管理学、医学等相关领域,社会化应用趋势明显。

参考文献:

[1]TIM BERNERS LEE.Linked Data[EB/OL].[2020-01-05].http://www.w3.org/Design Issues/Linked Data.html.

[2]CHRISTIAN BIZER,TOM HEATH,TIM BERNERS LEE.Linking data:The Story So Far[J].In:IJSWIS,2009

[3]刘 炜.关联数据:概念、技术及应用展望[J].大学图书馆学报,2011

[4]Brooks Terrence A.Watch this:LOD-linking open data[J].Information research-an international electronic journal,2008

[5]Bradley Fiona.Discovering linked data[J],Library Journal,2009

[6]Ed Summers,Antoine Isaac,Clay Redding,Dan Krech,姚小乐,刘 炜.LCSH,SKOS和关联数据[J].现代图书情报技术,2009

[7]丁学东.文献计量学基础[M].北京:北京大学出版社,1992

[8]钟文娟.基于普赖斯定律与综合指数法的核心作者测评——以《图书馆建设》为例[J].科技管理研究,2012

[9]李朝阳,庞弘燊.国内外图情领域关联数据研究比较分析[J].图书馆研究,2020

[10]孙玉琦,魏杨烨.我国关联数据研究的文献计量分析[J].情报探索,2016

[11]许见亮.基于文献计量学的我国档案专业核心期刊分析与评价[D].安徽大学,2007

[12]孙 浩.关于文献计量服务的研究[J].现代情报,2008

[13]陈文爱,杨 璐,赵瑞刚.专题文献的计量学研究方法[J].情报资料工作,2007

[14]王建芳,屈宝强,齐向华.我国文献计量学近十年研究状况[J].图书情报工作,2003

[15]曹学艳,胡文静.我国文献计量学的发展[J].图书情报工作,2004

(作者单位:西南大学计算机与信息科学学院)

作者简介:贾婧怡(1996-),女,汉族,河南洛阳人,硕士研究生,研究方向:数字保存。

猜你喜欢

文献计量
基于文献计量的MOOC课程文献综述
基于文献计量分析的国内农业生态补偿研究态势
基于CNKI的国内档案学博硕士学位论文研究
基于文献计量的数据素养及其教育领域研究态势分析
国内电子商务学术研究进展分析
我国医学数字图书馆研究的文献计量分析
国内外智库研究态势知识图谱对比分析
国内外政府信息公开研究的脉络、流派与趋势
基于文献计量分析我国生物科学素养研究状况(2001~2016年)
高校通识选修课的研究综述