APP下载

图书情报与档案管理期刊论文首次响应时间的影响因素研究*

2022-04-28胡泽文崔静静

情报杂志 2022年4期
关键词:期刊论文情报学篇幅

胡泽文 任 萍 崔静静

(南京信息工程大学管理工程学院 南京 210044)

科技文献首次响应时间是反映科技文献发表之后传播与利用水平和速度的重要指标,也反映出文献发表之后能否迅速吸引读者的注意力和使用。文献首次响应时间是指文献从出版到第一次被引用之间的时间间隔[1,10]。时间间隔越短,则论文首次响应时间越快。除“睡美人”等特殊文献之外,大部分科技文献如果很长时间未被引用,首次响应时间较慢,则其后续受到重视和关注的程度会降低,进而会导致文献的影响力较低。相反,如果文献首次响应时间较快,说明文献可能因为其主题新颖度、观点前瞻性、内容科学价值、载文期刊影响力、资助项目重要性和作者知名度较高而使其能够在发表后很快吸引到读者的注意和使用[2],从而促使其后续得到更多关注和引用。首次响应时间是科技文献首次被引研究的重要组成部分,科技文献首次响应时间及其影响因素方面的研究有利于发现传播与利用水平和速度较高的潜在精品文献,评估不同国家、机构和期刊文献传播与利用的水平和速度,使科技文献在发表后早期就能够很快发挥其最大科学价值。

1 科技文献首次被引研究现状

使用英文关键词“first citation”“firstly cited”和相应的中文关键词分别在Web of Science、Science Direct和中国知网中检索,通过文献研读,发现国外学者自1986年以来发表13篇首次被引研究文献,而国内仅发表4篇论文。国内外科技文献首次被引研究主要聚焦3个主题,分别为:首次被引分布规律及拟合模型研究、首次被引速度指数研究、首次被引影响因素研究。

1.1首次被引分布规律及拟合模型研究早在1994年,信息计量学之父Rousseau教授提出双指数模型(公式1)来描述期刊论文的首次被引过程和响应时间分布[3]。

(1)

公式(1)中R(t)是t时刻响应时间窗口中首次被引文献的累计比例,M、b、a是常数。之后,Egghe构建了一种新的首引被引分布模型(公式2),实现一种模型可以拟合分析多种首次被引分布曲线(如凹形、S 形)[4]。

φ(t)=γ(1-at1)β-1

(2)

其中,γ表示被引文献数量占文献总数的比例,t1是文献首次被引与发表时间的间隔,α和β分别是文献老化率和洛特卡指数。Burrell基于非齐次泊松分布过程构建了首次被引分布的随机模型(公式3),描述存在老化情况下的引文分布,并建立了首次被引分布和老化分布之间的基本联系[5]。

FT(t)=P(T≤t)=1-LΛ(C(t))

(3)

其中,当t>0时,C(t)为老化分布函数。Λ为随机变量,L(t)是Λ的概率密度的拉普拉斯变换形式。

高晓培等[6]通过实证分析发现不同出版年论文的首次被引时间间隔服从幂律分布,并且不同学科论文在不同出版年、同一出版年的首次被引比例峰值与幂指数之间存在正相关。

1.2首次被引速度指数研究首次被引速度指数研究最早可追溯到Schubert于1986年提出的首次响应时间概念,即文献出版时间与首次被引时间之间的间隔[7]。其后,相对响应时间指标[8],基于h指数设计的被引速度指数[9]相继被提出。Egghe同样借鉴h指数的思想,定义了新的首次被引速度指数( First-Citation-Speed-Index,简记FCSI)及其算法F=1/(tmax-h+1),其中tmax为文献集合中文献首次响应时间的最大值[10]。武群芳等[11]引入零被引率,对首次被引速度指数FCSI进行改进。申东阳等[1]引入被引速度分布的加权平均数替代h指数,构建了反映论文学术价值在时间维度上被接受快慢的首次被引速度指数Fa。齐燕[2]对现有研究中的两类指标S指数和F指数进行改进,提出评估科研人员论文首次被引速度的新指标:S类指数(包括SF、SZ 指数)和FM 指数。

1.3首次被引影响因素研究首次被引快慢在一定程度上会影响文献或专利的后续下载和引用,Jungpyo运用Cox比例风险模型计量分析了专利属性与专利首次被引速度之间的关系。结果发现技术周期较短、IPC4类别、权利要求、同族专利和反向引用数量较多的专利,其首次引用速度更快[12]。此外,在首次被引影响因素研究方面,Abdullah采用零膨胀负二项模型实证分析了科技论文基金资助与首次被引之间的关系。研究发现基金资助与首次被引之间没有相关关系,但与被引次数之间显著相关[13]。Yong发现高、中、低被引文献从出版到第一次被引用的时间长度没有明显的差异,文献是否高被引并没有显著影响到论文的首次响应时间[14]。论文篇幅、作者和参考文献数量等文献计量特征是否对科技文献首次响应时间有影响?目前尚未发现相关研究文献。然而此类文献计量特征会对论文的引用造成一定的正向影响。 早在1991年,美国西顿霍尔大学Stern发现参考文献数量对文献能否被引有较大影响[15]。Rousseau发现多作者的合作论文有更多机会被引用[16]。胡泽文等通过面板数据模型检验出期刊篇均作者数、篇均页数和篇均参考文献量会在短期内提升期刊论文的引用率[17]。

综上所述,国内外学者已经对科技文献首次被引分布规律及拟合模型、首次被引速度指数、首次被引影响因素等方面进行探索性理论和实证分析。然而国内外首次被引影响因素研究主要聚焦于基金资助和文献价值对首次响应时间的影响。极少有相关研究探讨以下研究问题: 科技文献首次响应时间随文献计量特征数量变化的演变规律?论文篇幅、作者和参考文献数量等文献计量特征是否对科技文献首次响应时间有影响?科技文献首次被引快慢是否影响文献首次被引之后的引用频次和下载频次?首次响应时间较快文献具备什么样的特征?这些问题的解决能够丰富和拓展领域相关理论、方法与实证分析内容,这也是本文研究的出发点。

2 方法与数据

2.1方法

2.1.1 数学模型拟合分析 首先使用Origin 9绘制《档案学研究》《情报资料工作》《图书情报知识》《中国图书馆学报》和《情报学报》5种期刊论文首次响应时间随论文作者数量、篇幅和参考文献数量变化的散点图,以及5种期刊论文首次被引之后三年引用窗口的年均引用随首次响应时间变化的散点图。然后通过观察散点图的变化趋势,分别使用模型(4)、模型(5)和模型(6)对这些散点图进行拟合分析。

y=a+b1x+b2x2

(4)

y=a+b1x+b2x2+b3x3+b4x4

(5)

y=a+be-c*x

(6)

2.1.2 多元回归分析 a.指标数据的标准化处理。设X0为论文首次响应时间,X1为论文首次被引之后三年引用窗口的年均引用数,X2为论文作者数量,X3为论文篇幅,X4为论文参考文献数量。主要采用min-max标准化方法将指标数据映射到[0,1]区间。指标数据的标准化公式如下:

(7)

b.期刊论文首次响应时间影响因素的多元回归分析。首先运用Spearman相关性分析方法计算出期刊论文首次响应时间与其影响因素之间的相关系数,阐明两者之间的相互影响程度。然后以期刊论文首次响应时间y为因变量,作者数量x2、论文篇幅x3、参考文献数量x4为自变量构建分析期刊论文首次响应时间影响因素的多元回归模型:

(8)

其中,a1为常数项,e为随机误差项,y和xi(i=2,3,4)是对数化后的数据。

c.期刊论文首次响应时间影响因素的灰色关联分析。灰色关联分析可以量化期刊论文首次响应时间与其影响因素之间的关联程度,从而验证前述多元回归分析方法的有效性。灰色关联数学原理及过程参见文献[18]。

2.2数据本文实证数据来源于中国引文数据库中《档案学研究》《情报资料工作》《图书情报知识》《中国图书馆学报》和《情报学报》5种期刊2011-2013年出版的论文及其引用分布数据,检索时间为2020年10月。5种期刊发文量类似,并分属档案学、两栖类、图书馆学和情报学,能够体现出图书情报与档案管理学科不同细分领域之间的差异。其中《情报学报》篇均参考文献数量(19.26篇)远高于前4种期刊(篇均7.13篇),因此作为调节样本考察参考文献特征的影响。此外增加《情报学报》2018年论文首次响应时间变化规律数据,用于考察《情报学报》在文献流通与传播利用领域的时代发展。在剔除通讯和会讯等信息,最终获得有效样本《档案学研究》339篇,《情报资料工作》391篇,《图书情报知识》303篇,《中国图书馆学报》229篇,《情报学报》2011-2013年期间434篇和2018年121篇。基于样本数据,统计出全部论文的首次响应时间、首次被引之后三年引用窗口的年均引用数,以及作者数量、篇幅和参考文献数量。部分统计数据如表1所示。

3 实证结果分析

3.1期刊论文首次响应时间随文献计量特征变化的演变规律图1、图2、图3分别表示5种期刊论文首次响应时间随论文作者数量、篇幅和参考文献数量变化的演变散点图和使用数学模型对这些散点图进行拟合所产生的曲线。图4展示了5种期刊论文首次被引之后三年年均引用随首次响应时间快慢变化的演变散点图及其拟合曲线。在这些图中,散点的不同形状代表不同的期刊。表2是根据图1、图2和图4散点图的演化趋势、分别采用模型(4)(5)(6)对5种期刊论文首次响应时间随作者数量和论文篇幅变化的散点图,以及首次被引之后三年年均引用随首次响应时间快慢变化的散点图进行拟合分析后的拟合结果。其中图1新增的“情报学报2018”曲线表示《情报学报》2018年论文首次响应时间随作者数量变化的演变曲线。

表1 图书情报与档案管理5种期刊论文首次响应

图1 期刊论文首次响应时间随作者数量变化的演变曲线

图2 期刊论文首次响应时间随篇幅变化的演变曲线

图3 期刊论文首次响应时间随参考文献数量变化的演变曲线

图4 期刊论文首次被引之后三年年均引用随

表2 模型拟合结果

由表2可以看出,模型的拟合效果相对较优,大部分曲线的拟合优度达到80%以上。 通过图1,可以明显看出《档案学研究》《图书情报知识》和《中国图书馆学报》论文首次响应时间随作者数量增加的演变曲线是近似凹形曲线,作者数量在3~5之间时论文首次响应时间较快。其中《中国图书馆学报》论文首次响应时间一直保持平均不到2年的较快速度。《情报资料工作》和《情报学报》首次响应时间随作者数量增加表现出近似凸形的演变曲线,且这2种期刊文献作者的数量极少超过5位。其中《情报学报》论文在作者数量较少时,反而首次响应时间较快。值得注意的是,《情报学报》2011-2013年论文首次响应时间虽然相对较慢(篇均2.45年),但论文首次被引之后三年的年均引用在5种期刊中表现最优(如图4所示)。此外,《情报学报》2018年论文传播与利用水平和速度提升较为明显,演变曲线发展成典型的凹形曲线形态且篇均首次响应时间缩短为1.97年。

图2显示,5种期刊论文首次响应时间随篇幅变化的趋势存在较大差异,只能通过多项式模型(2)拟合,拟合效果较优的是《情报资料工作》和《档案学研究》。5种期刊中,《中国图书馆学报》论文首次响应时间受论文篇幅的影响较小;《情报学报》论文首次响应时间随篇幅增长一直处于加快趋势,其余3种期刊首次响应时间随篇幅变化的波动较大。

此外,图3显示5种期刊论文首次响应时间随参考文献数量增加的演变曲线波动极大,尚无合适的模型进行拟合。其中期刊论文首次响应时间在参考文献数量小于15时的波动相对较小,反之较大。《情报学报》较多文献的参考文献数量达到30篇以上,而其他期刊论文参考文献数量都在30篇以内。图4显示出5种期刊论文首次被引之后三年年均引用随首次响应时间由快变慢的演变曲线呈现出明显的指数下降趋势,因此使用负指数模型(3)对该曲线进行拟合,拟合效果极好,拟合优度(R2)达到89%以上。反过来,当5种期刊论文首次响应时间由慢变快时,图4所示5种期刊论文首次被引之后年均引用会呈现出指数上升趋势,表明首次响应时间对文献首次被引之后的影响力提升产生较大正向影响。

3.2期刊论文首次响应时间影响因素的多元回归分析运用Spearman相关性方法量化分析了5种期刊论文首次响应时间对期刊论文首次被引之后三年年均引用的影响。研究表明5种期刊论文首次响应时间会对论文首次被引之后三年的年均引用产生1%水平上的显著正向影响,相关系数分别为-0.381、-0.394、-0.402、-0.223和-0.405。即5种期刊论文的首次响应时间越快,即首次引用周期越短,期刊论文首次被引之后的年均引用增长越多。从系数大小可以看出,首次响应时间对《情报学报》和《图书情报知识》论文首次被引之后三年年均引用增加的影响最大。

表3~表5实验样本为《档案学研究》《情报资料工作》《图书情报知识》和《中国图书馆学报》4种期刊;《情报学报》论文篇均参考文献量远高于其他4种期刊,因此作为调节样本单独加入到总体样本考察参考文献特征的影响。表3展示了4种期刊1 262篇论文首次响应时间及其3个影响因素数据的基本统计。由于参考文献数据存在0,无法取对数,因此参考陆铭等[19]的做法,将所有变量加1取对数。然后利用多元回归分析方法的最小二乘法对4种期刊1 262篇论文首次响应时间(标记为Y)的3个影响因素:作者数量(标记为X2)、论文篇幅(标记为X3)和参考文献数量(标记为X4)进行回归分析,分析结果如表4所示。为了排除3个因变量之间的共线性影响,通过测量3个因变量的共线性诊断指标:容忍度和方差膨胀因子(VIF)后,发现三个因变量的容忍度介于0.883~0.937之间,是接近于1的较大值。而3个变量的VIF介于1.067~1.132之间,是小于10的较小值。因此3个变量之间不存在共线性关系。

表3 简单统计量

从表3可以看出,4种期刊1 262篇论文的首次响应时间较快,均值为2.23年,标准偏差较小,为1.085。就单篇论文的首次被引速度而言,最长为8年,最短为1年。期刊论文作者数量的均值为1.82位,最多为7位,最少为1位作者。论文篇幅最长为22页,平均为 6.10页。参考文献数量最多为27篇,平均值为7.14篇,所有论文的参考文献数量波动较大,标准偏差为6.195。

表4 多元线性回归分析结果

此外,通过表4的多元线性回归分析结果可以看出,R2=0.05,F统计量的概率P值为0,说明模型的拟合优度一般,然而期刊论文首次被引速度与三个因素变量之间总体线性关系显著。其中作者数量(X2)和论文篇幅(X3)两个变量通过显著性检验,对期刊论文首次响应时间的影响较大,影响系数分别为-0.071和-0.170。而参考文献数量(X4)未通过显著性检验,影响系数为0。通过对期刊论文首次响应时间与其三个影响因素之间进行偏相关分析检验,发现多元回归分析结果与偏相关分析结果相对一致,即作者数量和论文篇幅对期刊论文首次响应时间产生显著的正向影响,产生1%水平上的显著负相关系数:-0.071和-0.170。说明随着作者数量和论文篇幅的增长,期刊论文首次被引周期会变短,即期刊论文首次响应时间会变快。其中论文篇幅对期刊论文首次响应时间的影响更明显。而参考文献数量对期刊论文首次响应时间没有明显影响。由于实验的4种期刊参考文献数量均值较低,而《情报学报》2011-2013年论文参考文献数量的均值达到19.26篇,远超4种期刊7.14篇的均值。因此将《情报学报》434篇论文样本加入到整体样本中再次进行多元回归分析,发现参考文献特征对期刊论文首次响应时间的影响由原来的不显著变成1%水平上的显著影响,然而由于相关系数为正0.085,意味着参考文献数量的增长并不会促使论文首次被引速度加快。

3.3期刊首次响应时间影响因素的灰色关联分析将X0k标记为期刊论文的首次响应时间,X1k为论文首次引用之后三年引用窗口的年均引用数,X2k为论文的作者数量,X3k为论文篇幅,X4k为论文参考文献数量,X0k、X1k、X2k、X3k、X4k都是标准化后的数据。基于4种期刊所有论文指标数据计算出的期刊首次响应时间与其4个影响因素之间的灰色关联度,如表5所示。

表5 期刊论文首次响应时间与其影响因素之间的

由表5可以看出,期刊论文首次响应时间与期刊论文首次引用之后三年引用窗口的年均引用数关联度最高,为0.7765,表明论文首次响应时间快慢很大程度上会影响到论文首次被引后三年引用窗口的年均引用数。同时,论文篇幅、作者数量、参考文献数量与期刊论文首次被引速度之间的灰色关联度依次降低,即3个变量的影响逐渐变弱,表明影响期刊论文首次响应时间的主要因素是论文篇幅。这与期刊首次响应时间影响因素的多元回归分析结果相对一致。

4 结 语

本文以图书情报与档案管理学科5种期刊2011-2013年出版的论文及其引用分布数据为样本,通过实证分析发现:a.随着期刊论文作者数量的增长,《档案学研究》《图书情报知识》《中国图书馆学报》论文首次响应时间呈现出先下降后升高的凹形曲线形态,作者数量超过2人时,文献首次响应时间会变快。然而《情报资料工作》和《情报学报》论文首次响应时间呈现出相反的凸形曲线形态。此外,随着论文篇幅和参考文献数量的增长,5种期刊论文首次响应时间呈现出较大的波动,其中篇幅过短或过长都会影响期刊论文首次响应时间。b.论文篇幅和作者数量会对期刊论文首次响应时间产生显著正向影响,即论文篇幅或论文作者数量增长会引起论文首次被引周期变短,即首次响应时间变快。参考文献数量对期刊论文首次响应时间存在微弱的负向影响。c.首次响应时间对期刊论文首次被引之后影响力的提升有显著的促进作用。即期刊论文首次响应时间越快,则论文首次被引之后的下载和引用增长越快。

论文首次响应时间是反映科技文献传播与利用速度和水平的重要指标,进而也反映期刊论文的质量或影响力,而图书情报与档案管理期刊是传递国内外该学科信息的重要载体,通过首次响应时间识别并推荐该学科的潜在精品文献,对增进学术交流,促进图书情报与档案管理学科发展起着不可替代的作用。由于论文首次响应时间对论文被引之后的年均引用、下载和被引频次起到显著的正向影响和促进作用,因此期刊可通过在线出版、预出版和宣传推荐等措施提升文献传播与利用水平和速度,从而增强文献后续影响力。

猜你喜欢

期刊论文情报学篇幅
开放与融合:公安情报学进入情报学方式研究*
Britain's“Shark House”
我国体育学领域高被引学术期刊论文特征分析
每一个人的努力, 都不会被辜负
国内图书馆情报学的发展现状与趋势探索
卷首语
宝鸡文理学院科研论文计量分析
国内“MOOC”和“翻转课堂”的研究现状和展望
浅议知识管理对新时期图书情报学研究的积极影响
档案部门举办档案展览研究综述