APP下载

科学家个人学术影响力随时间变化的计算方法研究

2017-06-03高志张志强

现代情报 2017年5期
关键词:计算方法科学家

高志++张志强

〔摘要〕[目的/意义]研究如何动态地评价科学家个人学术影响力的方法和探索研究科学家个人学术影响力时序曲线的意义。[方法/过程]用基于每n年和基于逐年个人发文和引用的学术影响力计算方式,对76名诺贝尔物理学奖获奖者的学术影响力时间变化趋势进行分析,并比较了基于每n年个人发文和引用的学术影响力计算方式下基于传统文献计量学指标和类h指数的特点。[结果/结论]得出了恰当的个人学术影响力随时间变化的计算方式和分析指标特点。

〔关键词〕科学家;个人学术影响力;时间变化分析;计算方法;诺贝尔物理学奖获奖者

DOI:10.3969/j.issn.1008-0821.2017.05.012

〔中图分类号〕C96;C250252〔文献标识码〕A〔文章编号〕1008-0821(2017)05-0066-06

A Study on the Computing Method of the Individuals Academic Impact Over TimeGao Zhi1Zhang Zhiqiang2

(1.Library,Tianjin Chengjian University,Tianjin 300384,China;

2.Chengdu Library and Information Center,Chinese Academy of Sciences,Chengdu 610041,China)

〔Abstract〕[Purpose/significance]Studying how to choose the method of dynamic evaluation of individual academic impact and exploring the significance of individual academic impact curve.[Method/process]Based on the analysis of the academic influence of each n year and the annual individual posting and citation,the time changes trend of the academic influence of 76 Nobel prize winners in physics were analyzed.The characteristics of traditional bibliometric index and h expansion index were compared.[Result/Conclusion] The appropriate calculation model and the characteristics of individual academic impact index were obtained.

〔Key words〕scientist;individual academic impact;time trends analysis;computing method;Nobel Laureates in physics

當今世界,科技全球化和开放科学的深入发展推动了科研资源的全球化配置,加剧了各国对优质科研资源特别是优秀科研人才的竞争。这种竞争主要表现在两个方面:加大对国际科技精英的引进力度和加强本土具有竞争力的创新性人才的培养[1]。而引进国际科技精英和培养本土创新性人才需要把握人才的学术影响力随时间发展的态势。研究个人学术影响力(Individual Academic Impact)的时间变化趋势的具体意义有:对于研究者个人来说研究个人学术影响力的时间变化趋势可以帮助研究者个人认清目前自己的学术影响力是处于上坡期还是下坡期?以及针对自己目前的生理年龄、学术年龄、学术影响力以及学术影响力增速这些情况来评估自己当前的学术影响力发展态势,为做好科研职业生涯规划提供参考;对于科研政策制定者来说研究个人学术影响力的时间变化趋势可以在人才引进和培养时为制定人才选拔年龄的限制或规定提供参考和把握人才学术成长规律为相关政策的制定提供依据;对于科研管理者来说可以根据研究者个人学术影响力的时间变化趋势来预测其将来的学术表现从而决定学术职称、职位的聘用;对于科技评价学科体系来说研究个人学术影响力的时间变化趋势为揭示研究者个人当前的学术表现和预测其将来的学术表现提供方法论参考。因此,个人学术影响力的时间变化趋势研究具有重要的应用意义[2]。

1个人学术影响力的时间变化趋势分析的研究现状

国内外已有关于个人学术影响力随时间变化趋势的研究,比如张晓阳等[3]认为高被引科学家在研究生涯内h指数与时间呈线性增长的规律。刘俊婉等[4]通过使用年均引文数和篇均引文数得出杰出科学家论文影响力的年龄分布是一种单峰分布。吕娜等[5]研究具有较高h指数的学者的历年h指数得出了只增不减的趋势。方锦清等[6]通过提出描述科学家及其团队的创新能力的理论模型(其实质为学术影响力模型)得出了科学家具有创作多峰现象。RKPan等[7]使用h、h5、Δh、AIF(Author Influence Factor)研究了诺贝尔奖物理学奖、化学奖和生理或医学奖各4名获奖者的学术影响力变化趋势,得出了与h、h5、Δh相比AIF更适合用于动态评价个人学术影响力,每一位获奖者的学术影响力曲线变化起伏明显。DFiala[8]提出了当前指数(Current Index),其定义为将发文及其引用的时间窗限制为3年,即考虑每3年的h指数(h3)。此外,他还考虑发文时间窗口为2年而引用时间窗口为4年或3年的h指数。但是,其研究结果表明了其选择的时间窗口较短导致h指数变化范围较小,因此区分力较小。MSchreiber提出了hr(y)指数[9],认为能够测量当前个人学术影响力,但未实证分析个人学术影响力时间变化趋势。李江等[10]使用了341位诺奖获得者每年所有论文累计被引用的次数总结出了对数、指数、双峰、波形等引文曲线变化类型。SBjork等[11]使用相对引用次数对诺奖经济学奖获得者的引用轨迹进行Bass模型的钟型曲线拟合。

以上现有研究得出的科学家个人学术影响力随时间变化曲线多种多样的主要原因之一在于计算学术影响力时发文统计的时间窗和引用统计的时间窗的选择多种多样。文献[3-5]的h指数的计算方式是发文和引用都是自从有第一篇发文开始算起。文献[6-9]提出了选取某一时间段作为科学家个人发文和引用的时间窗口的学术影响力计算方式。文献[10-11]的发文选择自从有第一篇发文开始算起到某一年,而引用次数选择某一年的。除了发文和引用时间窗口的选择不同之外对引用数据是否做相对化处理也是科学家个人学术影响力变化曲线多种多样的主要原因。

根据文献[2,12]对个人学术影响力定量评价方法和动态评价方法的综述,对个人学术影响力的时间变化趋势研究分析可以分为两个角度:基于每n年的个人学术影响力的时间变化趋势研究和基于逐年的个人学术影响力的时间变化趋势研究。基于每n年的个人学术影响力是指根据近n年个人的发文和引用计算得出每年的个人学术影响力值;基于逐年的学术影响力是根据个人自从有发文那一年开始到学术职业生涯每一年的发文和引用计算得出每年的个人学术影响力值。

5现有研究存在的问题有:①考虑科学家个人自从发表第一篇论文以来到某一年的发文和引用这种计算个人学术影响力的方式(下文简称为:基于逐年的学术影响力计算方式)与只考虑每n年个人的发文和引用的计算个人学术影响力的方式(下文简称为:基于每n年的学术影响力计算方式)得出科学家个人学术影响力时间变化曲线的区别未有研究。②虽然文献[7]对12名诺贝尔科学奖获奖者使用篇均引用次数这一指标进行了实证研究,但存在样本过少和未能将学术影响力指标扩展到类h指数的问题,以及未有在只考虑科学家个人当前的学术影响力情形下使用基于传统文献计量学的指标和h指数及其衍生指数分析个人学术影响力的时间变化曲线的相关性以及这些指标的对比分析。

2科学家个人学术影响力的时间变化趋势实证研究

21研究对象

本文的研究对象为1901-2010年76名获得过诺贝尔物理学奖的英美籍科学家,其发文量和被引量的数据来源是Web of Science核心合集数据库,检索时间段为1900-2015年(检索时间为2016年3月)。

22诺贝尔奖获奖者的学术影响力时间变化趋势分析221诺贝尔奖获奖者的学术影响力时间变化趋势的两种计算方式的比较

对文献[12]综述的目前定量评价个人学术影响力常用的方法有基于传统文献计量学的评价指标、h指数及其扩展指数、基于社会网络评价方法和基于Altmetrics的评价方法。基于社会网络评价方法明显不足是评价个人学术影响力前首先要确定收集个人的科研成果所在范围,然后构造科研合作网或引文网络。评价个人学术影响力是在整个学术界范围内,而不是仅限于某一(学科、机构等的)范围。基于Altmetrics的评价方法对本研究中研究对象不适用并且存在数据容易被人为地恶意操纵、指标的异质性、覆盖率较低、是有偏指数等缺点[12]。这些缺点导致了基于社会网络评价方法和基于Altmetrics的评价方法数据不容易采集和计算。因此,本研究用篇均被引次数(AIF)和p[13]指数代表基于传统文献计量学的评价指标,用h、g[14]、e[15]、w[16]、R[17]和A[17]指数(指标定义见表1)代表類h指数,以及m、q2指数作为比较基于每n年的个人学术影响力的时间变化趋势和基于逐年的个人学术影响力这两种学术影响力计算方式的指标。

关于时间窗n值的选取MSchreiber认为6年[18]合适,但未实证研究;RKPan通过对杰出科学家的每2年和每5年的发文分布得出科学家每2年发文数量极少,而每5年的发文比每2年发文较多。对已发表的论文在发表后被引次数随时间的分布得出在发文后5年被引次数指数下降。因此,最终得出n=5年[19]为最适当。本研究认为n值选择5年或者6年不值得争论(具体原因下文也有所述),限于篇幅,本文不再实证研究而直接借用RKPan的结论,即选择n值为5年。此外,本研究在对每年的数据生成的离散点处理上使用MATLAB2014b进行3次样条曲线[20]拟合。

对76名诺贝尔奖获得者做两种学术影响力时间变化趋势的曲线图发现,基于每5年的个人学术影响力的时间变化趋势图可分为5种类型,即:单峰、双峰、多峰3种趋势的曲线。而基于逐年的个人学术影响力的时间变化趋势图始终是线性递增的。代表图见图1。图1两种个人学术影响力的时间变化趋势图对比

图1中每一位获奖者有两种学术影响力变化曲线图:每一个获奖者的获奖年+名字上方的左图是使用基于每5年科学家发文和引用的学术影响力计算方式得出的曲线图,右图是使用基于逐年科学家发文和引用的学术影响力计算方式得出的曲线图。因多作者合作发文产生的贡献分配,本文采取了贡献均分的原则。

由每一位获奖者的两种学术影响力的时间变化趋势图可以得出,虽然用同样的指标,但是统计发文和引文的时间段不一样,则导致使用每一个指标计算得出的学术影响力的趋势图完全不一样。通过对比分析每一位诺奖获奖者的两种学术影响力计算方式,不同之处有:①左图曲线有单峰、双峰、多峰3种趋势的曲线,而右图曲线除了篇均被引次数、m指数和A指数外其余的指标曲线都没有下降趋势,且曲线趋势接近直线,这与JEHirsh[21]提出的个人h指数随着时间的增长呈线性关系的观点一致。②基于每5年科学家发文和引用的计算方式下篇均被引次数(AIF)、p、h、g、e、w、R、A、m和q2之间相关性显著,而基于逐年科学家发文和引用的计算方式下它们之间相关性不一定不显著。③从预测个人学术影响力的角度来说,左图由于每一年的学术影响力值是依据近5年个人的发文和引用的数据得出,右图每一年的学术影响力值是依据从个人自从有第一篇发文算起,因此右图中学术影响力的不断增长有着吃老本的嫌疑,左图更能反映个人当前的学术影响力和更能准确预测个人将来的学术影响力。JEHirsh认为基于逐年计算方式的h指数是预测n年后基于逐年计算方式的h指数的指标[22],但不代表着基于逐年计算方式的h指数是预测个人学术影响力的合理指标[23]。④由于左图曲线的生成是考虑每一篇文献最多只考虑5年的引用,因此睡美人型文献所给作者本人带来学术影响力就不会在左图曲线中体现。对于右图来说,睡美人型文献只有被唤醒之后才能为个人产生学术影响力,因此,睡美人型文献对右图曲线有滞后性的增长。⑤虽然n值在一定程度上影响着左图曲线的趋势,但是通过对n=4、5、6、7、8、9年分析,它们相关性很大,因此在一定程度上过于强调n值的精准值意义不大。⑥左图曲线的意义正如本文引言中所述,具有重要的现实应用意义。单独分析右图曲线虽然其意义不大,但是如果分析研究者个人在科研团队的贡献时,通过对比分析科研团队的基于逐年类h指数变化趋势与该研究者基于逐年类h指数变化趋势,就能得到有意义的结论[5]。⑦当研究者个人停止发文时基于逐年计算的h指数还可能会随着以往发文的被引不断地增长[3],而基于每n年计算的类h指数在停止发文的下一年,因不足n年而无法计算类h指数,计算最终截止到停止发文年。

222基于每n年的计算方式下的基于传统文献计量学和类h指数的比较分析

本文选择了LWildgaard等[24]在2014年综述了除了考虑合作论文中作者贡献分配和论文发文年龄外的目前研究中所有的13个指标:AIF、p r(y)、hr(y)、gr(y)、er(y)、hg r(y)、w r(y)、R r(y)、A r(y)、S r(y)、T r(y)、m r(y)、q2 r(y)。他们分别是篇均被引次数、p[13]、h[21]、g[14]、e[15]、hg[25]、w[16]、R[17]、A[17]、S[26]、T[26]、m[27]、q2[28]指数的擴展指数。hr(y)的定义为根据从r年到y年截止的发文的数量及其被引次数,计算个人在第y年的h指数,同理,gr(y)、er(y)等类hr(y)指数与hr(y)指数定义相似。相关指标的定义见表1。

表113个学术影响力评价指标的定义

序号指标定义1AIFNΔtC(t)是某一作者的t-Δt年到t-1年的发文在t年时的被引次数,NΔtp(t)是该作者在t-Δt年到t-1年的发文总数,那么t年时的个人影响因子为:NΔtC(t)/ NΔtp(t)。2p(C2/N)1/3,C代表被引次数,N为发文数。3h一名科学家的h指数是指其发表的Np篇论文中有h篇每篇至少被引h次、而其余Np-h篇论文每篇被引均小于或等于h次。4g论文按被引次数排序后相对排前的累积被引至少g2次的最大论文序次g,亦即第g+1序次论文对应的累积引文数将小于(g+1)2。5e在h核内的论文所获引用次数中扣除h2之后多余部分的平方根。6hgh指数与g指数乘积的平方根。7w研究人员的w指数是指其发表的论文中有w篇至少被引10w次,而其余每篇被引均小于10(w+1)次。8Rh核内所有论文的被引次数总和的平方根,即:A指数与h指数乘积的平方根。9Ah核内每篇论文的平均被引次数。10SS=100*log(h*CPP),CPP为篇均被引次数。11TT=100*log(R*h*CPP),CPP为篇均被引次数。12mh核内论文被引次数的中位数。13q2h与m乘积的平方根。

使用AIF、p r(y)、hr(y)、gr(y)、er(y)、hg r(y)、w r(y)、R r(y)、A r(y)、S r(y)、T r(y)、m r(y)、q2 r(y)这13个指标分别对76名诺奖获得者的学术影响力随时间的变化分析得出每一名诺奖获得者职业生涯以来每一年的学术影响力值。由于76诺奖获得者的引用数据收集范围是1900-2015年,所以为了比较不同时代诺奖获得者的学术影响力的变化情况本文使用每一年的SCI数据库论文数总量将引用数据相对化。

通过对所有获奖者的13个指标每一年的学术影响力值的相关性分析得出以上13个指标之间互相显著性正相关,见表2。其中m指数与其他指标的相关性最差,因为m指数为h核内论文被引次数的中位数。从区分度角度来说,区分度依次递减的顺序为:T、S、hg、A、g、R、p、m、q2、h、e、AIF、w。被引次数大大增加时T指数迅速增长,原因在于T指数定义里含有R指数、h指数和篇均被引次数的乘积。

为了进一步了解各个指标的特点,本文选取了个人影响因子作为传统文献计量学指标代表,hr(y)和gr(y)指数作为类h指数代表,T r(y)指数作为传统文献计量学和h指数相结合指标的代表来分析个人学术影响力的时间变化趋势的区别,具体分析见表3。

表3AIF、hr(y)、gr(y)、T r(y)指数在动态评价个人学术影响力方面的区别

序号角度AIFhr(y)指数gr(y)指数T r(y)指数1评价计算结果值整数或者非整数整数整数整数或者非整数2评价涉及的文献全部文献被引次数大于等于h比h指数涉及文献还要少全部文献3指标的内涵基于传统文献计量学的评价思想,能够惩罚发表低质量的论文〖〗h指数思想,发表低质量的论文与h指数无关与h指数相似综合了基于传统文献计量学的评价思想和h指数思想4评价对象的选择所有的研究人员均可适用于高影响力的学者〖〗比h指数更高影响力的学者所有的研究人员均可5评价结果的区分度区分度一般由于每n年发文数较少,区分度小比h指数区分度小区分度更大6时间窗的选择对其影响不受时间窗的变大而变大,变小而变小受时间窗的变大而不变或变大,变小而变小同h指数不受时间窗的变大而变大,变小而变小7评价指标的影响因素总发文数量和总引文量所有发文中被引次数大于等于h次h核内论文引用次数总发文数量和总引文量,以及h核内论文引用次数

3总结与讨论

研究个人学术影响力的时间变化趋势的意义不言而喻,它是目前“静态”评价个人学术影响力的有力补充。本文选择了作为学术上有着高影响力的诺奖获奖者进行个人学术影响力的时间变化趋势实证分析得出了个人学术影响力的时间变化趋势的计算方式和指标的特点。个人学术影响力的时间变化趋势的计算方式采取了基于科学家每5年发文和引用的学术影响力计算方式。这种计算方式与基于科学家逐年发文和引用的学术影响力计算方式相比考虑了科学家当前的学术影响力,更能体现科学家学术影响力的实时变化情况,能够描述科学家职业生涯过程学术表现的兴衰变化过程。

本文实证研究得出13个基于传统文献计量学的指标和类h指数具有很强的相关性,并分析指标的特点。虽然指标之间相关性很高,但是在实际应用中不应用一个指标为代替另一个指标。还需要具体分析研究对象每n年发文情况、发文后的引用衰变情况,从而确定n值,然后根据实际评价需求选择合适的指标。另外,需要指出的是没有一个指标是完美的,单一指标不能够完全反映个人学术影响力时间变化趋势,进行个人学术影响力时间变化趋势评价时要综合考虑同行评议。

另外,作者已经开展了对诺贝尔化学奖、生理学或医学奖获奖者的动态学术影响力计算方式研究和学术影响力指标的筛选的定量分析,也得出了一致的结论。此外,目前对描绘个人学术影响力的时间变化趋势在理论上缺乏研究,比如年龄效应、知识扩散效应。除了基于传统文献计量学和h指数及其衍生指数之外,利用时变网络(科研合作网和引用网或者加权引用网)研究个人学术影响力的时间变化趋势也是一个值得研究的问题。

参考文献

[1]门伟莉.诺贝尔科学奖获奖者重大科学发现年龄变化规律及师承效应研究[D].北京:中国科学院大学,2014.

[2]高志,张志强.个人学术影响力的动态评价方法研究综述[J].情报杂志,2015,(11):40-43.

[3]张晓阳,金碧辉.高被引科学家h指数成长性探讨——以分子生物学与遗传学领域为例[J].科学学研究,2007,(3):407-414.

[4]刘俊婉.杰出科学家论文影响力的社会年龄分析[J].情报学报,2010,29(1):121-127.

[5]呂娜,刘扬,全少颖.基于作者主要贡献的h指数时间趋势分析[J].情报杂志,2015,(4):54-58.

[6]方锦清,刘强,李永.自然科学家的创作多峰现象及创新能力[J].复杂系统与复杂性科学,2014,(1):12-22.

[7]PAN R K,FORTUNATO S.Author Impact Factor:tracking the dynamics of individual scientific impact[J].Scientific reports,2014,4(4880):7-8.

[8]FIALA D.Current index:A proposal for a dynamic rating system for researchers[J].Journal of the Association for Information Science and Technology,2014,65(4):850-855.

[9]SCHREIBER M.A variant of the h-index to measure recent performance[J].Journal of the Association for Information Science and Technology,2015,66(11):2373-2380.

[10]李江,姜明利,李婷.引文曲线的分析框架研究——以诺贝尔奖得主的引文曲线为例[J].中国图书馆学报,2014,(2):41-49.

[11]BJORK S,OFFER A,S DERBERG G.Time series citation data:the Nobel Prize in economics[J].Scientometrics,2014,98(1):185-196.

[12]高志,张志强.个人学术影响力定量评价方法研究综述[J].情报理论与实践,2016,(1):133-138.

[13]PRATHAP G.The fractional and harmonic p-indices for multiple authorship[J].Scientometrics,2010,86(2):239-44.

[14]EGGHE L.Theory and practise of the g-index[J].Scientometrics,2006,69(1):131-152.

[15]ZHANG C-T.The e-index,complementing the h-index for excess citations[J].PLoS One,2009,4(5):e5429.

[16]WU Q.The w-index:A significant improvement of the h-index[J].arXiv preprint arXiv:08054650,2008.

[17]JIN B,LIANG L,ROUSSEAU R,et al.The R-and AR-indices:Complementing the h-index[J].Chinese science bulletin,2007,52(6):855-863.

[18]SCHREIBER M.Restricting the h-index to a publication and citation time window:A case study of a timed Hirsch index[J].Journal of Informetrics,2015,9(1):150-155.

[19]PAN R K,FORTUNATO S.Author Impact Factor:tracking the dynamics of individual scientific impact[J].Scientific reports,2014,4(4880):7-8.

[20]LIU Y,ROUSSEAU R.A continuous description of discrete data points in informetrics:Using spline functions;proceedings of the Aslib Proceedings,F,2012[C].Emerald Group Publishing Limited.

[21]HIRSCH J E.An index to quantify an individuals scientific research output[J].Proceedings of the National academy of Sciences of the United States of America,2005,102(46):16569-16572.

[22]HIRSCH J E.Does the h index have predictive power?[J].Proceedings of the National Academy of Sciences,2007,104(49):19193-8.

[23]GARC A-P REZ M A,N EZ-ANT N V.Correlation between variables subject to an order restriction,with application to scientometric indices[J].Journal of Informetrics,2013,7(2):542-554.

[24]WILDGAARD L,SCHNEIDER J W,LARSEN B.A review of the characteristics of 108 author-level bibliometric indicators[J].Scientometrics,2014,101(1):125-58.

[25]ALONSO S,CABRERIZO F,HERRERA-VIEDMA E,et al.hg-index:A new index to characterize the scientific output of researchers based on the h-and g-indices[J].Scientometrics,2009,82(2):391-400.

[26]FRED Y Y.Two h-mixed synthetic indices for the assessment of research performance[J].Journal of Library and Information Studies,2010,8(1):1-9.

[27]BORNMANN L,MUTZ R,DANIEL H D.Are there better indices for evaluation purposes than the h index?A comparison of nine different variants of the h index using data from biomedicine[J].Journal of the American Society for Information Science and Technology,2008,59(5):830-837.

[28]CABRERIZO F J,ALONSO S,HERRERA-VIEDMA E,et al.q2-Index:Quantitative and qualitative evaluation based on the number and impact of papers in the Hirsch core[J].Journal of Informetrics,2010,4(1):23-28.

猜你喜欢

计算方法科学家
穿越成为科学家
为何“woman scientist(女科学家)”这个表述甚至会存在?
假如我是科学家
随机振动试验包络计算方法
基于能量的球压痕硬度的计算方法
不同应变率比值计算方法在甲状腺恶性肿瘤诊断中的应用
与科学家面对面
一种伺服机构刚度计算方法
对受压加劲板极限承载力计算方法的评述