学者评价p指数改进<br/>——综合引文分布、作者合著与时间因素

学者评价p指数改进
——综合引文分布、作者合著与时间因素

2022-06-17冯晓娜杨文霞付露瑶孙志腾刘文云

图书馆论坛 2022年6期

冯晓娜，杨文霞，付露瑶，孙志腾，刘文云

0 引言

科研成果是学术评价的基础，反映作者的学术影响力。随着“除四唯”“破五唯”等政策和配套措施的出台，我国的学术评价、人才评价进入新阶段，亟待引入新方法、新思路，以实现评价方法的创新和内容的深入[1]。目前学者学术影响力的评价指标主要包括h指数[2]、h指数的衍生指数 (g 指数[3]、A 指数[4]、R 指数[5]、AR 指数[5]等)、学术矩阵和学术迹[6]、PageRank算法[7]及p指数等。h指数因操作简单、易于理解，得到广泛应用，但存在缺乏灵敏度、区分度和非波动性等弊端；2010年G Prathap提出p指数[8]，并分别从机构[9]、学者[10]、期刊[11]等角度利用p指数进行分析。由于p指数能兼顾学者论文产出的数量和质量，相较于h指数，具有更高的区分度、敏感性和时序波动性[12]，且有较好的灵活性、稳定性、合理性和广泛的适用性[13]，受到越来越多学者的关注。

然而，p指数也存在缺点，比如不能反映引文分布、时间因素、合著等的影响，需要对其进行改进和方案优化。对于合著，G Prathap[14]提出按照合著者数量平均分配合著者权重和按照著者顺序给予权重两种方法，Hagen则提出调和算法[15]。对于p 指数不能体现引文分布和时间因素，大部分学者的改进思路是按照文献质量进行分类，对高质量论文的引文量实行加权。例如，韩毅等[16]以学科文献半衰期为阈值，半衰期外的文献引用被赋予更高权重；张玲玲等[17]以普赖斯公式计算出的高质量论文被引量和文献半衰期为阈值，将文献划分为4类；唐璞妮[18]以h指数为阈值，将发文分为3个区域，对各区域论文的被引频次分别赋权。

用算术平均值来反映引文非正态分布的集中趋势是不合适的[19-20]，Adler等[21]指出，由于引用数据呈右偏态分布，所谓的高篇均被引频次只是由部分高被引的文章所贡献，不能说明每篇文章都是高被引。郝玉珊从被引的时间特征与被引分布的均衡性两方面探讨期刊的学术影响力[22]，并利用改进的泰尔指数修正期刊平均被引频次[23]。一般情况下，被引频次和篇均被引频次相同时，多篇文章对平均值具有贡献的学者，与仅有少数几篇文章对平均值产生贡献的学者相比，具有更好的学术稳定性。

本文在前人研究的基础上，引入泰尔指数，构建综合考量引文分布、时间、合著和学术稳定性的评价指标，并进行实证分析，以期为科学评价学者的学术影响力提供新的优化方案。

1 p指数的改进

1.1 考虑学术稳定性的p指数改进

1967年泰尔根据信息论中熵的概念提出泰尔指数(Theil Index)，以衡量个人或地区之间收入的不平等性，熵是指每一事件的概率对数与其相应概率乘积的总和。泰尔指数提出后，最先用于研究收入分配与收入差异，既而在教育、卫生等资源分配差异的研究中普遍使用，随后图情界也开始使用该指数研究图书馆服务区域差异[24]、学术期刊配置的学科均衡性[25]、期刊评价[22]、期刊影响力指标构建[23]等问题。泰尔指数公式为：

公式(1)中，T代表泰尔指数，n代表有n个地区，Ii代表地区i 的收入，I代表所有地区的收入，Pi代表地区i的人口，P代表所有地区人口。泰尔指数越大，表示收入差距越大，即均衡性越差。

同理，某学者发表n篇论文，Ci表示其第i篇论文的被引频次，C表示其所有论文的被引频次，N表示该作者的总发文量，则泰尔指数可变异为：

在公式(2)中，T′为变异泰尔指数，取值范围为0～1。T′越接近0，表示作者每篇文章的被引频次越接近，发文质量越稳定，学术稳定性越高；越接近1，则表示作者发表的论文质量差距越大。

由于变异泰尔指数T′属于反向指数，且介于0～1 之间，为了提高指数对发文均衡性的敏感度，取1/T′作为p指数的修正权值。修正后的p指数(p′)为：

1.2 考虑时间因素的被引频次

论文被引的过程不仅是知识传播的过程，也是论文生命力的体现和作者学术影响力积累的过程。时间间隔越大，知识传播速度越慢，被引的概率越低。如果一篇论文在长时间内被引用，说明其生命力强劲，论文在不同时间被引用会给作者积累不同程度的学术影响力，正向影响其学术影响力。给不同时间段内的论文被引频次赋予不同权重，可以提高指标对时间因素的敏感性。假设有A和B两篇论文，二者的总被引频次相同，但A发表于2015年，年均被引频次为3.3，B发表于2017年，年均被引频次为5。从总被引频次看，两篇论文影响力相同；从年均被引频次来看，B的影响力要大一些；从两篇论文的被引趋势来看，A的被引频次呈递增到衰减的趋势，时间长，衰减速度慢，B的被引频次呈递减趋势，时间短，衰减速度快。由此可见，A的影响力更大一些(详见表1)。

表1 两篇论文的部分指标统计

本文结合时间因素，给不同时间下的论文被引次数赋予不同的权重，计算时间加权被引频次Ct。计算方法是：一篇论文自发表之日到现在的时间为t，第一年被引频次权重为1/t，第二年被引频次权重为2/t，依次类推，t年的被引频次与其相应的权重相乘之后加总，表达公式为：

公式(4)中t表示论文发文时长，ct代表第t年的被引频次。就时间因素来说，一位学者的学术影响力为时间因素下个人所有论文的加权被引频次，即由于本文仅统计论文的发文时间、发文量、被引时间与被引频次，并不涉及论文的创新性，而且一篇论文的被引时间越长，其被引频次越能显示其影响力，所以论文的原创性与实用性会被时间验证。

1.3 考虑合著情况下的作者贡献分配

综合文献[17-19]关于作者合著贡献分配算法的研究，本文采用Hagen[15]提出的调和算法，公式如下：

公式(5)中，Wi表示第i 位作者对论文的贡献，n表示一篇论文共有n位作者。从公式(5)可知，不同署名次序的作者贡献值不同，署名越靠前权重越大，越靠后权重越小，且合著作者数量越多，每位作者得到的贡献值越小。在合著情况下，一位作者的学术影响力为其所有论文按照署名次序分配的贡献值的总和。由于通讯作者的排序情况与标注情况太过复杂，因此公式(5)并未讨论通讯作者的情况。

1.4 综合考虑引文分布情况、时间因素、作者合著的Pnew指数

综合以上分析，将作者合著情况分配的贡献值Wi作为p′的权重代入公式(3)，得到Pnew指数。表达公式为：

2 实证分析

2.1 数据采集与统计

普赖斯曾说：科学论文的被引频次一般要在论文发表两年之后达到峰值，因此本文的时间范围设置为2014-2018年，在CNKI期刊数据库中进行高级检索，检索时间为2020年6月1日。选择图情档领域20种CSSCI期刊发表的论文，得到22，387篇文献，按照被引频次排序，有被引频次的为5，777 篇，其中19 篇没有作者。接着，选择总被引频次排名前50位作者作为研究对象，分别统计这50位作者的发文量(N)、总被引频次(C)、h指数、p指数、Pnew指数，并对p指数、Pw-d指数、Pnew指数做出排序。为了验证Pnew指数的合理性，分别对p指数与Pw-d指数(名次变化1)、p指数与Pnew指数(名次变化2)的名次变化作统计：正数表示名次上升，负数表示名次下降，0表示没有变化，具体数值表示名次变化幅度。俞立平教授提出的htop指数中，Pw-d指数针对引文分布和作者署名顺序两方面，与本文的Pnew指数具有一定程度的相似性，因此可作比较(详见表2)。

表2 图情档领域部分作者相关指标统计

2.2 数据分析

2.2.1 总体数据分析

表3列出50位作者4个指数的统计数据，从h指数、p指数、Pw-d指数到Pnew指数，统计量的数值在逐渐变大。从均值与中值之差来看，h指数和p指数的差值相差不大，表明其数据较为集中，Pw-d指数其次，Pnew指数最为分散。从极大值与极小值的分布也可以看出：h指数与p指数的数值范围最小，Pw-d指数其次，Pnew指数最大。从标准差来看，h指数与p指数的离散程度小，Pw-d指数其次，Pnew指数最大。综合来看，4个指标的区分度与离散程度的排序依次为：h 指数＜p指数＜Pw-d指数＜Pnew指数，表明融入引文分布、时间因素与作者合著情况的Pnew指数区分度最高。

表3 50位作者的描述性统计分析

2.2.2 各指标数值与排名变化分析

(1)各指标数值分析。从表2可知，h指数共有8 组重复值，涉及45 位作者，重复率为90%；p指数虽然仅有1组重复值，但与h指数的标准差(见表3)近似，因此其区分度也较低；Pw-d指数没有重复值，且标准差超过40，极大地减少了近似值数量，提高了区分度；Pnew指数也没有重复值，标准差进一步增大，灵敏度与区分度进一步提高。因此，在评价作者学术影响力时，对于学术水平相近的作者，Pnew指数可以实现更精细的区分，取得更精准的评价效果。

(2)各指标排名与名次变化分析。根据表2绘制出50位作者p指数、Pw-d指数、Pnew指数的排名，以及p指数与Pw-d指数、p指数与Pnew指数的名次变化折线图(见图1)。从图1可以看出，Pnew指数波动幅度相对最小，Pw-d指数波动幅度次之，p指数排名波动最大；名次变化1与名次变化2基本呈同向变化，并且后者比前者波动幅度大，说明Pw-d指数与Pnew指数具有较高相似度，而且Pnew指数具有更高稳定性。Pw-d指数考虑引文分布与作者合著情况，而Pnew指数还考虑了时间因素，所以Pnew指数的内涵更为丰富，在作者学术影响力评价中可以较合理地表达不同水平、不同作者合著的论文对作者学术影响力的影响。

从表2和图1中可看出，排名靠前的几位作者分别为邱均平、黄如花、李纲，他们三种指数的排名名次并未出现太大变化，表明这些指数都具有筛选高学术影响力作者的功能，也就是说，Pnew指数可作为一种有效的学者影响力评价指标。在表2与图1的名次变化中可以清楚看到各位作者在不同标准(指数)下的排名变化，反映出图情档领域学者最近几年的科研状况。由于本文仅选择2014-2018年的研究成果，因此通过作者各个指标的数值与排序可以了解到该学科的新生代科研人才以及近几年科研活动逐渐减少的作者。新生代科研人才包括许海云、余厚强、白如江等，他们近几年的研究成果逐渐增多，是图情档领域有潜力的优秀学者，也预示着该领域未来的发展前景。由此可见，考虑时间因素之后，对作者学术影响力评价更加合理与公正，有利于筛选具有科研潜力的学者。

图1 三种指数排名变化图

本文统计期跨度短，有些作者由于被引频次不足并未进入前50名，因此未做统计，如王知津、冷伏海、张晓林；有些作者虽然进入前50名，但近几年科研成果较少，排名较为靠后，如马费成、范并思。当时间线延长为最近10年或者15年时，这些作者的科研成果可以得到更全面的反映，评价结果也会更接近实际学术影响力排名。从这一点来说，Pnew指标对时间因素敏感度高，可用于学者不同时期影响力的分阶段评价。

2.2.3 与其他指标的相关性分析

为了证明Pnew指数评价学者影响力的合理性，将其与发文量、总被引频次、p指数、Pw-d指数作对比，进行相关性分析(结果见表4)。从表4可看出，Pnew指数与其他4个指标的相关性都在0.01水平呈显著正相关，相关系数分别为0.854、0.911、0.602和0.770。其中，Pnew指数与总被引频次和发文量的正相关性位居前两位。这是因为Pnew指数的计算引入了变异泰尔系数(T′)、时间因素下的加权被引频次(Ct)和作者合著贡献(Wi)，表明总被引频次和发文量实际上经过了三次加权，在一定程度上强化了Pnew指数与总被引频次和发文量的相关度。Pnew指数与p指数的相关系数为0.602，二者存在显著相关性，主要是因为Pnew指数是由p指数衍生而来。同时，相比Pw-d与p 指数的 0.843 的高相关性，Pnew与 p 指数间0.602的相关系数表明，Pnew指数又具有一定的独立性。

表4 皮尔逊相关性分析

3 结论与讨论

本文在p指数的研究成果上，综合考虑引文分布情况、时间因素、作者合著情况和学术稳定性，构建了Pnew指数。为了验证Pnew指数的合理性与可靠性，以CNKI为数据源，在CSSCI收录的图情档领域20种期刊中选择2014-2018年出版的论文为样本，选出这些论文中被引频次排名前50位的作者为研究对象，从总体数据、各指标数值与排名、相关性等方面进行分析，得出以下结论。

(1)与其他指标相比，Pnew指数的区分度与灵敏度更高。Pnew指数以合著情况下的贡献值为正向权重，以被引均衡性为反向权重，使得数值范围变大、离散程度变高，提高了区分度与灵敏度。

(2)与其他指标相比，Pnew指数更加稳定。由上文可知，在图1中，3种指数的波动幅度并不同，Pnew指数最小，Pw-d指数其次，p指数最大。这表明考虑论文分布、时间因素与作者合著情况的Pnew指数用以评价作者学术影响力的稳定性高。名次变化1的波动幅度要比名次变化2小，也印证了这一点。

(3)与其他指标相比，Pnew指数对被引频次高的学者更具有筛选性。根据三种指数分别对作者进行排名，可以发现虽然三种标准下的排名略有差异，但排名靠前的作者均为图情档领域中高影响力的著名学者。因此，Pnew指数在一定程度上能够客观评价作者的学术影响力，具有一定的合理性与科学性。

本文针对p指数的缺陷，提出Pnew指数，并在实证分析中取得了较好的检验效果。相比中低被引频次的作者，泰尔指数对高被引作者的敏感度更高，因此，Pnew更加适合对高被引频次作者进行评价。另外，以5年时间为统计期的Pnew指数，其实验结果与作者的实际影响力存在一定偏差，因此Pnew还需放在一个更长的评价期内继续进行验证。本文只对作者学术影响力进行实证研究，Pnew指数是否也适用于期刊、机构、团队的评价，还需要进一步验证，这些都有待后续研究作进一步探讨。