基于排序值差异与被引次数的论文分区研究

2013-09-01郭强，赵瑾

图书馆理论与实践 2013年9期

●郭强，赵瑾

(1．郑州大学信息管理系，郑州 450001；2．中国人民解放军陆军军官学院军事运筹教研室，合肥230031)

论文的被引次数与论文的学术影响力之间所具有的相关性使得论文的被引次数能够作为对论文影响力进行反映的基本指标，同时数字与网络环境的发展也使得论文被引次数的获取具有便捷性，所以被引次数及其相关复合指标也满足指标具有可测性的要求，需要指出在利用被引次数对论文的影响力进行描述时有时会需要对被引次数的取值大小进行较为明确的划分，例如，与期刊类似，需要对关于某主题的论文进行大致的分类，由此来得到关于该主题的代表性论文，在对论文进行分区的过程中，如果论文关于被引次数具有负指数分布的特征并近似满足布拉德福分布的要求，那么可以尝试对论文进行传统的布拉德福分区。但是对于所选取的关于某主题的论文而言，如果较多的论文均具有相对较小的被引次数，那么在末尾分区中可能会包含明显偏多的论文，从而体现为在末尾或靠后分区处会具有偏高的论文数相继比，这种情况会在一定程度上影响对论文进行布拉德福分区的合理性。如果将末尾分区处偏高的相继比视为特异值，那么在保证分区合理性的同时也会影响到末尾分区中论文的划分。是否能够直接对论文被引次数的取值大小进行大致的判定，并由此来对论文直接进行分区，从而避免在论文分区中出现的格鲁斯下垂。由此，本文希望能够对被引次数的取值进行划分，并在此基础上根据论文被引次数的实际取值来尝试对论文进行分区。

1 布拉德福分区

从直观上，关于某主题的论文会具有负指数分布的特征，例如相对较多的论文有着相对较低的被引次数，同时相对较少的论文的被引次数会相对较高。假设图书情报类论文的最大引文年限为3年，那么选取2004年6月以及在2005年6月出版的图书情报类期刊论文作为考察对象，数据的统计时间选取为2011年10月。这样选取的原因是由于论文的最大引文年限为3年，按照所选取的统计时间论文的考察时长会超过5年，从直观上在最大引文年限之后论文的受利用程度会随时间呈现下降的趋势，不严格地在该时段内的被引次数能够对论文受利用情况的主要部分进行近似的反映，或者说，在该时段内的被引次数足够大，从而能够对论文的被引次数进行近似的表示。另外，在网络环境下，论文入库时间的差异会影响论文被引次数之间的可比性。如果能够认为这里的考察时长为足够长，从而对具有不同入库时间的论文的被引用情况均能够进行大致的体现，那么在这里没有将入库时间的差异所带来的影响考虑在内。本文选取CNKI的镜像站版作为数据来源，对于所选取的论文样本以及考察时长，每篇论文均有在时段内的被引次数并将其近似为论文的总的被引次数，将论文按照该被引次数降序排列，得到论文的累积量与被引次数的累积量之间的关系，如图1所示。

图1 论文的累积量与被引次数累积量之间的关系

在图1中，横轴为论文累积量的对数，纵轴为累积被引次数。如果取分区数为3，那么此时核心区的论文数能够近似为136，并且各个分区中的累积被引次数的平均值为4551，标准差仅为12。此时，各分区中论文数的相继比的平均值为2.891，并且标准差为0.771。如果取分区数为5，那么能够看到在末尾分区处相对偏高的相继比。此时，各个分区中的论文数的相继比分别为1.859、1.571、1.631以及2.872，其平均值为1.983，并且标准差能够达到0.605。同时，除了分区描述之外，在图1中也能够看到在被引次数偏低处的格鲁斯下垂的出现。另外，被引次数的累积量与论文累积量之间的关系能够与布鲁克斯公式相吻合，例如取分区数为3时，所得到的分段拟合方程为m=116.46n0.755以及m=4042.7Ln n-15563，并且核心区与非核心区的判定系数分别为0.998以及0.994，其中m为累积被引次数，n为相应的论文累积量。所以对于被引次数在论文中的分布而言，从直观上会有相对较多的论文具有相对较低的被引次数，同时如果能够近似地认为这里的分布性质具有一定的布拉德福分布特征并由此来对论文进行分区时，那么当选取分区数为3时，各分区的论文累积数分别为136、319以及1096。

2 被引次数分区

对于所选取的论文样本，每篇论文均有与其对应的被引次数以及施引期刊的影响因子之和，其中当施引期刊相同时对其影响因子进行累计求和。

图2 按照影响因子之和与被引次数的排序值差值与论文被引次数的关系

在图2中，横轴为论文的被引次数，将论文按照影响因子之和以及被引次数分别进行降序排列，得到论文在这两个序列中的排序值。图2中各点的纵坐标分别为所在被引次数范围内的论文排序值差值的平均值。对于这里的被引次数的划分间隔，当被引次数小于5时会出现差值为负的情形；当被引次数大于50时，在两个序列中论文的排序情况没有发生显著的变化。而在被引次数的其余范围内，与按照被引次数进行降序排列相比，论文按照影响因子之和进行排序所得到的排序值会相对较高。

一种可能的原因是由于在被引次数相对较高的区域，对于具有偏高被引次数的论文而言，其施引期刊的影响力在总体上也往往会相对较高。同时，当论文的被引次数相对较高以至于达到一定程度时，对于该区域的每篇论文而言，其施引期刊的影响因子的取值范围以及数值分布情况在总体上也会具有相对较小的差异。由此能够近似地认为，在该区域中论文的被引次数与论文施引期刊的影响因子之和会具有相同的降低速度，例如论文的被引次数由50降低至25时，施引期刊的影响因子的大小范围与总体分布特征近似相同，这意味着仅是影响因子的分布密度或者是施引期刊的数量会有差异。而当论文的被引次数足够高时，例如对于被引次数分别为50与25的两篇论文，前者的施引期刊的影响因子之和能够近似等于后者的影响因子之和的两倍。同时，对于被引次数的任意降低比例，类似地由于不同论文的施引期刊的影响因子具有相似的取值范围以及分布性质，所以在影响因子的任一分布区域施引期刊的分布密度均具有相同的降低比例。另外，由于论文的总被引次数等于各区域的被引次数之和，所以该降低比例与上述被引次数的降低比例相同，并且当区域分割得足够细时，在各区域中的影响因子能够被认为近似相等。这样，在各区域中的施引期刊影响因子之和仅由相应区域中的施引期刊的数量来确定，从而在各区域中的影响因子之和也具有相同的降低比例。将各区域中的影响因子之和进行累计后能够得到论文的影响因子之和同样具有相同的降低比例，由此可以认为，在被引次数相对较高的区域，论文的被引次数与论文的影响因子之和具有相同的降低速度。分别按照被引次数与影响因子之和进行降序排列，发现所得到的两个序列中这两篇文章与其他论文的相对位置不会发生改变，同时论文在排序上的这种对应关系也意味着在所得到的两个序列中，在被引次数相对较高的范围内以及在对应的影响因子之和相对较高的范围内会具有相似的论文分布，只是论文的被引次数与论文的影响因子之和的实际取值范围会存在差异。对于被引次数相对较高的论文而言，在分别按照被引次数以及按照影响因子之和进行排序的序列中的论文排名也不会发生变化，并且在所得到的两个序列中任意的被引次数处与降低相应比例的影响因子之和处的论文是相同的。需要指出的是，这些考虑均建立在一定的假设基础上，也就是被引次数相对较高的论文其施引期刊的影响因子之和也会相对较高，同时被引次数相对居中的论文的影响因子之和也会较为居中，对于被引次数偏低的论文也有类似的情形。或者是将论文分别按照被引次数以及施引期刊的影响因子之和进行降序排列，并且只针对这三个部分进行粗略的分区，那么由这两个序列所得到的对应分区会包含同样的论文，这样当考察论文在分别按照被引次数与影响因子之和进行排序时的排名变化时只需要考虑该论文在所属分区内的排序变化情况。另外，在被引次数相对居中的区域，随着论文被引次数的降低，论文的施引期刊在影响力上也会有所下降或是会有所差异，所以在这里假设在该区域中对于被引次数相对较高的论文而言其施引期刊的影响因子会具有较大的变化范围，同时与被引次数相对较低的论文相比，前者的变化范围的最大值会相对较高，而两者变化范围的最小值会近似相等。仍然假设不同论文的施引期刊的影响因子在其变化范围内具有相同的分布特征，由此能够得到影响因子之和的降低比例会高于论文被引次数的降低比例，例如对施引期刊影响因子的变化范围进行等分，并且使得不同论文的分区数量相同，那么对于被引次数不同的任意两篇论文而言，所得的分区长度之间的比例关系等于施引期刊影响因子的取值范围之间的比例关系。对应于这两篇文章的被引次数的降低比例，由于影响因子的分布状况没有发生变化，所以将影响因子的分布范围进行等分时，各区间施引期刊的数量的相互之间的比例关系不会发生改变，各区间中的施引期刊的数量均会同比例降低，并且该比例等于上述论文被引次数的降低比例。进一步地，当分割得足够细时，各个分区中的影响因子能够被认为近似相等，那么施引期刊的影响因子之和近似等于各分区的施引期刊的数量与所属分区的影响因子的乘积的累计和，因为各个分区的施引期刊的数量均与被引次数的降低比例相同，同时与被引次数相对较高的论文的对应分区相比，被引次数较低的论文在各个分区的施引期刊的影响因子会相对较小。其原因是，由于影响因子变化范围的最小值会接近于零，如果能够假设影响因子变化范围的最小值为零，那么被引次数较低的论文在对应分点处的影响因子均会降低相同的比例，并且该比例与上述影响因子取值范围之间的比例关系相同，即使这种变化范围的最小值不为零并且假设为α，那么两篇论文在对应分点处的影响因子的比值会随着分点的不同而发生改变，并且该比值能够等于(α+χα’i)/(α+α’i)，其中χ为与这两篇论文对应的影响因子取值范围的比例关系并且取χ大于1，α’为与被引次数较低的论文相对应的取值范围与总的分区数量的比值，i为按分点处的影响因子对分点进行升序排列后的分点序号。由于χ大于1，所以被引次数较高的论文的各个分点处的施引期刊影响因子均大于被引次数较低的论文在相应分点处的影响因子，这样影响因子之和的降低比例就会高于论文的被引次数的降低比例，例如当论文的被引次数由18降低至9时，在该区域中对于具有不同被引次数的论文而言，论文的施引期刊的影响力也会有差异。在假设施引期刊的影响因子具有相同的分布特征的基础上，对两篇论文的影响因子的分布范围分别进行等分后，对于被引次数较低的论文，其各分区的施引期刊的数量均会比被引次数较高的论文在对应分区的施引期刊数量降低50%，从而保证不同论文的影响因子的分布特征不会发生变化。同样，当对分布范围分割的足够细时，论文施引期刊的影响因子之和近似等于各分区的影响因子与各个分区的施引期刊的数量的乘积的累计和，在各个分区中施引期刊数量的降低比例与论文被引次数的降低比例相同也为50%。同时，对于被引次数为18的论文，其施引期刊的影响因子具有相对较大的取值范围，在假设这种变化范围具有相近的最小值的基础上，被引次数为9的论文在各分区的对应分点处的影响因子会相对较小，所以后者具有的施引期刊影响因子之和的降低比例会高于论文被引次数的降低比例。进一步地，如果施引期刊的影响因子之和与论文的被引次数相比具有更高的降低比例，那么在按照被引次数以及影响因子之和分别进行降序排序的论文序列中，能够分别得到被引次数的累计百分比与论文数量的累计百分比之间的关系以及影响因子之和的累计百分比与论文数量的累计百分比之间的关系。在图3中能够看到这两种关系之间的一致性。这说明，被引次数与影响因子之和在两个论文序列中分布的相似关系，仅是被引次数与影响因子之和的实际取值范围会存在差异，而在这两个论文序列中任意的被引次数处与降低相应比例的影响因子之和处的论文可以是不相同的。这样对于被引次数相对居中的任意的论文而言，由于其施引期刊影响因子之和的降低比例会相对较高，所以与按照被引次数进行降序排列相比，这篇论文在按照影响因子之和进行排序的序列中的论文排序值也会有所提升。在图3中，横轴为论文的累计百分比，纵轴分别为影响因子之和以及被引次数的累计百分比，并且对应于不同的论文的累积百分比，影响因子之和的累计百分比均高于被引次数的累计百分比，其中累计百分比差值的最大值为5.251%，所以在这里假设上述两种关系之间具有近似的一致性。

图3 影响因子之和与被引次数的累积量与论文累积量之间的关系

在被引次数相对较低的区域，能够得到影响因子之和的降低比例会低于论文被引次数的降低比例，例如当论文的被引次数由2降低至1时，论文的被引质量往往不会降低50%的比例，这两篇论文通常会具有程度相当的被引质量。由于施引期刊的影响因子之和能够将论文被引情况中施引期刊的数量与质量均纳入在内，所以如果能够将论文的施引期刊的影响因子之和对应于论文的被引质量，那么施引期刊的影响因子之和的也不会降低50%的比例，从而低于论文被引次数的降低比例。进一步地，由于在按照被引次数以及影响因子之和进行降序排列的论文序列中，被引次数以及影响因子之和随论文累积量的变化具有其一致性，也意味着被引次数与影响因子之和在论文序列中分布的相似性，所以当论文的被引次数的降低比例相对较高时，与按照被引次数进行排序相比，论文在按照影响因子之和进行降序排列的序列中会具有相对较小的排序值。

这样，在被引次数相对较低的区域，论文在按照被引次数以及按照影响因子之和分别进行排序后所得到的排序值会有差异，且后者的排序值小于前者的排序值。同时，在被引次数相对居中的区域，论文在按照被引次数降序排列的序列中的排序值会相对较低，或者说，当被引次数较为居中时，后者的排序值会大于前者的排序值。另外，在被引次数相对较高的区域，按照被引次数以及按照影响因子之和分别进行降序排列时所得的论文排序值不会发生显著的改变。所以当论文的被引次数发生变化时，论文在分别按照不同的指标进行排序时的排名情况也会发生变化，由此是否能够考虑将论文在两个序列中的排名变化情况来作为对论文被引次数实际取值的反映。

另外，也可以将论文按照其被引次数进行降序排列，其中具有相同被引次数的论文的相互之间的排序是任意的，由此能够得到所有论文的被引次数序列，同时每篇论文均有施引期刊的影响因子之和与其对应，所以也能够得到相应的影响因子之和序列，在被引次数序列中对任意的被引次数用其后继的被引次数与该被引次数相除来得到被引次数的相继比序列，同理，能够得到影响因子之和的相继比序列。在图4中，横轴为相继比的序号，由于论文是按照被引次数降序排列，所以相继比序号的增加能够与论文被引次数的减少相对应，纵轴为被引次数以及影响因子之和的相继比。需要指出的是，图4只是对相继比变化趋势的近似反映，并且只考虑了被引次数不为零的论文且论文数为1551，在被引次数相对较低的区域影响因子之和的相继比位于被引次数相继比的上方，能够近似地反映在该区域中论文的影响因子之和的降低速度会低于其被引次数的降低速度。当按照影响因子之和进行降序排列时，论文的排序值会有所下降，在被引次数相对居中的区域，影响因子之和的相继比位于被引次数相继比的下方，从而意味着影响因子之和的降低速度会高于被引次数的减低速度，在一定程度上反映了当按照论文的影响因子之和进行排序时，与按照被引次数降序排列相比，论文的排序值会有所上升，同时在被引次数相对较高的区域，或者更为确切地是对应于两条曲线接近重合的区域，影响因子之和与被引次数具有相近的降低速度。在分别按照被引次数以及影响因子之和进行排列的序列中，论文会具有相近的排序值，与图2中排序值没有发生明显变化的区域相对应，这两条曲线接近重合的区域为被引次数在50以上的区域，对应的相继比序号为14。需要指出，这种考虑是建立在按照被引次数以及影响因子之和分别进行降序排列时论文具有相似或一致分布的基础上。另外两条曲线的起始纵坐标均近似地取为1的原因是所在区域的被引次数与影响因子之和均会相对较高，所以对被引次数降序排列后后继被引次数的相对变化比例会相对较小，尽管此时的影响因子之和并没有降序排列，但是该区域中相对较高的影响因子之和也同样会带来后继影响因子之和的相对较小的变化比例。其次，两条曲线的另一个交点的横坐标或者是相继比的序号取为893，是对应于图2中的排序值的差值由正变为负时所对应的被引次数得到的。

图4 影响因子之和与被引次数的相继比与被引次数之间的关系

如果能够认为论文排序的变化情况与论文的被引次数相关联，能否利用这种变化情况来对被引次数的取值进行反映，由此来对被引次数以及相应的论文进行分区。按照图2中排序值差值的变化情况，将被引次数以及论文进行分区为被引次数大于50，被引次数小于5，以及被引次数在5与50之间的区域，同时各分区的论文数分别为14,659，以及878篇，需要指出这里的分区是较为近似的，需要进一步调整，例如减小图2中的被引次数的划分间隔。

3 结束语

论文的被引次数与论文学术影响力之间的普遍相关性是被引次数成为基本指标的一种原因，这也是使得被引次数与论文排序变化情况之间具有关联性的基础。类似地，当被引次数发生变化时，论文按照不同的影响力描述体系来得到的影响力分值的排名情况也会发生改变，并且所得论文排序值的差值随着被引次数也会具有相近的取值变化情况，例如当被引次数小于10时考虑施引期刊的差异与考虑被引次数绝对量的论文影响力的排序值的差值会小于零；当被引次数大于70时，论文按照这两种论文影响力的排序情况不会发生显著的变化。如果论文的被引次数位于10与70之间的区域，那么排序值的差值会大于零，其中的论文影响力分值是由文献[1]中的指标体系并考虑论文的下载情况来得到，所以能否利用这种被引次数与排名变化情况的关联性来对被引次数的大小进行侧面地反映，对被引次数进行划分以及对论文按照其被引次数来进行分区。另外，被引次数能够作为对论文影响力的表征，并且论文的排序情况也会随着论文的被引次数发生变化，那么论文排序情况的变化是否也能够成为对论文影响力的侧面反映。[1]金晶,等.不同学科领域自然科学论文学术影响力评价与比较的可行性研究[J].科技管理研究,2010,(14)：279－284.