广义洛特卡数据的混并

2016-06-16陈道兰毛一波

大学图书情报学刊 2016年2期

关键词：特征参数交叉

陈道兰，毛一波

(重庆文理学院，永川 402160)

广义洛特卡数据的混并

陈道兰，毛一波

(重庆文理学院，永川 402160)

摘要：从广义洛特卡分布特征参数的解区间出发，针对具有相容性的两组科学生产数据，验证了在有交叉的情况下混并后的数据仍然有可能满足同一广义洛特卡分布，表明无交叉条件不是数据混并前后满足同一广义洛特卡分布的必要条件。

关键词：洛特卡分布；特征参数；解区间；交叉；混并

引言

洛特卡定律、布拉德福定律和齐夫定律合称情报学或文献计量学的三大定律。洛特卡定律描述和揭示了不同科学生产率水平的科学工作者分布的规律，它是由美国著名的数学家洛特卡于1926年提出的[1]。洛特卡定律可以简单地用公式xn·y(x)=c表示，其中x为论文数量，y(x)为写x篇论文的作者占作者总数的比例，c,n为参数[2]。洛特卡最初在提出该定律时，曾指出n取值为2。20世纪80年代以后，学术界掀起了关于洛特卡定律实践性检验的热潮。在洛特卡定律的普适性验证中研究者们发现，洛特卡分布的特征参数n常常不囿于2，从而提出了广义洛特卡定律[3]-[7]。由于在验证广义洛特卡定律时，需要采集大容量的样本，这给数据处理带来了一定的难度。基于此，1992年张贤澳[8]提出了广义洛特卡数据的混并方法，即将满足一定条件的两组小样本数据进行混并，通过小样本的广义洛特卡分布规律，试图研究它们混并后得到的大样本所具有的规律，这为降低大样本数据的处理难度带来了一定的方便。目前关于广义洛特卡数据的混并一般仅限于无交叉条件的数据之间进行混并，且此方面的文献并不多见[9]-[11]，特别是2000年后对数据的混并的研究更少[12]。

两组具有相容性的数据如果有交叉，它们在混并后得到的数据是否也具有同一广义洛特卡分布？或者说无交叉条件是数据混并后满足同一广义洛特卡分布规律的充分条件还是必要条件？因此研究在有交叉条件下两组数据混并后是否仍然满足同一广义洛特卡分布是一个值得研究的课题。

本文从广义洛特卡分布特征参数的解区间出发，通过对几组具有交叉的数据，验证它们之间的相容性，从而在有交叉的情况下混并后也有可能服从同一广义洛特卡分布，表明无交叉条件不是数据混并前后满足同一广义洛特卡分布的必要条件。

1特征参数的解区间和数据的相容性

为了研究科学生产数据的混并，需要涉及到广义洛特卡分布特征参数的解区间和数据相容性的概念。

定义2：[14]设A、B为两组科学生产数据，其特征参数n的解区间交集非空，则称A、B是弱相容的。如果A、B的特征参数n的最优值均落在该交集内，则称A、B是强相容的。A、B弱相容和强相容统称A、B是相容的。

2有交叉数据的混并

性质1：反映了两组数据在无交叉并满足其它条件情况下，混并后可以服从同一广义洛特卡分布。如果两组服从同一广义洛特卡分布的数据，在有交叉的情况下混并后是否也可以服从同一广义洛特卡分布呢？下面以《情报理论与实践》1989—2013年的著者数据为例，通过数据的解区间进行研究，结果表明服从同一广义洛特卡分布的两组数据在有交叉的情况下混并后也可能服从同一广义洛特卡分布。从而可知，性质1的无交叉条件不是必要的。

以《中国期刊全文数据库》(CNKI) 为调查统计源，对《情报理论与实践》杂志1989-2013年发表的论文进行收集整理，在数据统计时只统计国内第一作者、多篇连载文章只按一篇统计[16]。按照上述原则，固定统计时间跨度(分别以10年、20年)、按不同统计初始时间得到著者数据 (见下表1和表2)；其次对所得到的著者数据利用非线性回归方法[17]进行洛特卡分布特征参数n的估算。

表1　《情报理论与实践》杂志1989-2013年跨度10年著者情况(注：空白栏表示著者人数为0)

表2　《情报理论与实践》杂志1991-2013年跨度20年著者情况(注：空白栏表示著者人数为0)

为了研究两组有交叉数据的相容性，以及它们混并后的数据是否服从同一广义洛特卡分布，根据前面关于相容性的定义和性质，只需要研究有交叉的数据及它们混并后的数据的解区间即可。对于数据的混并，可以理解为表1中1989-1998年的数据A和1999-2008年的数据B混并后得到表2中1989-2008年的数据A+B，显然A、B中数据有交叉(因为在1989-1998年发表文章的著者有一部分在1999-2008年也发表了文章，另外也可以从数据A和B各发表1篇文章的著者人数之和大于A+B发表1篇文章的著者人数体现出来)。同理，表2中1990-2009年的数据可视为表1中1990-1999年的数据和2000-2009年数据的混并，其余类推。

对于表1和表2中数据的混并，可利用张贤澳提出的非线性回归方法[18]，对这些数据计算出其特征参数n的解区间[19]和最优值[20]，研究其相容性和所服从的广义洛特卡分布情况，得到下表3。

表3　数据混并前后特征参数n的解区间和最优值

特征参数n的解区间[11]和最优值的具体计算方法是: 先输入表1(或2)中各行数据，计算发表1至j篇论文的实际频率，然后计算参数c值允许范围(G-D,G+D)(其中G=y(1)/∑y(x))，再通过n,c值对应关系[21]

(1)

反查出n的允许范围(nk,nl) (公式(1)表明由c确定的隐函数n=n(c)无明确表达式，一般由公式(1)构造n,c值对应表，再通过对应表由c值查出n值)，再将(nk,nl)若干等分，对其所有分点n及其对应的c进行K—S检验，通过检验的n的最小值和最大值之间的区间即为所求的解区间I=(nl,nr)。在解区间范围内，以一定的步长，逐渐增大n值，进行著者实际累计频率与理论累积频率的绝对偏差的计算，在绝对偏差最小的意义下从中选出n的最优值。在最优n值情况下，再由c-n值匹配表查出最优的c值，然后进行K-S检验。若通过检验，表明符合洛特卡定律，反之则不符合。

从表3可以看出，1989-1998年的数据A和1999-2008年数据B的解区间交集IA∩IB=(2.5151,2.8380)非空，且它们的最优值nA=2.5773,nB=2.7166∈IA∩IB，A、B强相容，混并后得到的1989-2008年的数据A+B的最优值nA+B=2.5311落在IA∩IB之内， A、B、A+B均服从特征参数n=2.5311的同一广义洛特卡分布。

同样地，1991-2000年的数据A和2001-2010年数据B的解区间交集IA∩IB=(2.3379,2.6280)非空，但最优值nA=2.6485∉IA∩IB，A、B弱相容，混并后得到的1991-2010年的数据A+B的最优n值落在IA∩IB之内， A、B、A+B均服从特征参数n=2.4632的同一广义洛特卡分布。

但是，对于表3的1994-2003年的数据A和2004-2013年数据B的解区间的交集IA∩IB=(2.4351,2.4671)也非空，而最优值nA=2.6950∉IA∩IB，A、B弱相容，混并后得到的1994-2013年的数据A+B的最优值nA+B=2.4222却不落在IA∩IB之内，即混并后得到的数据A+B不服从混并前的广义洛特卡分布规律。

3结论

本文利用广义洛特卡分布特征参数的解区间，研究了两组科学生产数据在有交叉的情况下的混并。从表3的结果来看，两组服从同一广义洛特卡分布的科学生产数据，在有交叉的情况下，混并后得到的数据有可能服从同一广义洛特卡分布，也有可能不服从同一广义洛特卡分布。研究表明，无交叉条件不是数据混并前后满足同一广义洛特卡分布的必要条件。

参考文献：

[1] [2][8][13][14][15][17][18][20][21] 张贤澳.广义洛特卡定理——估计、推论及其在管理中的应用[M].厦门：厦门大学出版社,2002.14-24.

[3] 张贤澳.最小二乘法确定洛特卡定律参数的方法应当终结[J].情报学刊,1992,(6):415-419.

[4] 钟云志,王春香,杜香莉.洛特卡定律研究中一个问题的探讨[J].图书情报工作,2005,(1):45-46.

[5][16] 尹方屏,张大为,刘静伟.中国服装学科论文著者的洛特卡分布研究[J].农业图书情报学刊,2007,(2):141-144.

[6] 孙振嘉,张向先.基于洛特卡定律的“科技信息资源”研究成熟度分析[J].情报理论与实践,2012,(9):82-85.

[7] 周爱民.含零等级数据的洛特卡拓展模型[J].图书情报工作,2013,(1):78-82.

[9] 张贤澳,林玲.关于我国林业科技论文作者洛特卡分布的研究[J].情报探索,1991,(2):10-16.

[10] 张贤澳.洛特卡_CA_著者科学生产率数据及分布[J].情报理论与实践,1992,(2):10-13.

[11]张贤澳,李美文.广义洛特卡定律参数特征的研究[J].情报探索,1996,(2):10-15.

[12]刘婧.文献作者分布规律研究——对近十五年来国内洛特卡定律、普赖斯定律研究成果综述[J].情报科学,2004,(1):123-128.

[19]陈道兰,毛一波.文献广义洛特卡分布特征参数解区间的确定[J].情报杂志,2013,(10):161-163.

(责任编辑：傅正)

Merging of Generalized Lotka Data

CHEN Dao-lan， MAO Yi-bo

(Chongqing University of Arts and Sciences, Chongqing402160, China)

Abstract：This paper is based on the solution interval of the generalized Lotka data distribution characteristic parameter. In accordance with two compatible groups of scientific production data,it is verified that the merged data may still meet the same generalized Lotka distribution under intersection conditions, and shown that without intersection is not the necessary conditions to meet the same generalized Lotka distribution before or after data merging.

Key words：Lotka’s distribution; characteristic parameters; solution interval; data intersection; data merging

基金项目：重庆市教委科研项目(重教[KJ111213])；重庆文理学院校级科研项目(NO.Z2012TS02)

中图分类号：G350

文献标识码：A

文章编号：1006-1525(2016)02-0113-04

作者简介：陈道兰，女，馆员。

收稿日期：2015-09-15