APP下载

论期刊评价的起源和核心要素

2009-09-05赖茂生

重庆大学学报(社会科学版) 2009年3期
关键词:评价指标体系

赖茂生 屈 鹏 赵 康

摘要:文章立足期刊评价的起源,讨论了期刊评价理论的形成与发展过程,认为期刊评价将质的评价隐含于量的评价之中,在量化过程中牺牲了大量的质的特征,而质的评价的信度则应由量的充足度来保证。来源期刊与评价指标体系是期刊评价工作的核心要素,其中评价指标体系分为基础理论指标、实际应用指标和定性评价三部分。文章认为,定性评价在期刊评价中起到重要作用,无论是来源期刊,还是指标体系、评价单位,在评价过程中都应公开。这样才能有助于这一研究方向和实践领域的良好发展,同时也是对各种批评的有力回应。

关键词:期刊评价;来源期刊;评价指标体系

中图分类号:G237.5

文献标志码:A

文章编号:1008-5831(2009)03-00067-06

一、引言

自20世纪90年代中叶起,期刊评价研究在中国逐渐升温。2000年以后,其热度更是不断升高。笔者在中国知网(CNKI)上以篇名为“期刊”、关键词为“assessment或evaluation”进行检索,在1999-2008年“核心期刊”中得到130条记录;若去掉“核心期刊”的限制,则多达256条。它表明期刊评价问题在国内得到了许多学者的关注。随着北京大学图书馆《核心期刊要目总览》(2008年版)的问世,往日就颇受关注的期刊评价领域,又可能激起一簇新的浪花。

目前,国内对期刊评价的研究分布较为广泛。其中,研究较为深入的学科有:图书馆学、情报学、编辑出版学、科技管理或科研管理等学科或领域。研究内容涉及期刊评价的作用、评价方法和指标、评价案例、对影响期刊评价的因素的讨论、期刊评价结果的应用、期刊评价中存在的问题等。尤其在应用方面,更是论述者众。而且,国内和国外的研究侧重点也明显不同。以中国知网(CNKI)和图书馆学、情报学、文摘数据库(Library and Information Science Abstracts,LISA)的检索结果作对比,可以看出:国内侧重期刊评价的功过是非,评价指标体系的构建,在特定领域中的应用以及科研管理等方面;而国外除了关注学术期刊在科研评估中的作用和特定领域的期刊质量评价以外,还有相当数量的论文讨论评价指标的有效性和期刊评价在信息资源建设中的作用等方面的问题。

笔者不打算去争论期刊评价的是与非,而是从学理的角度探讨“期刊评价”这一领域的起源、基本假设与存在的问题、核心要素和实践的基本原则。

二、期刊评价的起源

(一)布拉德福对科技期刊的研究——“核心”期刊概念的来源

20世纪30年代,布拉德福针对应用地球物理学和润滑学两个特定学科的文献(论文)和所刊载的期刊的分布进行定量研究,发现这两个学科的大量论文发表在少数期刊上。在对这一分布规律的进一步研究的基础上,布拉德福提出了“核心区”期刊的概念:位于核心区的期刊刊载某一特定学科的大量论文;而“相继各区”若刊载同等数量的论文,则需要更多的期刊。布拉德福定律早已成为文献计量学的经典定律,在此不再赘述。这里仅对需要注意的四个基本问题进行讨论。

首先,科技论文在科技期刊的分布是布拉德福的研究对象,期刊质量则不是他的研究范畴。科技期刊作为学科创建和发展的重要标志之一,在科学技术史上占有十分重要的地位,成为继书信之后最有效的科学交流方式之一,而其基本构成单位便是科技论文。布拉德福研究工作的核心是科技论文在不同期刊的分布规律。这就决定了科技论文和科技期刊二者在布拉德福的研究中是密不可分的,它们共同成为研究对象。明确这一点的意义在于认清“核心”期刊研究并非以刊论刊。

其次,布拉德福的研究针对特定学科,并非所有学科。它已经成为文献计量学研究的基本方法。从布拉德福开始,文献计量学的研究都是从一个或少数几个学科提出分布规律,进而在其它学科内进行验证。这种验证工作是文献计量学研究的重要工作,尽管它十分枯燥,结果也可能会十分平凡。笔者至今尚未见到包含所有学科的文献计量学研究。值得指出的是,布拉德福当初并未研究期刊评价问题,他仅仅是刻画两个学科各自的文献分布规律。他所说的“核心”,是一个相对的概念:属于A领域的核心期刊有可能是属于B领域的外围期刊。现在人们一提及核心期刊,就与高被引率、高影响因子联系起来,其实布氏定律中“核心”期刊的含义本来不包括这些因素。布拉德福定律隐含的第二层意义是“核心”期刊的确定强烈地依赖于统计源。在布拉德福的研究中,位于“核心区”的期刊只是布拉德福所选择的那些期刊中位于“核心区”的期刊,而并非普适的结论。而且,布拉德福的“核心区”范围也十分模糊,并没有一个硬性的指标确定哪一种刊属于核心,哪一种刊属于非核心。事实上,根据当时的研究目的,他也没有必要这么做。他进行这样研究的基本目的是为了改善图书馆馆藏发展策略。所以,布拉德福定律本质上是一种描述性的定律,而非判定性的定律。

第三,布拉德福的研究结果仅仅是定量描述科技论文的分布特征,并未涉及质的评价。这事实上已成为整个文献计量学的软肋。无论质量高低,每篇论文的权重都相同,这显然与科学技术的发展历史相矛盾。将高水平的论文与一般论文同等对待,这一文献计量学的基本方法与下面的历史事实相违背:少数科学工作者的少数成果对科学技术的进步产生了强大的影响,而大部分科学工作者的成果只能成为通往金字塔顶的基石。另外的一个事实是:刊载于“核心期刊”上的论文未必都是高质量的论文。这也是“核心期刊”为众人诟病的原因之一。与其把这些问题归咎于人为的、社会的乃至制度的因素,还不如归因于期刊评价基础的“先天不足”。

第四,布拉德福定律是一个经验性定律,而且文献计量学中几乎所有的定律(规律)都是经验性的。这意味着它们是既有事实的统计和描述,而非用来预测、评价和判断的标尺。它们描述的是已经发生事件的频率,而不是概率事件可能发生的概率。当然,统计是服从大数定律的,如果样本量足够大,便可以用统计的结果近似地估计。也就是说,“核心”期刊强烈地依赖于统计源。如果统计源足够广,那么期刊评价的信度就会大幅提高,在此基础上的期刊评价工作才具有基本的信服力。

总之,布拉德福的研究是一项描述研究而非评价研究,并未针对期刊评价而展开。因而,如果要将这一研究成果应用到评价研究上,就应当对其适用性进行彻底的讨论。然而,目前几乎所有的讨论都针对的是引文分析的适用性,而对布拉德福定律用于评价研究的适用性鲜有提及。这是文献计量学理论研究的缺陷。

(二)加菲尔德的引文分析法——影响深远的分析方法

与布拉德福定律侧重描述科技论文在科技期刊上离散分布的规律相反,尤金·加菲尔德根据引文分析提出了文献分布的集中规律。这成为核心期刊的真正意义上的源头。加菲尔德认为科学工作者的

引证行为存在一定的集中效应:少数论文被大量的引用,因而不仅是文献的分布,而且引文的分布也存在一个核心区域。根据这样的理论,他倡导编制了有别于传统文摘索引的多种引文索引(包括SCI、ss-cI、A&HCI、ISTP)及《期刊引证报告》(Journal Cita-Lion Report,JCR)。为了量化描述引文分布的集中规律,加菲尔德提出了影响因子(Impact Factor,IF)和快引指数(Immediacy Index,II)等计量指标。尤其是影响因子,为国内外广大学者大书特书,甚至成为科研管理的利器。

1引文分析法与引文索引的功绩

纵观SCI诞生至今50余年,必须肯定SCI所起到的积极作用。首先,作为一种检索工具,引文索引成为一般文摘索引的有益补充。通过论文的引用、同引和同被引现象,用户可以追溯相关的作者和论文,获得更为直接的相关文献。这里的“直接”是指相关文献不是通过近似计算和估计而来,而是通过文章作者切实的引证行为得到。引文索引法不仅能够追溯过往的文献,还能得到同时期乃至更新的文献,它早已成为文献检索的基本方法。

其次,引文分析法已成为文献计量学的一种研究方法。它将研究者的视野从三大定律研究点的分布规律引导至相互之间关系的研究上。这是具有划时代意义的转向。引文分析,或者更广泛地说,对引用的分析,已经成为情报学特有的研究方法之一。引文分析可以用来研究文献之间的关系、聚类乃至预测。尤其是预测的作用,它能够为发现新的学科生长点提供切实的证据。预测本身具有判定、决定的意义,因而使用这样的方法对期刊和论文做出某一方面属性的判定是合理的。但是,无论是揭示相互关系、聚类还是预测,均不涉及对质的要求,它是引文分析得以实现的基础,也继承了布拉德福定律不包括质量研究的缺陷。

最后,尽管颇具争议,引文索引在促进学术规范方面确实起到了积极的引导作用,强化了学术界对学术规范的要求。这种规范包括形式、数量、质量和行为等方面。尤其在形式上,引证作为科学研究的基本规范得到足够的重视。中国国家标准《GB/T7714-2005文后参考文献著录规则》的颁布,美国《芝加哥手册》、美国心理协会的APA引用格式(APA Reference Style)等都起到了形式规范的作用。在行为方面,科学工作者在发表论文前必须经过广泛的阅读和积累,论文必须拥有详实的引证才能得以发表。

2引文分析法与引文索引存在的问题

当然,也不能忽视引文分析本身存在的缺陷。首先,与布拉德福定律一样,引文分析法在应用中也是基于不同文献同等权重的假设。引文分析法最初仅用于编制引文索引,而索引的基本任务是引导用户找到所需要的论文,不涉及到质的判定。当引文分析法作为文献计量学研究的一种方法使用时,它要揭示的是不同文献之间的量的关系。在这方面,引文分析法也是没有问题的。关键是引文分析不满足于条目简单的罗列,而是要将计量学的研究结果——一些指标——应用于系统排序上,这其中便有了质的判定。诚然,影响因子、快引指数等指标能够在一定程度上反映质的特征,但其中隐含的逻辑矛盾和片面性也不言而喻。

其次,定量研究的首要任务是从繁杂的社会现象中提取基本属性并加以量化,量化过程势必损失了大量的细节信息。引文分析便存在这样的问题。科学工作者的引证行为是一种复杂的社会行为,用简单的指标来刻画这类行为的特征会忽略很多细节因素。引文分析的长处在于对引证这种行为所产生的社会网络的刻画和度量;弱势在于对个体的行为、动机和效果等方面的揭示。而且,很多引证行为,如自引、恶意引用等,都是目前的引文分析法无法解决的问题。所以,在使用引文分析这种方法时应该发扬其在群体的社会网络中的作用,而避开其在个体的质的刻画上的弱点。在应用过程中,对自引、他引做最基本的区分。在这些引用的性质尚未研究透彻之前,不擅下结论,以免引起争议。

第三,文献离散是绝对的,集中是相对的。核心区——无论是期刊论文分布的核心,还是引用的核心,都只是一个相对的概念,而更普遍的规律是离散规律。不论如何追求核心,总还是有一些重要的或有价值的论文出现在非核心的期刊上。布拉德福的核心区和加菲尔德的集中引用本身是两个不同的概念,“核心”与“集中”的类比只能作为理解这一概念的要点,而不应成为评价实践中的标杆。影响因子和核心期刊的追求者和批评者只看到了引用的集中性质,而忽视了文献分布本质上是离散的。相当一部分针对引文分析的批评应当由批评者自己承担。

最后,引文分析法的应用如同潘多拉盒子一样,一旦打开便有连锁的效果,这一点已经有目共睹。引文分析在规范科学工作者正确引用文献的同时,也激发了一些作者做出其他的引用行为,如追求被引率、影响因子等。在期刊出版领域,对核心期刊的追捧也导致一些期刊的审稿、刊发的负担加重和资源配置不均等问题。因而,引文分析法应用的负面效应不可忽视。

(三)两大定律对期刊评价的深刻影响

可以看出,期刊评价是在布拉德福文献离散定律和加菲尔德文献分布集中定律的基础上逐渐发展起来的,因而带有文献计量学的种种特征与弱点。上述两个定律对期刊评价的影响主要有两点。

其一,在期刊评价中,质的评价隐含在量的评价之中。无论是布拉德福的核心区,还是加菲尔德的集中引用,都隐含了对社会行为的质的特征的量化。尽管这种量化以牺牲大量的质的特征为代价,但是一些质的特征还是得以保存。质的评价隐含在量的评价之中——它既是期刊评价的基本假设,同时又是逻辑矛盾的所在。

其二,在期刊评价中,质的评价的信度由量的充足程度来保证。布拉德福和加菲尔德的研究成果都是经验的学科性的。二者都是依靠大量统计而得出的经验结论,因此统计源在其中起到非常重要的作用。如果频数统计能够用来对概率事件进行估计,根据大数定律就需要相当数量的统计源保证。具体到期刊评价问题,便是来源期刊的问题。

三、期刊评价的核心要素和原则

(一)来源期刊

什么是真正意义上的来源期刊?笔者认为,来源期刊应该是作为计量研究的统计源的期刊,是用于确定核心期刊的那些期刊。而对于文献数据库来说,来源期刊则是为特定数据库提供文献来源的所有期刊。例如,在布拉德福的研究中,涉及应用物理学的258种期刊便是来源期刊;而选出的其中9种期刊是从这258种来源期刊中选出的核心期刊。明确这一关系,有助于理解核心期刊概念的相对性。

来源期刊的种类和数量对核心期刊的确定有着非常强烈的影响,尤其在统计被引量时更是如此。同样一种刊,从40种来源期刊中统计得到的引文量自然不低于从20种来源期刊中的引文量。因此,评价一种期刊的首要因素是对其相关的“来源期刊”的

评价。最理想的情况是将全世界所有的科技期刊都作为来源期刊。基于这样的集合统计得到的核心期刊自然令人信服。但是,如此操作并不现实。

首先,现有文献计量学的方法论不支持。现有的文献计量学研究都是针对一个或若干学科领域而得到的结论,而不是针对全部的计量对象得到的结论。举一个简单的例子,如果仅仅统计数学期刊的被引情况,那么来自其它学科,如物理学、经济学等学科领域的引文则无法反映在内;如果一个引文数据库同时包括了上述学科的期刊,引用关系的丰富程度将大大增加。遗憾的是,如果把所有的学科连通起来,引文特征将会发生什么样的变化?目前还没有一个现成的答案。

其次,系统的开销大幅增加,成为瓶颈。仅就引文分析为例,它反映的是文献之间的两两关系,因此其复杂度是D(n2)。如果将所有的期刊都纳入进来,这样的开销是无法承受的。

第三,期刊之间的质量差异确实存在,存在质量较低的期刊也是不争的事实。如果有可行的方法,将来源期刊质量提高而不对数据库统计的信度产生较大的影响,将质的评价融入来源刊的选择之中,势必对核心刊的质量也产生积极的影响。同时,这么做也可以降低成本。

从统计的角度而言,来源期刊的选择其实是一种抽样。尽管目前对于来源期刊的研究较少,并未形成有效的理论。在实践中,数据库的用途不同,对来源期刊的选择也不同。凡是引文数据库,其来源期刊规模都较小,这与引文数据库生产成本有关。但是,较小规模的来源期刊能否支持其引证统计的信度,便成为这些引文数据库面临的主要问题。说到底是来源期刊范围和选择标准的问题。

在《核心期刊要目总览》(2008年版)中有这样的一段编辑说明:“选作评价指标统计源的数据库达51种,统计文献量达到943万余篇次(1999至2001年),涉及期刊1万2千种。”它对《核心期刊要目总览(2004版)》的来源刊的范围作了明确的说明,包括来源数据库的数量、来源期刊的数量、来源文献的篇数乃至分布的时间。这样定义的来源期刊范围在一定程度上反映了《总览》的信度。这里要说明的是两个问题:其一,选刊标准要能够操作,不能含糊不清。来源刊的选择标准应是一系列的硬指标,具有较好的判别能力,具有刚性,而柔性的操作可以交由评价过程完成。其二,来源刊选择应该透明,以保证评价理论的科学性和实践的公证性。

(二)评价指标体系

既然评价指标是一个“体系”,那么它就不是一个简单的问题。评价指标体系是期刊评价最为核心的方面,同时也是目前经常受到学者批评的主要原因。如果将这样一个复杂的问题分解开,则包括三部分的内容:基础理论指标、实际应用指标和定性评价指标。

1基础理论指标

基础理论指标是指在期刊评价中起到理论基础作用的评价指标。它具有较强的研究背景和基本假设,并且量化特征明显。其代表是影响因子、快引指数和普赖斯指数等。目前,这些基础理论指标已经应用在期刊评价研究与实践之中,不同的评价指标体系对其权重的赋值略有差异。

应当辩证地看待这些指标。一方面,这些基础理论指标的提出和普遍应用是经过长时间的实践筛选,并经过理论和实证研究的验证的。它们能够在一定程度上胜任期刊评价这一复杂的任务,并且在短时间内很难找到替代品,因而不能简单地否定这些指标。另一方面,这些指标也完全继承了文献计量学的“遗传病”,用定量研究代替定性研究,因而也存在问题。在使用这些指标时,应该根据实际情况和已有经验,恰当地赋权,以发挥其正面作用,限制其负面作用。

与此相应地,期刊评价单位应该透明地进行来源期刊选择、评价指标选择和评价指标权重的赋值工作。如此才能更好地为这些基础理论指标作用提供实证研究结果,同时也规范了期刊评价工作。

2实际应用指标

实际应用指标是在期刊评价实际工作中使用的指标,这些指标构成一个体系。一个成熟的实际应用指标体系应该包括以下四个方面:(1)评价指标的定义。评价在很大程度上是一种操作过程,为了便于操作,评价指标的定义不可缺少且必须精确。(2)评价指标的操作说明。它主要为那些进行期刊评价的操作人员提供明确的操作标准,使得数据处理过程有章可循。同时,还需要专门人员维护这一操作说明,对实际业务中发现的问题进行及时的更新。(3)评价指标的权重。要明确地、合理地赋予每一评价指标的权重。权重的选取应该根据既有实践、理论推导和验证等来确定。(4)评价指标体系的应用说明。它要明确评价指标体系的应用对象和范围,防止将应用范围无限扩大。期刊评价工作本身有其固定的应用范围,超出了这样的范围其效果只能差强人意。不仅会使应用对象受到不合适的评价,对于期刊评价工作本身也是一种损害。因此,评价指标体系的应用说明是不可忽视的内容。

3定性评价指标

既然期刊评价工作本质上是一种质量评判,突出地使用定量指标来进行这样的评价工作难免会产生偏差,因而需要加强定性评价,为定性评价结果赋予更高的权重,特别是要重视同行专家的定性评价。

在定量和定性评价二者中,定量评价可以用来“否”,定性评价用来做最后的评判。即定量评价的结果可以主要用来识别何种期刊不符合“核心期刊”的标准。定性评价能够将很多无法使用定量指标度量的因素考虑进来,如某刊在学界的影响力和刊载论文的质量等,这些因素都可以由专家给出定性的评价结果。同时,为了避免专家评价的主观偏差,需要扩大评价专家的范围,至少应该包括学术界专家(内容质量评价)、编辑出版界的专家(内容质量和业务质量评价)和第三方的评价计量专家(如来自科学技术史、文献计量等领域的专家对期刊的社会效应、期刊对科技发展贡献程度做出评价)。专家评价的过程应该公开,以规避专家的主观因素和暗箱操作而带来的对期刊评价业务的影响。

(三)期刊评价的首要原则——透明

从刚性地选择来源期刊一直到柔性地进行定性评价,期刊评价每一个环节都需要体现出理论的科学性和工作的严肃性。然而,达到这样的科学性和严肃性需要透明原则来保证。目前人们对于期刊评价工作的批评,其责任部分要由期刊评价的基本假设来承担。而在具体的实践中,对于这些批评最好的回应便是透明。透明的含义包括来源期刊选择标准的透明、来源期刊的透明、评价指标的透明和评价过程的透明等。透明才能服众,杜绝评价机构暗箱操作,同时可以规范专家的定性评价工作,最终改善期刊评价的结果。透明使他人可以重复期刊评价的过程,不同评价者之间的研究结果可以相互比较和参考,规范期刊评价研究,才能体现出期刊评价工作的客观性和严肃性。

如果期刊评价过程中暗箱操作盛行,那么,受害的将是进行暗箱操作的期刊评价的指标体系乃至整个期刊评价工作,而具体的期刊受到的影响相对小

一些,因为学界对特定期刊的质量评判一般都有基本的共识。一些活跃的非核心期刊的学术影响力不亚于一些排位靠后的核心期刊,这样的事例在很多学科领域都存在。

四、结论与讨论

通过以上分析,可以发现,尽管期刊评价工作众说纷纭、颇受争议,但它依然有一定的理论支撑和应用价值。同时,也要看到和充分重视期刊评价本身存在的问题。首先是其支撑理论存在问题,即基础理论在质与量之间的逻辑矛盾;其二是评价指标的合理性问题;其三是实际操作过程的透明度问题,即程序公正性问题。

为此,笔者认为在期刊评价中应该注意以下五个方面。

首先,认清期刊评价研究结果的适用性,不对其应用范围做无边际的扩大。期刊评价在基本假设上存在的种种问题限制了期刊评价研究结果的适用范围。尤其在科研管理中,不能片面地强调核心期刊的作用,而只能将其作为一个因素来考虑。期刊评价对科研管理的“适用性”问题要给予足够重视。

其次,期刊评价本质上是经验研究和质的评价。其信度应由量的充足度来保证。比如,来源期刊的选择对核心期刊的确定有着强烈的影响,在现有研究和实践条件下,这种影响在质量和数量方面都普遍的存在。在实践中,来源期刊的选择应该具有较强的刚性;在期刊评价的研究中,则应对来源期刊选择这一问题做出更为深入的理论研究。

第三,期刊评价的指标体系不仅应当包括各种必要的指标,还要包括各评价指标的定义、评价指标的操作说明、评价指标的权重选择和评价指标的应用说明等内容。标准化的操作说明有助于评价理论和业务的规范。建议成立工作小组来维护这样的操作说明。

第四,既然期刊评价工作本质上是质量评价,那么专家的定性评价就不可缺少,并应该加以深入的研究和应用。专家的组成应该尽可能广泛,至少包括学术界专家、编辑出版界专家和第三方专家。专家定性评价可以在定量评价初选结果的基础上进行,这样既可以节省成本,又可以提供更为精准的评价结果。

第五,期刊评价最重要的原则是透明。唯有透明,才能使期刊评价工作及其结果客观、公正,才能使期刊评价越来越科学、规范。

最后,笔者建议,在规范学术研究和期刊出版发行的同时,期刊评价本身也必须进一步规范化。应当理性地看待期刊评价的作用及其结果,既不过度拔高或追捧,也不简单否定甚至盼望其“终结”。

参考文献:

[1]黄国彬,孟连生,1989—2005年中国期刊评价发展评述[J],数字图书馆论坛,2007(3):13-24。

[2]杨乐,要十分审慎地对待“影响因子”[J],中国科学院院刊,2004,19(2):147-148。

[3]钱荣责,走向终结的“核心期刊”现象[J],江苏大学学报(社会科学版),2003,5(3):128—132。

[4]张薇,白葆红,万园园,科技类核心期刊评价的缺憾分析[J],编辑学报,2007,19(5):395-397。

[5]吴正明,论核心期刊的负面影响[J],编辑学报,2005,17(3):224-225。

[6]邱均平,李爱群,国内外期刊评价比较研究[J],重庆大学学报(社会科学版),2007,13(3):60-65。

[7]李凯扬,贾玉萍,基于AHP的期刊全文数据库的模糊综合评价[J],情报科学,2005,23(11):1688—1691。

[8]YEH NEICHING,Impact factor:a controversial way ofjour-nal and research quality measurement[J],Journal of Li-brary and Information Science,2005,31(1):54—62。

[9]王凌峰,陈松青,基于中国科学院SCI期刊分区的科研管理量化考核标准研究[J],现代情报,2007(4):52-55。

猜你喜欢

评价指标体系
高校学生信息素质评价指标体系研究
独立学院技能型人才技能训练方案及评价指标体系
关于AI上市公司发展水平评价
基于层次分析法的企业品牌竞争力研究
民办高职院校评价指标体系研究