改进的“睡美人”B值识别模型构建及学科领域因素差异探析

2020-12-15赵又霖刘黎明葛梦真陆颖隽

图书与情报 2020年2期

赵又霖刘黎明葛梦真陆颖隽

摘要：鑒于B值识别法对“睡美人”文献早期的睡眠深度和唤醒后被引次数考虑的不足，在B值识别法的基础上引入“沉睡期引用率”和“近五年引用率”两个新的判定指标实现对B值识别法的改进，通过两个不同学科领域“睡美人”文献的识别加强验证该方法增加了“睡美人”文献识别篇数和识别效果，并分析沉睡和唤醒机制的异同。以Web of Science（WoS）数据库中1986-2007年的Water Resources（WR）领域和Information Science & Library Science（ISLS）领域的2586篇和1557篇高被引论文为研究对象，利用改进后的B值法识别两个领域的“睡美人”文献，对比WR与ISLS两个不同学科领域“睡美人”文献的指标特征及影响因素，分析沉睡和唤醒机制的异同。研究结果发现改进后的B值识别法识别出了ISLS和WR领域共10篇“睡美人”，较仅用B值法的识别精准度提高了43.4%;从引文曲线上看，仅用B值法识别出的“睡美人”文献沉睡期被引频次波动较大，沉睡期的年均被引频次基本都大于2，并且有3篇“睡美人”文献唤醒后的被引频次有明显的大幅度下降，不符合“睡美人”文献的特征;从论文的影响因素上看，论文所在期刊影响力较弱与作者学术影响力不足都是论文成为“睡美人”的重要原因，相比于ISLS领域，WR领域的“睡美人”被唤醒时所受期刊权威性的影响更大。

关键词：睡美人;沉睡原因;唤醒机制;学科差异;B值识别法

中图分类号：G250.2 文献标识码：A DOI：10.11968/tsyqb.1003-6938.2020036

Abstract Two new indicators are introduced in this paper - "citation rate during sleep period" and "citation rate in recent five years" - on the basis of B-value method to restrain the number of citations of sleeping beauty during sleeping period and wakening period. This method is used to identify "sleeping beauty" literature in the two different fields to verify its advantages and analyze the sleeping and awakening mechanism of sleeping beauty. By comparing and analyzing the sleeping and awakening mechanism of sleeping beauty in these two disciplines， this study provides guidance for different disciplines on how to find the sleeping beauty publications as early as possible. Improved B-value Algorithm was used to identify sleeping beauties published between 1986 and 2007 in the Web of Science （WoS） database in the two fields of WR and ISLS. The results show that the improved B-value recognition method can identify 10 sleeping beauties in ISLS and WR fields， which cannot be recognized only by B-value method， and the recognition accuracy is improved by 43.4%.In terms of the citation curve， the cited frequency of Sleeping Beauty Literature identified by the B-value method only fluctuates greatly during the sleeping period， and the average annual cited frequency of sleeping Beauty Literature is more than 2. Moreover， the citation frequency of three articles decreased significantly， which did not accord with the characteristics of Sleeping Beauty Literature. From the perspective of influencing factors of papers，the weak academic influence of journals and authors are the important reasons for the paper to become a "sleeping beauty". Moreover， research suggest that compared with the ISLS field， the "sleeping beauty" in the WR field is more influenced by the authority of the journals when awakened.

Key words Sleeping Beauty; sleeping reasons; wake-up mechanism; disciplinary difference

1 引言

人们对科学文献的关注往往都集中在高被引文献上，事实上，低被引文献的数量往往超过了高被引文献，而且它们潜在的价值可能超出想象。一些重大的科学发现没有被当时的科学界所接受，多年后这些成果又重新被发现而获得大量引用。像这种发表之初无人问津，之后突然得到大量引用的文献被称为“睡美人”论文[1-2]。其中最典型的例子便是孟德尔的遗传理论，该理论在发表50年后才被发现和得以应用，因此“睡美人”在科学共同体中的价值不容忽视。在20世纪60年代，Barber[3]就提出了论文引用中的“迟滞承认”现象，当时这种现象被看作零被引文献中的极端案例，并没有引起人们的重视。直到2004年，荷兰计量学家Van Raan[4]才明确地将这种现象称为“睡美人”现象，并界定了“睡美人”论文的三个指标：睡眠时长、睡眠深度、唤醒强度，从科学计量学的角度对其做了定量描述。2012年，李江等[5]又发现了特殊的“睡美人”文献——“全要素睡美人”，这种“睡美人”在发表之初并没有陷入沉睡，而是在受到大量被引后才逐渐陷入睡眠，之后又重新被唤醒。近期，“睡美人”一词更是受到学术界的热议，荷兰莱顿大学的Ton van Raan教授与JASIST（Journal of the American Society for Information Science and Technology期刊）在关于“睡美人”这一术语是否合适的讨论中各抒己见。针对这个事件有以下方面的争论热点：文献发表之初的低被引时期比喻为“睡美人”沉睡是否冒犯了女性群体;之后文献获得较高被引时期比喻成王子 “亲吻”被唤醒是否含有对女性“贞洁”的歧视[6-7]。可见，对该现象有所争论，也是对期刊沉睡和引用方面的争论，人们对“睡美人”文献的认识在不断深入。

现阶段出现的“睡美人”文献分类识别研究主要是将不同的识别方法运用于特定学科领域，识别方法研究主要集中在三指标识别、四分位数分布统计识别、客观指标识别和曲线拟合识别法。

（1）“睡美人”文献的分类识别研究。在自然科学领域： Ohba和Nakao[8]分析了眼科医学领域的“睡美人”和唤醒“睡美人”的“王子”文献，发现“睡美人”论文的研究主题主要是急性视网膜坏死综合症，癌症相关性视网膜病变和息肉样脉络膜血管病变等;Lange L[9]对心理学领域进行了“睡美人”文献的识别;Ratnadeep Dey等[10]揭示了计算机领域“睡美人”文献的觉醒因素，并提出了一种基于机器学习的“睡美人”文献分类识别方法。在社会科学领域： Clanzel等[11]研究了学科差异对“睡美人”文献的影响，发现自然学科比社会学科更容易出现“睡美人”论文;姚建文等[12]对图书情报领域的“睡美人”现象进行了深入研究，发现“睡美人”论文发表的期刊均是核心期刊以及论文内容具有多学科交叉性;李秀霞等[13]又对图书情报领域“睡美人”文献的特点和唤醒机制做了进一步分析，发现“睡美人”的文献内容主要是对新技术新方法的介绍与解读，自然学科的 “睡美人”沉睡时长大于社会学科。

（2）“睡美人”文献识别方法的研究。2004年，Van Raan[4]提出了三指标识别法，将文献发表后5年累积被引频次，觉醒后4年内总被引频次的论文定义为“睡美人”文献，这种方法具有主观取值的局限性;R.Costas等[14]提出了四分位数分布统计识别法，将一篇达到总被引次数50%所用的时间大于等于相同学科领域75%的文献达到总被引频次的50%所需时间的论文称为“睡美人”文献，该方法识别出的“睡美人”精确度不够，不符合“睡美人”罕见现象的特征。2015年，Ke Qing等[15]提出了一个无参数的客观指标识别法——“美丽系数法”（也称为B值法），由发表年的引文量、年度被引次数最大值以及时间指标计算得出，该方法认可度高，是學术界广为接受的识别方法。之后，Peruzzo[16]又提出了改进的B值——SBc指数，提高了对总被引次数较低文献的识别力度。杜建和武夷山[17]不以年度被引次数做分母计算比值，又在SBc指数的基础上提出了Bcp指数，考虑了论文全部引文历史，有效保留了论文的原始信息。2016年，A.A.C.Teixeira[18]等基于标准差的思想提出了一个新的具有经验分布的客观指标法——K值法，实现了对创新研究领域“睡美人”论文的识别。该方法对论文早期的被引次数进行了限制，具有较好的识别效果。除了以上通过对影响变量的描述来进行“睡美人”文献识别外，相关学者也进行了引文曲线拟合的识别探讨[19-22]，通过数学表达式或曲线类型来拟合论文被引次数曲线。这种方法简单、直观，但只适用于对单篇论文的拟合。

通过对上述四种识别方法的对比发现：三指标法取值过于主观性，取值不同将造成识别结果不同;四分位数分布统计识别法识别出的“睡美人”精确度不够，不符合睡美人罕见现象的特征;曲线拟合法只适用于对单篇论文的拟合，对于大量文献的识别效率较为低下;B值识别没有考虑论文的全部引文历史，对早期被引次数也并未进行严格约束[23]。根据B值计算方法可以看出，该方法只考虑发表年至被引峰值年之间的论文被引情况，无法反映年度被引次数达到峰值年后的被引情况，易导致B值法识别出的“睡美人”文献在唤醒后的被引频次出现较低的现象，杜建[17]和武夷山的研究证明了这一点。从他们的研究中还发现，识别出的8篇B值较高的“睡美人”文献中有5篇“睡美人”的沉睡特征并不明显，被引频次曲线波动较大。虽然B值识别法对“睡美人”文献早期的睡眠深度和唤醒后的被引次数考虑不足，但指数B仍是目前比较流行和权威的无参数指标。

基于此，本文尝试在B指数识别的基础上引入沉睡期引用率和近五年引用率两个新的判定指标，克服对睡眠深度和唤醒后的被引次数考虑不足的问题。并通过两个不同学科领域“睡美人”文献的识别加强验证该方法的合理性和有效性。鉴于前人研究多选择保留至少10年的引文窗，“近五年引用率”选择了最小引文窗的1/2，以“近五年”作为“睡美人”唤醒后的分析时间窗;另外 Van Raan[4]提出“睡美人”至少有5年沉睡期，为了保证识别出“睡美人”文献唤醒后的特征更加明显，本研究选择了与最小沉睡期相同的观察时间窗。

本研究选取了水资源和图书情报两大学科领域的文献作为研究对象。其主要出发点如下：目前科学界对水资源领域“睡美人”文献的研究少之甚少，水资源这个领域特别是水生态、水环境、一带一路流域水资源的发展使得水利行业更急需理论、技术的发展变革，而水资源领域“睡美人”文献的发现对推动这一领域的发展具有重要意义。图书情报学自身便是“睡美人”文献研究的主力，相关研究都较为成熟。了解水资源与图情学科领域“睡美人”的差异，可更好的掌握水资源领域“睡美人”的独有特征，有利于水资源领域“睡美人”文献的精准识别。

2 改进的B值方法模型构建

以B值识别方法框架为依据，引入沉睡期引用率和近五年引用率两个新的判定指标，构建了新的“睡美人”文献识别模型，并给出了“睡美人”文献识别模型的构建算法（见图1）。

（1）参照H指数从原始数据中截取获得高被引数据集。

（2）计算出高被引数据集论文的“美丽系数”B值，并根据学科分布特点确定合适阈值并选择满足阈值条件的论文，得到候选“睡美人”数据集。

“美丽系数”B值从文献的普遍性上考察了论文的“睡美人”特征，任何一篇非零被引文献都可以计算出它的美丽系数值（B值），B值的算法公式如下：

对于任意t

（3）对候选“睡美人”数据集中的文献分别进行归一化数据点缩放，计算每篇论文的沉睡期引用率和近五年引用率并选择沉睡期引用率小于0.05，近五年引用率大于0.5的论文作为“睡美人”文献。

对于每篇论文，都有一个被引次数的时间序列。通过使用时间序列中存在的最大值（论文全部引文窗内的最大被引频次）对整个引文窗内的所有年份的论文被引次数进行归一化缩放数据点，使归一化处理后的论文年份被引次数的值都在[0，1]之间[10]。为了限制“睡美人”沉睡期的睡眠深度和保证其唤醒后被引频次处于较高水平，在归一化的前提下，本文给出了新的判定指标和量化标准：

沉睡期引用率：文献发表年至唤醒年期间的年均被引次数与整个引文窗内最大被引次数的比值。量化标准：选取论文发表后5年内的引用率低于0.05的文献。换言之，“睡美人”文献至少有5年的睡眠时间，睡眠期每年的平均引用次数最多是其最高峰值的5.0%。沉睡期引用率能够保证“睡美人”在沉睡期一定的低被引频次。

近五年引用率：从文献考察的截至年向前推进4年，在这期间的论文年均被引次数与最大被引次数的比值。量化标准：整个引文窗最近5年的年均引用率高于0.50文献，即在考察期内，论文最近5年的年均被引次数最少是其最高峰值的50.0%。近五年引用率保证了“睡美人”觉醒之后保持一定的高被引频次，避免“睡美人”被引频次达到峰值后又突然下降，干扰识别效果。

3 模型验证

3.1 数据获取

本研究的数据源来自于Web of Science（WoS）中的期刊数据，检索表达式是：WC=（water resources）和WC=（Information Science & Library Science）。为了保证所检文献至少有10年的引文窗和数据的完整性，本研究选择了1986-2007年的所有“article”类型文献，检索得到水资源领域文献共95，541篇，图书情报领域文献共21，435篇。并利用WoS的引文报告分析功能获取单篇论文自发表后至2016年间的历年被引频次，构成本研究的引文数据库。

3.2 “睡美人”的识别过程

参考对高产作者的截取方法——H指数[24]，这里将高被引文献定义为：如果一个学科领域总共发表了X篇论文，其中有h篇论文每篇至少被引用h次，那么被引次数大于h的就被视为高被引文献。为了避免论文由于发表年份较早而获得较高的被引量，本文对两个领域每年的文献分别采用H指数标准来选取高被引论文，最终获得水资源领域和图书情报领域高被引论文2，586篇和1，557篇，作为识别“睡美人”文献的高被引引文数据集。

通过编程，分别计算高被引引文数据集中论文的B值，并将B值按照降序排序，ISLS领域的B值变化区间是[-3.77，196.10]，WR领域的B值变化区间是[-5.01，154.73]（两个领域的B值散点图见图2、图3）。

在“睡美人”指数框架指导下，并根据两个学科领域的B值分布图，可以将引文数据集的文献大致分为三类：

（1）具有较高B值的文献。这类论文在发表初期被引次数处于较低水平且低被引狀态持续时间长，之后论文的被引次数突然升高达到最大值，具有“睡美人”文献的特征。

（2）B值为负值的文献。这类文献的引文曲线是论文年龄的凹函数，在发表初期就得到了较多的文献被引量并快速达到被引次数最大值，之后文献被引次数跌落到较低水平，具有“昙花一现”[25]型文献的特征。

（3）B值较低且B值为正的文献。这类论文在发表之后被引次数逐年增加，达到被引次数最大值后被引量有所回落甚至逐年降低，具有一般文献的特征。

考虑到不同领域B值分布的差异，本文选取ISLS领域的文献，共33篇，占论文总数的2.1%; WR领域的文献，共26篇，占论文总数的1%。ISLS领域与WR领域“睡美人”文献与文献总量占比均（Peruzzo F.研究表明“睡美人”文献的数量一般占论文总数量的1%[16]），表明所截取阈值能够保证数据完整性。

然后根据文献被引次数峰值对论文年被引次数进行归一化处理，再对所选文献的睡眠期被引次数和唤醒后被引次数进行约束，最终筛选出ISLS领域符合“睡美人”特征的文献8篇，WR领域15篇（两个学科领域睡美人文献的基本信息见表1）。

3.3 识别效果及优势

为了验证本研究识别方法的合理性及优势，与改进前B值识别的结果进行对比。

3.3.1 识别篇幅的分析

分别选取B值法识别出ISLS领域的8篇和WR领域的15篇文献（识别结果见表2）。

从表中可以发现，改进后的B值识别法与B值识别法识别出的“睡美人”文献ISLS领域有3篇重合，WR领域有10篇重合，重复率分别为37.5%和66.7%。将两个领域识别出的“睡美人”重合部分与改进B值给出的差异部分文献进行特征对比，ISLS领域重合的3篇“睡美人”平均睡眠时长、平均睡眠深度和平均觉醒强度分别为14.6、1.02和27.3，改进B值给出的差异部分“睡美人”相应三个指标特征值分别为12、0.78和47.6，可以发现差异部分“睡美人”与重合“睡美人”的前两个指标值大小相近，平均觉醒强度远大于重合部分，“睡美人”特征更加明显。WR领域重合的10篇“睡美人”平均睡眠时长、平均睡眠深度和平均觉醒强度分别为14.7、0.95和23，改进B值给出的差异部分“睡美人”相应三个指标特征值分别为15.8、0.95和23.6，差异部分“睡美人”与重合“睡美人”三个指标无太大差异，“睡美人”特征较明显。以上两个领域对比分析均验证了改进后的B值方法的有效性;与表1对比可看出，仅以B值大小排序选取“睡美人”文献，表1中ISLS领域序号为2、3、4、6、8，WR领域序号为1、3、5、10、15的“睡美人”文献均不会被识别出;表2中识别出的ISLS领域B值最大的文献沉睡期年均被引频次为6年（>2），不符合Van Raan对“睡美人”文献的定义，识别结果具有一定误差。由此可见，改进后的B值识别法更能保证数据的完整性。

3.3.2 引文曲线的分析

通过分析表2与表1中识别出的不同的“睡美人”文献（表2中B值阴影的文献）年被引频次引文曲线（见图4），图中前5篇为ISLS领域的“睡美人”文献，后5篇是WR领域的“睡美人”文献。

由图4可以发现，相较于改进后的B值识别结果，仅用B值法识别出的“睡美人”文献沉睡期被引频次波动较大，沉睡期的年均被引频次基本都大于2，“睡美人”文献并没有“沉睡”，不符合“睡美人”文献的特征;ISLS领域序号为8、9，WR领域序号为9的“睡美人”文献在唤醒后被引频次有明显的大幅度下降，“睡美人”文献唤醒后的被引频次不稳定，可能成为“假”的睡美人文献。由此可见，改进后的B值识别法识别出的“睡美人”文献更加精准。

4 “睡美人”文献影响因素分析

探究不同学科领域“睡美人”的产生原因和唤醒机制的异同，利于从源头上管理“睡美人”现象。

4.1 “睡美人”文献指标特征分析

不同学科领域的“睡美人”文献特征具有一定差异，从表3所展示的内容可以得出以下几点：

（1） ISLS领域的“睡美人”文献要比WR领域“睡美人”文献的沉睡时间更长久。ISLS领域“睡美人”论文的平均睡眠时长为13，其中有2篇“睡美人”论文睡眠时间大于15年，占所有“睡美人”文献的25%。WR领域“睡美人”论文的平均睡眠时长为15.07，其中有9篇“睡美人”论文睡眠时间大于15年，占所有“睡美人”文献的60%。

（2） ISLS领域的“睡美人”文献睡眠深度普遍小于WR领域“睡美人”文献。ISLS领域 “睡美人”论文的平均睡眠深度为0.87，其中属于深度睡眠的论文有5篇，占全部“睡美人”文献的62.5%，属于浅度睡眠的论文有3篇。WR领域“睡美人”论文的平均睡眠时长为0.95，其中属于深度睡眠的论文有6篇，占全部“睡美人”文献的40%，属于浅度睡眠的论文9篇。可见，ISLS领域深度睡眠的“睡美人”文献占比大于WR领域“睡美人”文献。

（3）ISLS领域“睡美人”文献的觉醒强度大于WR领域。ISLS领域“睡美人”论文的平均觉醒强度为25.71次，觉醒强度大于20次的文献有6篇，占除去序号1的所有“睡美人”文献的85.8%。WR领域“睡美人”论文的平均觉醒强度为23.2次，觉醒强度大于20次的文献有9篇，占所有“睡美人”文献的60%。

（4）ISLS和WR领域 “睡美人”文献的被引突增率分别为6.98和6.78，表明这两个学科领域的被引突增率相差不大，且均趋向于数值7。

4.2 期刊与作者层次分析

4.2.1 “睡美人”文献的期刊特征分析

通过考察“睡美人”文献所在期刊影响因子在论文觉醒前后的变化，分析期刊影响力对不同学科领域睡美人文献沉睡和唤醒的影响。

（1）期刊分布特征。根据表4可知，“睡美人”文献主要发表在领域内的非权威性期刊，少量发表在权威期刊。未发表在WoS收录的所在领域排名前十期刊上的“睡美人”文獻ISLS和WR领域各6篇;发表在WoS收录的所在领域排名前十期刊上的“睡美人”文献ISLS和WR领域分别为2篇和9篇。

ISLS领域6篇“睡美人”文献所在期刊影响因子最大是2.763，最小是0.49，排名在第14和第62之间不等。WR领域6篇 “睡美人”文献分别发表在了排为第14至第66之间不等的6本期刊上，期刊影响因子最大为2.848，最小为 0.958。ISLS领域发表在权威期刊的2篇“睡美人”文献期刊影响因子分别为7.268和3.698，排名分别为1和7。WR领域发表在权威期刊的9篇“睡美人”文献期刊影响因子分别是6.942、5.527、4.397、3.483和3.191，排名分别为1、2、4、6和8。

（2）期刊平均影响因子分析。通过图5分析发现，部分“睡美人”文献所发表期刊在观察期影响因子较大，“睡美人”论文发表年至唤醒年期间影响因子较低，即期刊影响因子在“睡美人”文献觉醒年前后逐渐上升。“睡美人”觉醒年当年的期刊影响因子曲线和觉醒后的平均影响因子曲线整体上都在“睡美人”沉睡期平均影响因子曲线的上方，表明随着期刊影响力的增加，刊物上所发表的论文也逐渐受到学者们的关注，一些具有价值的科研成果重新被发现。

期刊影响力增加是WR领域“睡美人”文献唤醒的主要机制，不是ISLS领域“睡美人”文献唤醒的主要机制。在ISLS领域，论文主要发表在非权威期刊，但是这些期刊在“睡美人”文献觉醒后影响因子仍旧不高。而在WR领域，60%的“睡美人”论文发表在了权威期刊上，并且期刊“觉醒年”的影响因子曲线更靠近于“觉醒后”的影响因子曲线，期刊在“睡美人”文献觉醒后影响因子快速增加，对“睡美人”文献的唤醒起到了极大的牵引作用。

4.2.2 “睡美人”文献的作者特征分析

（1）作者发文量分析。科研人员的论文撰写数量在一定程度上反映了科研人员的学术能力，本文以两个领域“睡美人”论文的第一作者为研究对象，分析撰写了“超前”论文作者的学术影响力。

由表5可知，ISLS领域发表“睡美人”文献的作者发文量不高，最多发文27篇，最少1篇，人均发文4篇，以第一作者身份发表的论文数量更少，最多的8篇，最少的1篇。WR领域的15位“睡美人”文献作者中发文量大于10篇有7人，以第一作者身份发表的论文最多20篇，最少1篇。这与ISLS领域的“睡美人”文献作者表现出的特征相同——发文量不高。作者Fane，AG在1986-2017年间发表论文206篇，其中以第一作者身份发表的论文15篇，占发文量的7.3%。可见，发表“睡美人”文献的作者学术贡献普遍较小。

（2）“睡美人”文献作者分类。综合图6和图7发现，发表“睡美人”文献的作者明显可分为两类：第一类，领域内的极低产作者，无论独著还是与他人合著的学术成果都极少。如ISLS领域的作者Hamers，L仅有一篇独著论文，WR领域的作者Hamed，KH独著论文一篇，合著论文一篇;第二类，总发文量较高但第一作者身份的发文量较少的作者。如ISLS领域的作者Aronson，AR合著论文23篇，独著论文4篇，WR领域的作者Fane，AG合著论文191篇，独著论文15篇。根据上述作者特征，本研究将发文量少于3篇的作者视为第一类作者，其他归为第二类作者。

第一种类型的作者发文量本身极少，在同行中缺乏影响力，由于缺乏“马太效应”，论文鲜少被引用，导致一些有价值的科研成果被埋没，因此这类作者的论文成为“睡美人”文献的可能性较大。这类作者在ISLS领域占“睡美人”文献作者的42.9%，在WR领域占33.3%。第二种类型的作者学术研究多是与其他作者合著，科研能力有一定欠缺，学术影响力较弱，独立完成的成果往往得不到同行的认可，论文成为“睡美人”的可能性极大。这类作者在ISLS领域占“睡美人”文献作者的57.1%，在WR領域占66.7%，占比相对较高。可见，文献作者发文量少，学术能力低也是论文成为“睡美人”文献的原因之一。

5 结论

本研究在B值识别法的基础上对“睡美人”文献沉睡期和唤醒后的被引次数进行了约束，并分别以WoS数据库中WR领域和ISLS领域1986-2007年的2，586篇和1，557篇高被引文献为样本，使用上述方法分别识别出“睡美人”文献15篇和8篇。通过对两个学科领域“睡美人”文献的指标特征和影响因素的分析，得出以下结论：

（1）改进后的B值识别法对“睡美人”文献的识别更加精准和高效。仅用B值法识别“睡美人”，容易造成“睡美人”文献的遗漏识别。根据本研究，改进后的B值识别法识别出了ISLS和WR领域共10篇“睡美人”是仅用B值法无法识别出的，提高了43.4%的准确度;B值法识别出的“睡美人”文献沉睡期被引频次波动较大，“睡美人”文献并没有“沉睡”，并且有部分“睡美人”文献在唤醒后被引频次有明显的大幅度下降，“睡美人”文献唤醒后的被引频次不稳定。本研究在“睡美人”文献“美丽系数”识别法的基础上，对“睡美人”论文沉睡期和唤醒后的被引次数加以约束，避免了该方法忽略论文全部引文窗而导致识别出的“睡美人”觉醒后清醒强度不佳的问题。与杜建[23]等的研究结果一致，他们认为将客观识别法与主观识别法相结合能够达到更好的识别效果。

（2）“睡美人”的沉睡和唤醒机制具有学科差异性。研究发现，相比较于WR领域，ISLS领域的“睡美人”文献在沉睡期的睡眠深度较大，沉睡时间更长，这表明“睡美人”论文的沉睡深度越大，被唤醒的可能性就越小。WR领域的“睡美人”文献睡眠时长小于ISLS领域，与李秀霞[13]等的研究结果不同，本研究表明学科领域不同，其“睡美人”文献特征也具有差异性。

在“睡美人”众多的唤醒因素中，不同的因素起着不同程度的唤醒作用，即使同一影响因素，在不同学科领域所起的影响权重也不同。相比于ISLS领域，WR领域的“睡美人”被唤醒时所受期刊权威性的影响大于ISLS领域的“睡美人”，期刊影响力对不同学科领域“睡美人”文献的唤醒起着不同程度的牵引作用;另外，作者学术影响力不足也是论文成为“睡美人”文献的原因之一。在全部“睡美人”文献作者中，第一类作者占全部作者的38.1%，第二类作者占61.9%，表明第二类作者比第一类作者发表的论文更有可能成为“睡美人”文献。

参考文献：

[1] 袁红，杭培培.不同学科领域“睡美人”论文的比较分析[J].情报资料工作，2016（2）：34-38.

[2] Stent G S.Prematurity and uniqueness in scientific discovery[J].Workshop on Mechanisms & Prospects of Genetic Exchange Berlin December to，1972，227（6）：433-449.

[3] Barber B.Resistance by scientists to scientific discovery[J].Science，1961，134（3479）：596-602.

[4] Raan A F J V.Sleeping Beauties in science[J].Scientometrics，2004，59（3）：467-472.

[5] Li J，Ye F Y.The phenomenon of all-elements-sleeping-beauties in scientific literature[J].Scientometrics，2012，92（3）：795-799.

[6] Guidelines JASIST.Author.《Appropriate use of language and sensitivity to sociocultural norms》[EB/OL].[2019-04-15].https：//onlinelibrary.wiley.com/page/journal/23301643/homepage/ForAuthors.html.

[7] Sugimoto C R M.A note of concern and context： on careful use of terminologies.[J].Journal of the Association for Information Science and Technology，2018，69（3）：347-348.

[8] Ohba N，Nakao K.Sleeping beauties in ophthalmology[J].Scientometrics，2012，93（2）：253-264.

[9] Ho Y，Hartley J.Sleeping beauties in psychology[J].Scientometrics，2017，110（1）：301-305.

[10] Dey R，Roy A，Chakraborty T，et al.Sleeping beauties in Computer Science：characterization and early identification[J].Scientometrics，2017，113（3）：1645-1663.

[11] Gl？覿nzel W，Schlemmer B，Thijs B.Better late than never？On the chance to become highly cited only beyond the standard bibliometric time horizon[J].Scientometrics，2003，58（3）：571-586.

[12] 姚建文，赵庆华，吴丽萍.图书情报论文的睡美人现象考察[J].大学图书馆学报，2014（3）：64-68.

[13] 李秀霞，邵作运，刘超.基于K值算法的图书情报领域“睡美人”文献识别[J].图书情报工作，2017，61（21）：114-122.

[14] Costas R，Leeuwen T N V，Raan A F J V.Is scientific literature subject to a ‘Sell-By-Date？A general methodology to analyze the ‘durability of scientific documents[J].Journal of the American Society for Information Science & Technology，2010，61（2）：329-339.

[15] Ke Q，Ferrara E，Radicchi F，et al.Defining and identifying Sleeping Beauties in science[J].Proceedings of the National Academy of Sciences of the United States of America，2015，112（24）：7426.

[16] Peruzzo F.sleeping beauties and the citation dynanmics in the network of scientific papers[R/OL].[2019-05-20].http：//tesi.cab.unipd.it/50039/1/Peruzzo_Fabio.pdf.

[17] 杜建，武夷山.一個用于识别睡美人文献的新的无参数指标——基于“Science”和“Nature”上睡美人文献的验证[J].情报理论与实践，2017（2）：19-25.

[18] Teixeira A A C，Vieira P C，Abreu A P.Sleeping Beauties and their princes in innovation studies[J].Scientometrics，2017，110（2）：541-580.

[19] Aversa E S.Citation patterns of highly cited papers and their relationship to literature aging： A study of the working literature.Scientometrics，7 （3-6）： 383-389[J].Scientometrics，1985，7（3-6）：383-389.

[20] Baumgartner S E，Leydesdorff L.Group-based trajectory modeling（GBTM）of citations in scholarly literature：Dynamic qualities of“transient”and“sticky knowledge claims”[J].Journal of the Association for Information Science & Technology，2013，65（4）：797-811.

[21] 王海燕，马峥，潘云涛，等.高被引论文与“睡美人”论文引用曲线及影响因素研究[J].图书情报工作，2015（16）：83-89.

[22] 李江，姜明利，李玥婷.引文曲线的分析框架研究——以诺贝尔奖得主的引文曲线为例[J].中国图书馆学报，2014（2）：41-49.

[23] 杜建，武夷山.睡美人与王子文献的识别方法研究[J].图书情报工作，2015，59（19）：84-92.

[24] Hirsch J E.An index to quantify an individual's scientific research output.[J].Proceedings of the National Academy of Sciences of the United States of America，2005，102（46）：16569-16572.

[25] 李江.科学中的“睡美人”与“昙花一现”现象评述[J].大学图书馆学报，2016（3）：38-43.

作者简介：赵又霖，女，河海大学商学院讲师，南京大学信息管理学院博士后;刘黎明，河海大学商学院硕士研究生;葛梦真，河海大学商学院硕士研究生;陆颖隽，男，武汉大学信息管理学院副教授。