循证视角下文献证据检索的饱和度与冗余度研究：实证检验*

2021-04-19赵悦言魏志鹏周文杰杨克虎

图书与情报 2021年6期

赵悦言魏志鹏周文杰，3 杨克虎

（1.西北师范大学商学院甘肃兰州 730070）

（2.兰州大学基础医学院循证医学中心甘肃兰州 730000）

（3.兰州大学循证社会科学研究中心甘肃兰州 730000）

早在1955 年，美国学者Perry 和Kent 最先提出查全率和查准率的概念后，这两个指标就一直被作为对信息检索质量进行评价的重要指标。其中，查全率用来衡量在检索中检出相关文献的能力，而查准率则用来衡量特定检索结果拒绝不相关文献的能力。Cooper 等将查全率定义为，通过搜索从数据库中检索到的相关记录的敏感性比例（即检索到的相关记录数除以相关记录的总数）；Bayliss 等在以公共卫生主题方面进行系统评价时，认为尽可能全面的搜索代表着更高质量的检索信息。在循证研究中，为展开高质量的系统评价（systematic review），研究者首先需要对文献证据加以尽可能全面的检索，以尽量减少各种偏倚的影响，同时尽量将搜索结果中的无关文献排除出去。只有进行全面的检索，才能最大程度控制检索带来的偏倚，研究证据融合的结果整合（research synthesis）与转化才更令人信服。如果检索质量很差，且存在发表偏倚等情况，那么系统评价的结果有可能会误导错误结论。正因为如此，循证研究中的文献证据检索特别强调查全率。很多情况下，研究者甚至通过牺牲查准率以保障检索的全面性。

文献检索是一个不断迭代和探索的过程。检索者需要权衡不同检索方式的效率，并评估它们对检索的查全率和查准率的实质性影响。调查文献发现，在检索领域，至今没有发展出科学、客观的标准来判断特定文献证据检索是否已经全面以便决定何时可以停止检索。虽然Chilcott 等曾提出，当在数据库中添加一系列新检索词或改变检索方式时不会产生新的相关文献记录，就应该停止检索，但文献检索领域的研究者和实践者几乎没有对Chilcott 的设想进行过正式的评估。目前，一些统计技术应用提高了将Chilcott的想法转变为实际检索质量评价的可能性，如重新捕捉技术和相对查全技术，这些技术通过进行多次检索来对检索质量做出判断。Booth认为，文献检索的饱和状态是指在检索过程中能够检索到可用的大多数研究。检索的饱和度是循证研究中系统评价全面获得稳定、全面的原始研究证据的基本保障。

在本专题的前一篇论文中，已基于文献检索领域的相关研究，提出了饱和度和冗余度的概念，即饱和度是指检索中不再有新文献被纳入的状况，而冗余度是指检索过程中检索到不相关文献的情况。本研究旨在以全球最大的中文文献数据库CNKI 为研究样本，构建穷尽检索下的文献饱和数据集，并就不同检索方式对文献证据的检索质量做出评估。本文为这一总体研究的第二部分，即以饱和度和冗余度为检索质量评价指标展开实证检验。

1 数据集整体特征

为考察循证社会科学领域文献检索的质量，本研究以“社会认识论”为检索词，对CNKI 数据库中所收录的学术文献进行多种途径检索后，再改变检索方式进行文献数据补充，直至不再有新的文献被纳入时，即达到了穷尽检索的饱和状态，构成本研究所需要的文献数据集。之所以选择以“社会认识论”为检索词，是因为这一术语具有明显的社会科学特征，且具有清晰的理论界定和研究边界。本文认为，基于对“社会认识论”的检索而构建的数据集对社会科学领域的文献信息检索具有一定的代表性。

为了对检索质量作出评价，在研究过程中，基于专家判断，对总文献数据集中1856 篇文献与检索主题的相关程度进行了权衡。最终判定，总文献数据集中高度相关文献占6%，中度相关文献占14%，低度相关文献占80%。

总文献数据集中，围绕“社会认识论”检索获得的文献分布在五个学科领域（见图1）。其中，分布领域最广的是“哲学”“图书情报”“数字图书馆”次之，“马克思主义”和“中国政治与国际政治”紧随其后，剩下的三分之一文献分布于社会科学领域的其他方面，如管理学、心理学、教育学等。

图1 文献数据集的学科领域分布

2 文献证据检索的饱和度评价

2.1 单项元数据检索的饱和度评价

2.1.1 纯净饱和度

所谓“纯净饱和度”，是指特定检索的结果涵盖整体数据集中高相关文献的程度。这一指标反映了特定检索途径是否能够准确定位高度相关研究证据的能力。对于单项检索而言，饱和度的计算方法是：逐次对照主题、题名、关键词、摘要、全文为检索项时与总数据集中的高相关文献的重合率，据此对各单项检索的“纯净饱和度”进行排序（结果见表1）。

表1 单项元数据检索的饱和度评价

由单项元数据检索的饱和度评价表可见，就纯净饱和度这一指标而言，当检索项为全文时，检索结果数据量大，检索出来的文献纯净饱和度达77.67%，在单项检索的纯净饱和度中最高。与之相反的是，单项检索项为题名时，检索到的文献数据少，纯净饱和度在单项检索方式中最低的（仅29.13%）。单项检索项为关键词和摘要时，两者的纯净饱和度非常接近。虽然检索项为摘要时的纯净饱和度略高于关键词单项检索，但这种细微的差别并不一定具有实质性意义，因为检索范围的不同等诸多因素都可能导致这种差异。以主题展开单项检索时，文献检索结果数量适中，检索出来的文献纯净饱和度也处于较高水平。显然，在时间和资源有限的情况下，主题检索更能够达到高效率准确定位高度相关文献证据的效果。

2.1.2 一般饱和度

所谓“一般饱和度”，是指特定检索结果涵盖整体数据集中中度及中度以上相关文献（即中度相关文献+高度相关文献）的程度。这一指标反映了特定检索途径是否能够准确定位中度以上相关文献证据的能力。其计算方法是：逐次对照主题、题名、关键词、摘要、全文为检索项时与总数据集中的中度及中度以上相关文献的重合度，据此对各单项检索的“一般饱和度”做出排序（见表1）。

从表1 中一般饱和度指标来看，依旧是基于全文的检索一般饱和度最高。主题、摘要、关键词等单项检索方式次之，篇名最低。显然，搜索范围越广，搜索数量越多，相应的一般饱和度则会越高。

整体而言，纯净饱和度和一般饱和度这两个指标都与文献数量正相关。其中，检索项为全文时的两种饱和度均远远高于其他检索方式，主题、摘要、关键词等单项检索方式次之，篇名最低。需要注意的是，全文检索时饱和度虽然高，但其检索范围广，检索结果数量庞大，因此其检索效率并非最优。相对而言，主题检索的文献量适中，饱和度指标也相对较高。

2.2 匹配元数据检索的饱和度评价

本研究的目标是，使用不同的逻辑运算符（or 或and）连接各检索项，模拟研究人员在文献证据检索中可能遇到的所有组合检索方式，以便对不同组合检索的“纯净饱和度”和“一般饱和度”进行评价。具体做法是：逐次对照主题、题名、关键词、摘要和全文等检索项的各种组合与总数据集中的高相关文献的重合度以及总数据集中的中度及中度以上相关文献的重合度，据此对各分项检索的“纯净饱和度”和“一般饱和度”做出排序。

2.2.1 使用and 匹配元数据时的检索饱和度评价

本文首先使用逻辑运算符and 连接主题、题名、关键词、摘要和全文等检索项，形成组合项检索并进行分析，得出了各组合项的纯净饱和度和一般饱和度结果（见表2）。

表2 通过and 组合的检索项饱和度评价

总体来看，组合检索采用的都是and 求并集，因此检索范围比较聚焦，且组合项数量越多，检索范围越小，被检出相关文献量越少。由于穷尽检索状态的文献数量（总文献中所有相关文献量）保持不变, 从而通过and 组合检索出来的文献饱和度相对于单项检索就有所降低。具体情况如下：

（1）就二项组合的饱和度指标而言，“主题and全文”这一组合项的纯净饱和度和一般饱和度在所有and 组合项中均最高，“摘要and 全文”组合检索的饱和度次之。其中，二项组合检索中只要包含题名这一检索项时，纯净饱和度和一般饱和度都非常低，尤其是“题名and 摘要”组合检索时各项饱和度指标都处于最低。因此，如果要提高文献证据检索的饱和度，在使用二项组合检索时，应尽量避免加入题名项进行检索，而应优先选择“主题and 全文”这一组合。

（2）从三项组合的饱和度指标来看，“主题and 关键词and 全文”这一组合项的纯净饱和度和一般饱和度在三项and 组合中最高，而“题名and 关键词and 摘要”的饱和度指标最低。

（3）从四项组合的饱和度指标来看，“主题and 关键词and 摘要and 全文”这一组合项的饱和度指标最高，而其他包含题名的组合项检索到的文献数量都较少，饱和度从而也比较低。

（4）从四项组合的饱和度指标来看，用and 求五项组合的并集以后，查到的文献量仅仅只有23 篇，虽然查准率达到了100%，但饱和度却最低。

综上所述，当使用and 连接检索项进行组合检索时，要提高其饱和度，需要选择尽量少的检索项（其中两项为最佳），“主题and 全文” 这一组合检索在饱和度指标上表现最好。同时，如果仅仅从饱和度的角度看，组合检索中应该避免使用题名为检索项进行and 组合检索。

2.2.2 使用or 匹配元数据检索时的饱和度评价

本文进面使用逻辑运算符or 连接主题、题名、关键词、摘要和全文等检索项，形成组合项检索并进行分析，得出了各组合项的纯净饱和度和一般饱和度结果（见表3），具体分析如下：

表3 or 项组合项饱和度检索效率

使用具有扩检意义的逻辑符“或（or）”时，由于放宽了检索条件，因此检索范围更广，从而产生了与使用and 进行组合时正好相反的效果。即，组合项越多，检索范围越大，被检出相关文献量越多，在穷尽检索状态的文献数量保持不变的前提下，or 组合检索所得到的文献饱和度也就越高。

（1）就二项组合的饱和度指标而言，“主题or 全文”这一组合检索无论是纯净饱和度还是一般饱和度都是最高的，“摘要or 全文”“关键词or 全文”“题名or全文”次之，饱和度指标最低的是“题名or 关键词”。由于排在前三位的检索项均包含了全文检索，因此，如果仅仅从文献的饱和度指标的角度看，在使用二项组合的交集检索时，加入全文检索项有助于提高饱和度，其中，“主题or 全文”的检索效果相对更好。

（2）三项组合的饱和度指标来看，“主题or 关键词or 全文”“主题or 摘要or 全文”“主题or 题名or 全文”这三个组合检索项的饱和度最高。其余组合检索项饱和度相差不大，但“主题or 关键词or 摘要”“主题or 题名or 摘要”“题名or 关键词or 摘要”“主题or 题名or 关键词” 这四个组合检索项中由于不包含全文这一检索项，因此在饱和度指标上表现偏低。

（3）从四项组合的饱和度指标来看，含有全文和主题检索项的组合项在饱和度指标上表现最好，而组合项为“主题or 题名or 关键词or 摘要”的饱和度最低。

（4）从五项组合的饱和度指标来看，由于组合项为最多，达到了最大的检索范围，同时也达到了最高的饱和度。

综上所述，当使用or 进行交集式组合检索时，要提高饱和度，就需要选择尽量多的检索项进行组合效果较好。同时，使用组合式中包含全文检索项时，饱和度指标的表现较好，主题次之，题名最差。

3 文献证据检索的冗余度评价

本研究中所提出的检索“冗余度”，是指通过特定检索途径获得的文献在整体文献数据集低相关文献中所占的比重。本文将冗余度的评价分为单项检索的冗余度评价和组合检索的冗余度评价。具体做法是：先逐次对照主题、题名、关键词、摘要、全文各单项为检索项时与总数据集中的低相关文献的重合度，得出单项检索的冗余度指标。然后，对照主题、题名、关键词、摘要和全文的各种组合为检索项时与总数据集中的低度相关文献的重合，得出各种组合检索的冗余度指标。

3.1 单项元数据检索的冗余度评价

从单项检索的冗余度（见表4）来看，冗余度和检索出来的文献数量呈正相关。即，搜索范围越广，搜索获得的文献数量越多，则冗余度也会越高。当检索方式为全文时，文献检索的冗余度最高且远远超出其他检索方式。摘要、主题、关键词等单项检索方式次之，篇名的冗余度为零。

表4 单项元数据检索的冗余度评价

分析表4 可知，全文作为检索荐时由于检索范围广，检索所获得的文献数量大，这样就会把一些不相关的文献（噪声）带进来，从而大大提高了检索冗余度。篇名的冗余度最低，但仅能检索到高度相关文献，从一定程度上牺牲了查全率。据此可见，在检索人员根据不同的检索目的展开实际的文献证据检索时，需要对查全率和查准率加以权衡，要意识到强调一方面的需求则必须以降低另一方面的要求为代价。

3.2 匹配元数据检索的冗余度评价

与饱和度检验的逻辑相类似，本文使用不同的逻辑运算符（or 或and）对检索项加以组合，模拟在检索中可能遇到的所有组合检索方式，进而对不同组合检索的冗余度进行评价。

3.2.1 使用逻辑运算符and 时的检索冗余度评价

and 是一种用于交叉概念或限定关系的组配，可以缩小检索范围，提高检索的专指性，因此用and 连接各检索项时冗余度都较低。

就二项组合的冗余度结果而言（见表5），“摘要and 全文”为检索项时冗余度相比较而言最高，“主题and 关键词”“主题and 全文”“关键词and 全文”等检索项次之，其余组合的冗余度都为零。从三项组合的冗余指标来看，“主题and 关键词and 全文” 冗余度最高，但也仅有0.47%；“主题and 关键词and 摘要”“主题and 摘要and 全文”次之，剩下的检索项冗余度都为零。从四项和五项组合的各项冗余指标来看，使用and 不断地缩小检索范围，导致除了检索项“主题and 关键词and 摘要and 全文”的冗余度为0.07%，剩下的检索项冗余度都为零。

综上所述，当使用and 连接检索项进行组合检索时，连接的检索项的个数越多，冗余度就会越小，直至达到零。

3.2.2 使用逻辑运算符or 进行匹配时的检索冗余度评价

当选择具有扩检意义的逻辑符“或（or）”，被检出相关文献量增大，而穷尽检索状态的文献量保持不变，从而使饱和度的值增大，这样的结果就是会把一些不相关的文献（噪声）带进来，导致被检出相关文献中不相关文献量值增大，从而提高冗余度（见表5）。

表5 匹配元数据检索的冗余度评价

（1）就二项组合的冗余度指标而言，“主题or 全文”的冗余度最高（91.91%），“摘要or 全文”“关键词or 全文”“题名or 全文”次之。“主题or 摘要”“关键词or 摘要”“主题or 关键词”等检索项冗余度依次递减，基于“题名or 关键词”为检索项的冗余度最低。

（2）三项组合的冗余度结果来看，凡是三项组合检索项中包含全文，冗余度都大大上升。“主题or 关键词or 摘要”“主题or 题名or 摘要”这两组合项冗余度十分接近（2.76%和2.79%），基于“主题or 题名or 关键词”的检索项冗余度最低。

（3）从四项、五项组合得到的结果来看，除“主题or 题名or 关键词or 摘要”的冗余度为2.76%，剩余的所有组合检索项的冗余度都高于85%。

综上所述，当使用or 连接检索项进行组合检索的冗余度评价时，只要检索项中含全文，都会使检索范围变大，大大提高冗余度；另外在检索中加入主题和摘要进行组合检索时，得到的冗余度是除全文检索外最高的，而在组合检索中加入题名和关键词两项时，得到的冗余度最低。

总之，应用组合项进行检索时，当选择具有缩检意义的逻辑符“与（and）”进行检索时，“摘要and 全文”在组合项中冗余度最高（1.35%），“主题and 全文”次之（1.08%），剩下的组合项冗余度都低于百分之一或等于零。并且当使用and 连接的检索项的个数越多，冗余度就会趋向于0。当使用具有扩检意义的or连接检索项时，只要检索项中含全文，得到的冗余度都会非常高；要想降低冗余度，应尽量避免使用or连接全文这一检索项，可以加入特定的检索项进行组合检索来降低冗余度，其中“主题or 摘要”和“题名or 关键词”这两项组合检索可以有效的降低冗余度。

4 讨论

4.1 饱和度与冗余度协同评价的必要性

如果放宽检索条件以求得到较好饱和度时，冗余度也必然会上升；相反，当缩小检索范围以降低冗余度时，饱和度又必然不理想。在追求高度饱和度的同时，冗余度也会大大提升，耗费大量时间和精力，导致检索的准确性下降；当追求低冗余度时，可能会遗漏相关内容，降低检索的饱和度，导致检索不全面。因此，需要将饱和度和冗余度进行协同评价，在追求尽可能高的饱和度的同时，尽量选择不那么高的冗余度，达到检索全面性和相关性的最优均衡。这样的检索可以为meta 分析、系统评价提供更加扎实的基础，得到质量更高的证据并且避免发生偏倚。

4.2 基于饱和度与冗余度的证据检索质量评价标准的建立

在进行单项检索时，以主题这种方式进行检索时，文献检索范围适中，检索出来的文献纯净饱和度和一般饱和度都处于较好水平，冗余度也不是很高，总体处于查“全”的最优状态。在时间和资源有限的情况下，基于主题的检索效率较高，饱和度比较合理。

在进行组合项检索时，当使用具有缩检意义的逻辑与（and）时，需要选择尽量少的检索项，其中以两项为最优。同时，应优先选择饱和度指标表现最好且冗余度指标也不是很高的“主题and 全文”这一组合检索项；其次，可以选择“主题and 关键词”这一组合项，同时避免使用题名为检索项进行组合检索。其原因是，使用题名进行检索会使检索范围明显聚焦，当再使用and 求并集时，检索到的文献会迅速减少，大大降低饱和度。当使用具有扩检意义的逻辑或（or）时，当检索项越多且包含全文检索时，会将检索范围最大程度扩大，在达到饱和度最高的同时，却导致冗余度异常的高。从饱和度和冗余度协同评价的角度来看，选择“主题or 题名or 关键词or 摘要”组合检索最优。

从饱和度与冗余度协同评价检索效率来看，以上三项检索效率相对较高。其中，组合“主题or 题名or 关键词or 摘要”检索效率最高，单项检索中主题检索次之，组合检索中“主题and 全文”检索效率相对较低。

5 结论

本研究以传统的查全率和查准率指标为基础，提出了饱和度和冗余度这一对评价指标，并以CNKI为研究样本，就不同检索方式在文献证据检索的科学性方面的实际状况作出了评估。研究发现:

（1）饱和度和冗余度这一指标都与检索出来的文献数量呈正相关。

（2）单项检索时，全文的饱和度和冗余度都是最高；以篇名检索时，饱和度和冗余度都是最低的；主题检索效率最高。

（3）组合项效率时，使用检索项or 比使用and 检索在提高检索结果的饱和度的同时也导致了更高的冗余度。当使用and 连接组合项时，检索项“主题and全文”饱和度最高；使用and 以篇名连接组合项时，饱和度和冗余度都最低；选择“主题and 关键词”这一组合项最有效率。当使用or 连接组合项时，只要组合检索项中含全文或主题，饱和度和冗余度都是最高；“题名or 关键词”饱和度和冗余度最低；“主题or 题名or 关键词or 摘要”检索效率最高。

本研究旨在从饱和度和冗余度协同的角度，对文献证据检索质量评价提供启示。最优化的检索策略，无疑可以为meta 分析、系统评价提供更加扎实的基础。显然，只有原始研究的证据得到了全面检索，基于此才能最大程度控制循证研究中基础数据的偏差，从而得到质量更高的文献证据。目前，本文所探索的饱和度和冗余度在不同检索项目上的差别，为后续展开基于信度和敏感度进一步评价提供了前提。

图书与情报

2021年6期