文献证据检索的信度研究：基于循证视角*

2021-04-19卢洁妤魏志鹏周文杰杨克虎

图书与情报 2021年6期

卢洁妤魏志鹏周文杰，3 杨克虎

（1.西北师范大学商学院甘肃兰州 730070）

（2.兰州大学基础医学院循证医学中心甘肃兰州 730000）

（3.兰州大学循证社会科学研究中心甘肃兰州 730000）

获得稳定、可靠的原始研究证据，是基于元分析而有效整合研究结果的基础，也是展开系统评价和证据转化的关键。从测量的角度看，信度是衡量指标可靠性和一致性的基本工具。对于文献证据的检索而言，信度可用于衡量检索的稳定性、可靠性和一致性。

将文献证据检索进行信度评估，对保障系统评价和元分析的质量具有极其重要的理论与实践意义。这是因为只有文献检索获得可靠的原始证据，系统评价和元分析才能据此产出更高质量的证据整合产品。同时，只有文献检索获得稳定一致的原始证据，系统评价和元分析所获得的证据整合结果才能保证其可信度。基于这一科学问题，本文以中文文献最大数据库CNKI 为对象，通过对社会科学领域特定的研究议题相关原始学术文献的系统性检索与分析，着眼于信度评价的基本理念和指标，对不同途径的文献证据检索质量做出检索效率评价，以期为循证社会科学领域的循证研究质量评价提供理论支撑。

1 研究回顾与理论基础

1.1 相关研究回顾

1.1.1 文献检索质量评价系统评价（systematic review）是对一组特定的文献综述特性加以有效整合的研究，通常用来综合文献证据。文献检索是系统评价活动的基础工作，也涵盖了系统评价的大部分工作环节，且检索的目标是搜集到所有与研究主题相关的文章。研究者所检索到的文献证据旨在帮助研究者产生关于证据的中立陈述，尽量避免偏倚。因此，对文献证据的信度加以研究，以确定应该如何应对处理不同检索方式之间的差异，从而增加文献检索的透明度，就需要在检索过程中针对不同检索方式，对所检索到文献内含证据的质量及其可靠性进行评价。

查全率和查准率是评价文献检索质量的两种主要传统指标。查全率（recall ratio）是指检索到的相关文献在所有应该检索到的文件集合中的比率。但是，由于“所有文献”事实上常常不可得，因此，查全率的分母无法预知，这往往只是一个虚构的值；查准率（precision ratio）是指所检索到的文献中，被判断为相关文献的比值。查准率衡量了文献检索达到饱和时，查找到相关文献的概率。查准率和查全率呈现了反比关系。如当研究者查找到集合中所有的文献时，这也意味着其中就有大量的不相关文献，提高了查全率但降低查准率。相反，当文献检索变的精确时，就会丢失大量的不相关文献，降低了查全率。

Mann提出研究者需要追求更加精确的检索结果，因为研究者期望浏览较少的文献，在判断相关度过程中也能减少工作量。然而，系统评价的特点就是要追求较高的“查全率”，因为本文研究没有办法确定，所定位的检索主题是否可以代表现有的全部研究。最好的解决办法就是尽可能全面的去检索，避免漏掉规范检索之外的重要文章，确保习惯性的检索渠道不会使结果产生偏倚。因此，本文所使用数据集，延续了前序关于饱和度展开的研究，使用滚雪球、检索方式迭代等多种方法，尽可能穷尽检索与研究主题“社会认识论”相关的文献。

1.2.2 元分析的异质性

纳入元分析的研究可能在多方面存在差异，如人群、干预措施的变化、评估结果的量表选择等。进行元分析的第一步就是确定效应量在所研究的样本中的变化，如果效应量在所有研究中的变化一致，则关注其平均值，相反如果效应量在不同的研究中存在实质性的变化，就会产生异质性。

当系统评价中所包含的研究数量较少时，会导致异质性的统计数据（如方差、标准差、预测区间、I）不可靠。异质性的问题也会因研究领域的不同而不同，如Cooper 描述当采用同一种方法研究同一人群时，评估的是具有一致效果的干预措施的影响，这种情况下异质性就会很小。相反，当研究采用不同方法、不同人群、评估不同的干预影响，研究中的异质性就会增强。元分析的意义就是要将结论推广到更大的领域，但是如果研究样本较少，所有的异质性统计数据就会不可靠，尤其是预测区间，那么结论在更宽泛的领域中就会不适用。因此，需要仔细思考结论在未来需要推广的领域，考虑本文研究中的样本数可以在多大程度上代表此结论。

如果在元分析中没有检验出异质性的问题，可能会导致将明显不同的人群、结果、环境和时间归为一类。但是Gene Glass 认为，如果出现这样的情况，可以概括出他们更高一层的共有特征，这样就可以概括出不同人群、环境等出现的同一结论。因此在这种情况下，可以适当忽略他们的单一特征，寻找共同的平均效应量，从而解释本文研究可以观察到的方差及效应量。另外，Deeks 等提出一种解决异质性的方法：“exclude studies”，一般来说将某些研究排除在外会导致偏倚，但作者认为可以排除一些与本文研究主题不太相关的研究，前提是要解释清楚这些不相关的原因，并且排除之后不会干扰研究目标。后续需要主要针对数据集中高度相关文献和中度相关文献做出信度分析，以减少异质性。

1.1.3 系统评价中的偏倚

系统评价的目的是通过综合几个研究结果，总结有关具体问题的最佳研究。在系统评价的过程中，始终使用透明公开的程序来发现、评价、得出结论，以尽量避免偏倚。但文献检索阶段，大部分有显著结果的研究会比没有显著结果的研究更容易发表，就更容易被纳入系统评价数据，此时会出现数据丢失的情况，那些未发表的研究有可能会高估或低估措施干预的真实效果，导致综合结果的偏倚，这种偏倚通常成为“发表偏倚”（publication bias）。

在文献检索时，本文无法在数据库中找到所有相关的研究，并且偏倚还会随着研究问题特征的变化而变化。大部分书目或数据库只涵盖已经出版的文献，Chalmers 和Frank强调，当本研究在文章中仅纳入并且统计了已发表的文章，为了抵消其中的潜在偏倚，应该特别注明在评价过程中纳入的未发表文章的影响。 Sterne 等认为发表偏倚的存在可能导致一部分研究无法在同行评审（peer-reviewed）的期刊上发表，并且已发表的研究也会有很大一部分不会被书目数据库索引。涉及定量研究的系统评价在文献检索时应调整检索策略，尽量减少发表偏倚的影响。涉及定性数据时，Booth认为可以用不太详尽的方法，但应审查资源范围内的数据，确保检索到足够种类的信息。因此必须仔细考虑获取文献的多种渠道，以及本研究所选择的渠道之间如何相互补充。

1.2 信度的类型与评估

信度（Reliability）即可靠性，它是指采用同样的方法对同一对象重复测量时所得结果的一致性程度。信度越高，多次测量的结果之间反映的一致性就越大。信度指标多以相关系数表示，大致可分为三类：稳定系数（跨时间的一致性），等值系数（跨形式的一致性）和内在一致性系数（跨项目的一致性）。信度分析的方法主要有以下四种：重测信度法、复本信度法、折半信度法、α 信度系数法。本文主要通过复本信度和重测信度来检验文献检索所获证据的可靠性与稳定性。

1.2.1 复本信度

复本信度（Parallel-forms Reliability）又称为等值性系数，是等值性信度（Equivalence Reliability）的一种，指问卷调查的结果与另一种非常相似的问卷调查结果的变异程度。针对同一组测试对象，运用两份内容相同但题目不同的问卷进行测试，两次结果的相关性程度则为复本信度。相关程度越高，复本信度越高，两次结果的一致性越强。

复本信度的困难在于要编制两份等同的量表，在实践应用中会受到一定程度的限制。两份等同量表要包含相同的数目、类型、难度。比起重测信度来，复本信度避免了记忆效应和练习效应，比较适合做长期追踪调查或有难度的测试。但复本信度也存在一定的局限，如有些测验或量表很难找到等同且合适的复本，其次测验的性质会由于重复而发生改变。因此，在利用复本信度做可靠性检查时，一方面要注意两份内容测验的时间间隔，另一方面，注意分析中出现的负相关，并对这种情况得到的可靠性提出质疑。

1.2.2 重测信度

重测信度（test-retest reliability）又称为再测信度、稳定性系数，是针对同一组测试人员，利用相同内容的问卷在不同的时间点先后测试两次，两次结果之间的差异程度。重测信度是由时间变化所带来的随机误差产生的，反映测验跨时间的稳定性和一致性。

根据所测定特质数据的表现方式，重测信度可采用积矩相关系数、等级相关系数和列联系数来表示。从相关系数的大小可以判断，测量结果在经过一段时间后的稳定程度。相关系数越大，测量结果更加一致可靠，重测信度越高，测验环境的随机因素带来的影响也就越小。

重测信度适用于异质性调查，尤其是在几部分内容之间不存在相关性或相关性较低时。但由于存在记忆效应，重测的时间间隔不宜过长，并且需要充分考虑重测过程中不同的环境条件带来的测量结果的误差。

2 文献证据检索的信度研究设计

本研究由两个相互独立但互为支撑的子研究构成，充分考虑了文献检索的查全率和查准率，以及检索过程中所带来的异质性，根据信度的理念和指标，以中文文献最大的数据库——CNKI 为对象，延续“社会认识论”为主题的文献检索以及饱和度研究结论，对不同途径的文献检索质量做出评价。

首先构建数据集，将总数据集中的高相关文献与中相关文献按年份分为十组，再应用主题、篇名、关键词、摘要和全文的单项检索与组合检索的十年数据与总数据进行匹配，计算高相关组的匹配比例与中相关组匹配比例。数据指标用检索结果与总数据集的匹配比例来评估，公式如下：

（1）式中，X 表示检索结果与总数据集的匹配篇数，Y 表示总数据集中高相关（或中相关）的文献总数，i 表述不同检索项（如主题单项检索，或主题和篇名的组合检索等），t 表示年份，计算了研究在2010-2019 年发表的十年数据。

2.1 复本信度

复本信度旨在检验通过不同途径的检索方式，检验结果的一致性。应用主题、篇名、关键词、摘要和全文为检索项，判断不同途径的单项检索或组合检索项之间的相似程度，对其查全率和查准率做出评价。计算皮尔逊相关系数（Pearson correlation coefficient），构建检索项之间的相关系数矩阵，公式如下：

（2）式中，皮尔逊相关系数ρ的取值范围在[-1,1]之间，系数值越大，不同途径检索方式的相似程度越高，检索项的可靠性就越强。基于评价结果，再提出一个复本信度的排序，判断检索项的信度高低。

2.2 重测信度

根据上述复本信度排序最高的项目，对每年的数据进行重测，计算每下一年度与上一年度匹配比例的差值。再依据十年的比例差值数据，计算不同检索项的方差和标准差，以评价其十年匹配比例的稳定性与一致性。公式如下：

2.3 检索策略

在CNKI 数据库中，以“社会认识论”为搜索词，应用主题、篇名、关键词、摘要和全文五种检索方式，单项检索后再使用运算符（AND，OR）进行组合检索，分为二项、三项、四项、五项组合检索。

OR 运算符查找一个或多个搜索项的记录，使用OR 会使搜索记录变多，适用于积累相同概念的搜索词。如“主题”和“篇名”选项用OR 连接，则会搜索到“主题”为社会认识论或者“篇名”为社会认识论的文献，是将两个小集合组合在一起，聚集成一个大的集合。AND 运算符包含所有条件的结果，使搜索范围更加集中，如“主题and 篇名”表示搜索结果必须同时满足主题和篇名均为“社会认识论”，AND 组合的结果往往要比单项记录数量少。

在这两种运算符条件下，OR 范围更广，AND 查找更精准，本文将对两种情况都做出分析，以此来分析不同检索情况下查全率与查准率的不同结果。

3 文献证据检索的信度研究结果

3.1 单项检索的信度检验

3.1.1 单项检索与高相关集信度检验

单项检索本文选择了五种方式：主题、篇名、关键词、摘要、全文。将每一项检索结果分别从CNKI数据库中导出，与高相关数据集进行比对，计算其不同检索方式的相关系数矩阵及匹配差异的离散程度（见表1）。

根据表1 可以看出，除全文检索与其他方式不存在相关性，其他四项之间都存在显著的相关性，具体表现如下：

表1 单项检索与高相关的相关系数矩阵及匹配差异

（1）在0.01 的显著性水平下，主题检索与篇名检索的相关系数最大，达到0.876，说明主题与篇名的检索结果相似程度最高，可相互替代。再看重测信度，主题检索的方差处于五项之中最高，而篇名检索的方差最低，说明以篇名检索的十年数据是最稳定可靠的。因此单项检索到高相关文献时，可以优先选择篇名检索。

（2）关键词检索的可替代性最强，因为关键词检索同时与主题、篇名、摘要的相关系数都达到了0.8以上，且在0.01 水平上显著。但基于重测信度结果来看，关键词检索的十年匹配比例之差的离散程度为35.3%，较其他结果处于中间状态，数据较为稳定，因此关键词检索结果比较可取。

（3）主题检索与篇名、关键词的相关系数均处于前列，且与摘要检索也在0.05 的显著水平上，达到0.646的相关度。因此主题检索与这三项的相似程度也比较高，可靠性强，但重测信度结果显示，主题检索的结果并不稳定，离散程度大。因此主题检索应谨慎选择。

（4）另外摘要检索的复本信度较高，与关键词、主题的一致性较强，但重测结果并不稳定，离散程度较大。全文检索与其他四种方式都不具有一致性，甚至出现负相关的情况，但是近十年匹配度的结果却较为稳定。

以上综合复本信度和重测信度结果，提出在进行单项检索时，优先选择篇名检索、关键词次之，主题检索可以排在两者之后。摘要和全文在检索高度相关的文献时并不可取，因为两者不能同时满足复本信度和重测信度的一致性与稳定性。

3.1.2 单项检索与中相关集信度检验

以篇名为检索方式总共检索到30 篇，皆为与“社会认识论”高度相关的文献，因此在中相关的相关性分析中，篇名的数据无效。从单项搜索与中相关数矩阵（见表2）可以看出，仅有主题检索与摘要检索的相关系数最高（0.73）且显著，说明检索中度相关的文献用主题检索和摘要检索的结果相似。再看重测信度结果，摘要检索离散程度9%，说明在近十年的匹配度中数据较为稳定。因此在检索中度相关文献时，“摘要”检索的结果最为可靠。

表2 单项检索与中相关集相关系数矩阵及匹配差异

3.2 组合检索的复本信度

3.2.1 二项组合检索复本信度

二项组合共有十种检索方式，构成一个10*10的矩阵（见表3）。表中显示的数据有很明显的差异，有不显著、显著的数据，还有出现系数为1 的情况和无效数据，具体分析如下：

表3 两项组合检索的相关系数矩阵

（1）二项组合检索与高相关集

使用AND 运算符的二项组合检索匹配高相关数据集时发现：

第一，“主题and 关键词”和“全文and 关键词”的组合检索均包含关键词为“社会认识论”的搜索结果，用AND 运算符，得到的结果全部为关键词检索结果，因此匹配比例、篇数等数值都相等，相关系数为1。 “主题and 篇名”和“篇名and 全文”同理。

第二，“主题and 摘要”和“关键词and 全文”，是唯一一对没有重复检索项，且在0.01 水平上，相关系数达到0.9 以上。说明这两种方式的相似程度很高。其他达到0.9 相关系数的检索方式，都是因为检索方式之间选择了重复项，且使用AND 运算符，会使结果范围更窄，更加相近。

第三，“篇名and 关键词”与“篇名and 全文”，“篇名and 关键词”与“主题and 篇名”这两项组合检索的相关系数最高，均达到了0.978 的一致性，说明“篇名and 关键词”二项组合的检索结果检索到高相关的可靠性最强。

使用OR 运算符的二项组合检索发现：“主题or摘要”的可替代性最强，与“主题or 关键词”“篇名or关键词”“篇名or 摘要”“关键词or 摘要”的相似度达到0.9 以上，并且在0.01 的水平下显著。因此在选择二项组合检索方式时，可优先选择“主题or 摘要”的组合来检索高度相关文献。其次，根据系数矩阵系数较高的检索式，还可以选择“关键词or 摘要”“篇名or 关键词”或“篇名or 摘要”。因此，使用OR 运算符检索高相关文献可靠性最强的是“主题or 摘要”。

（2）二项组合检索与中相关集

由于出现“篇名”单项检索的文献都与“社会认识论” 高度相关，再使用AND 运算符会更加缩小范围，因而不存在中度相关文献，出现无效数据。“主题and 摘要”和“关键词and 摘要”相关系数最高（0.837），因此这两种方式可以相互替代，可靠性较强。

使用OR 运算符组合检索时，“主题or 摘要”的可替代性也比较强，与“主题or 关键词”、“主题or 摘要”“篇名or 摘要”“关键词or 摘要” 的相关系数也比较高，因此可以选择“主题or 摘要”检索项代替其他。其次，“主题or 关键词”与“主题or 篇名”的相关系数为0.989，且在0.01 水平下显著，也是复本信度较高的一项。另外出现“全文”检索项的组合式之间有很高的相似度，均在0.9 以上，如“主题or 全文”“篇名or 全文”“关键词or 全文”和“摘要or 全文”。 or 扩大了检索结果，整合了两者的集合，使用“全文”搜索项会检索出最多的数据，且内容相近，结果相差不大。这里提出在使用全文搜索项时，选择“主题or 全文”的组合检索，因为这一组合同时与其它三项存在很高的相关性。

3.2.2 三项组合检索复本信度

（1）三项组合检索与高相关集。从三项组合检索的相关系数矩阵（见表4）可以直观地看出，当运用AND 运算符检索与高相关集的匹配度时，几乎所有检索项之间都存在相关性。最高的系数达到0.978，有两种情况，一种是“主题and 篇名and 关键词”与“主题and 篇名and 全文”的相似程度很高，另一种是“关键词and 摘要and 全文”与“主题and 关键词and 摘要”的相关系数也为0.978。说明在这两种情况下，使用and 检索高相关的文献复本信度较高，可以相互替代。

表4 三项组合检索的相关系数矩阵

使用or 检索时，与上述提到的二项检索出现了同样的情况：当存在“全文”检索项，数据结果呈现最大化，检索结果相似，匹配比例等数值相同。因此可以任意选择or 连接“全文”选项的检索式。另外在没有“全文”选项时，凡是出现“主题”项的检索式，也都存在显著的相关性。

（2）三项组合检索与中相关集。使用and 连接时，三项检索式较二项检索更加缩小了范围。只要出现“篇名”项，结果均与“社会认识论”高度相关。这也更加明确了本文检索中度相关文献的方式。“主题and 关键词and 摘要”与“主题and 摘要and全文”的结果具有相关性，同时“主题and 摘要and全文”又与“关键词and 摘要and 全文”具有相关性。因此在使用三项检索式检索中相关文献时，优先选择“主题and 摘要and 全文”。

使用or 连接时，同样是使用“全文”选项扩大了检索范围，结果更加一致。 “主题or 篇名or 关键词”和“篇名or 关键词or 摘要”两种方式都和“主题or篇名or 摘要”，“主题or 关键词or 摘要”具有很高的相似性，但前者相关系数更高为0.906，因此可以选择“主题or 篇名or 关键词”的检索方法，检索中相关文献可以更加方便。

3.2.3 四项组合检索复本信度

四项组合检索由于连接项更多，因此结果也更偏向一致（见表5）。 And 连接时相关系数最高的是“主题and 篇名and 摘要and 全文”和“主题and 篇名and 关键词and 摘要”，“篇名and 关键词and 摘要and 全文”和“主题and 篇名and 摘要and 全文”。 Or连接时可选择 “篇名and 关键词and 摘要and 全文”，可同时替代其他三种方式。

表5 四项组合检索的相关系数矩阵

中相关文献匹配只能使用or 的方法，因为都出现“篇名”选项，无法统计中度相关数值。而or 的方法也是，出现“全文”选项的检索式之间，都具有很高的相似性。

3.3 组合检索的重测信度

组合检索的重测信度以十年数据中每下一年度与上一年度匹配比例差的离散程度来表现，通过标准差系数对不同检索途径做出比较（见表6）。

（1）二项组合检索的重测信度。通过二项组合检索式的年度匹配差异看十年数据的稳定程度。从表6 可以看出，使用and 检索的策略整体要比or 检索式的稳定性要和好。在高相关数据集中，“篇名and摘要”的标准差最小（0.15），离散程度最小，但同时“篇名or 摘要”的标准差达到0.502，恰好是高相关集中匹配最不稳定的检索式。因此想要获得稳定的高相关匹配数据，可以优先选择“篇名and 摘要”。其次可以选择“主题or 全文”和“篇名and 关键词”，离散程度都比较小，数据相对稳定。

表6 组合检索的年度匹配度差异

在中相关数据集中，除去篇名并项检索的0 值数据外，“关键词and 摘要”标准差系数最小，“关键词and 全文”次之。使用or 运算符连接“全文”项的组合式标准差值均偏大，离散程度较大，需谨慎考虑。

（2）三项组合检索的重测信度。在三项检索式与高相关数据集的匹配差异中，“主题or 篇名or 全文”“主题or 摘要or 全文”“主题or关键词or 全文” 的标准差系数最小，为0.146，说明三项组合式只要包含“主题or 全文”，就可以得到相对稳定的数据，这一结论也恰好验证了二项式中，重测信度较高的“主题or全文”。另外，“主题and篇名and摘要”“篇名and 摘要and 全文”标准差也较小（0.15），同时包含了篇名与摘要的相同文献，结果更加稳定。

检索中相关文献使用and 运算符会比使用or 检索更加可靠，凡是出现“关键词and 摘要”的三项检索式，都具有很高的稳定性，重测信度较高；另一方面，“篇名or 关键词or 摘要”的标准差为0.115，相较相同的连接符的其他选项，离散程度较小，其次是“主题or篇名or 关键词”为0.128，其它检索式的结果都保持在0.17-0.18 之间，相对这两项，都不具有稳定性。

（3）四项组合检索的重测信度。四项检索更加验证了之前二、三项的结果，如出现“主题or 全文”的检索式，是高相关数据集中最稳定的选项，同样如果出现在中相关数据集中，与二、三项不同，四项的稳定系数变得更高。因此“主题or 全文”选项的四项检索式，在两个数据集中都表现出了较优的稳定性，离散程度小，重测信度更高。其次，出现“篇名and 关键词and摘要”的四项检索，是高相关中的稳定结果，但单独这三项组合在高相关中离散程度并不小，因此需要与其他项组合，来保证其重测信度。

（4）五项组合检索的重测信度。五项检索式只有一种方式，但通过使用不同运算符的，可以看出匹配高相关文献集时，使用or 连接选项扩大搜索范围，会比and 检索的数据更加稳定；另一方面，匹配中相关文献集，由于出现“篇名”选项不会存在中相关的结果，因此只能选择or 运算符，搜索更多的结果来计算其匹配度。

4 讨论与结论

4.1 讨论

本文的信度检验方法融合了时间方面的重测和标准途径方面的复本方法，因此，更能够衡量出实际的检索质量。

从复本信度来看，高相关数据集中使用的and运算符时，检索项之间相似度较高，中相关集使用or更加相似。我们认为，在检索高度相关文献时，使用and 运算符可以更加精确文献结果，范围变小会导致结果存在很大的重复性，因此检索项之间的相似度也很高，复本信度大；另一方面中相关的文献集不要求本文的检索结果有多精确，反而更要求数据是否全面，因而使用or 运算符扩大搜索范围，以检索更多中度相关的文章，提高查全率。

从重测信度来看，在高相关数据集中，“全文”单项检索的稳定性最高，组合检索出现“主题or 全文”，离散程度很小，结果最稳定。在中相关数据集中，“摘要”单项检索标准差最小，最稳定，后续的二、三、四、五项组合检索式，凡是出现“关键词and 摘要”的组合式，都是中相关数据集中最稳定的。这一结果比较意外，因为全文检索的范围很大，是一种模糊搜索的方法，按理说其信度在高度相关数据集中应该属于较低层次，但结果并不是。我们认为全文检索的数量比较多，在每一年份上都比其他方式的数据多出几倍，因此越多的结果就会使本文研究越接近真实的数据，每一年份的差异就会减少，重测信度得到提升。

4.2 结论

（1）单项检索的信度结果表示，在检索与研究论点高度相关文献时，“关键词”检索在稳定性结果方面更优，如果要求更加全面的结果，可以选择“主题”检索。但“篇名”检索综合二者优势，为最优选择。在检索中度相关文献时，“摘要”检索的结果最可靠。

（2）二项组合检索式由于各项之间存在重复，大部分检索项之间都存在很高的相似性。 “篇名and 关键词”与其他具有显著相关性的检索项匹配系数最高，且重测信度检验也是最稳定的，因此高相关集检索优先选择“篇名and 关键词”；其次，在中相关的系数矩阵中，复本相似度最高的一组是“主题and 摘要”和“关键词and 摘要”，这两组后者的稳定性更强，优先选择后者；另外“主题or 摘要”在查找高相关和中相关文献时可以替代多种检索方法，搜索结果最全面，包容性强。

（3）三项组合检索式中，综合相似程度与数据离散程度，在查找高相关文献可以选择“主题and 篇名and 关键词”，or 连接时复本信度结果也是最优选择，但稳定性不高。因此可以尝试主题、篇名与关键词的并集组合；另一方面“主题and 摘要and 全文”和“主题or 篇名or 关键词”分别可以作为两种运算符检索中度相关文献的高复本信度结果，重测信度结果前者更稳定。

（4）四项组合时推荐使用“主题and 篇名and 摘要and 全文”的检索式，重测信度表现最为稳定，复本信度结果中，与高度相关数据集匹配适用，与中度相关文献匹配时，使用or 逻辑运算符连接也同样可以适用。

（5）五项组合检索式只能从重测信度角度来看，or 运算符在任意数据集中都会表现的更稳定可靠。

本文基于循证视角，对文献证据检索的信度进行了研究，探索了不同检索途径的复本信度与重测信度。凭借信度评价指标，保证证据检索的稳定性与一致性，在为系统评价和元分析提供更高质量证据的基础上，有望为整个科学领域的循证研究质量评价提供理论支撑，并为循证社会科学等领域的的系统评价和元分析提供更高效、可靠的文献检索方法。