共词分析识别研究热点的效标关联效度研究：基于自然语言处理*

2018-05-05张彤彤周文杰

图书与情报 2018年1期

杨丽张彤彤周文杰

（1.西北师范大学商学院甘肃兰州 730070）

1 研究背景

共词分析已被科学计量学及相关领域的研究者广泛应用于研究热点的识别之中。相对于传统的引文分析等方法，由于共词分析直接面向主题并针对学术文献的内容进行分析，能够在很大程度上克服基于引文分析等方法识别热点所产生的滞后性、间接性等问题，从而更具优势。而且，随着自然语言处理技术的成熟和发展，针对海量学术文献，运用共词分析法进行研究热点的识别具有更高的可行性和便利性。然而，通过文献调查发现，迄今为止，在科学计量等领域，虽然很多研究者也意识到了共词分析的局限性，但在对基于共词分析而识别的研究热点的可靠性和有效性进行系统检验方面却存在着明显的薄弱。一个不争的事实是，科学学领域所识别的研究热点要想得到各领域研究者的普遍认可，须先自证其科学性。

在测量领域，目前已发展出了一系列用以证明研究结果科学性的检验方法，效标关联效度便是其中最重要的方法之一。鉴于“基于共词分析而识别的研究热点在多大程度上具有有效性和可靠性”这一问题并没有得到研究者的清晰回答，本研究旨在应用自然语言处理的方法，在析取样本文献不同分析单元（主要包括题名、摘要、关键词和全文）的热点词并展开共词分析的基础上，对所识别的研究热点的效标关联效度进行检验，从而对上述研究问题做出回答。

2 相关研究回顾

2.1 效度、效标关联效度与同时效度

在测量领域，效度是检验测量结果有效性的基本指标。效标关联效度（criterion-related validity）作为一种对研究的有效性进行衡量的效度检验指标，其基本思路是通过衡量结果变量之间的相关性，从而对测量结果的有效性做出评判。其中，作为比较基准的结果变量被称为效标。同时效度和预测效度是现有测量理论发展出的两种效标关联效度检验的主要形式。所谓同时效度（concurrent validity）是指研究者在取得所关注的指标得分的同时也获得相应效标的测量分数的一种效度检验形式。

针对学术文献而展开的科学计量本质上是一种测量。为此，要衡量具体科学计量结果（如通过共词分析法所识别的研究热点）的有效性，就有必要针对计量分析的过程和结果展开效标关联效度的分析。由于本研究所关注的主要是基于不同分析单元而展开的共词分析在研究热点识别方面有效性的差异，因此选择以同时效度为基本测量指标。

2.2 共词分析的有效性与可靠性

虽然共词分析方法已经被作为科学计量领域的通用方法之一，但有很多研究者都发现，共词分析存在诸多效度风险。如钟镇使用高频关键词的文献耦合网络进行共词分析后发现，高频关键词更多地指向高被引文献，但使用节点的度数和中介中心性指标去判断节点价值具有不确定性；傅柱、王曰芬对共词分析过程中术语阶段的词源选择、术语规范和高频词选择三个关键问题进行分析和讨论，并分析了若干与共词分析可靠性和实效性有关的问题；李纲、巴志超从共词分析过程中概念术语的词源选择、高频词的选定、术语相关性计算以及多元统计分析四个方面总结了共词分析存在的局限性。另外，巴志超等还试图通过论文属性加权等方法，解决共词分析方法中存在的共现词对“同量不同质”现象、词对关联计算缺乏语义性等问题；胡昌平、陈果则对传统共词分析中高频词共现矩阵的构建方法提出了疑问。杨建林发现，选用高频词或词频共现关键词进行共词分析可以高效研究热点或主题热点，但不能有效概括知识全貌。

综上所述，现有研究者已对共词分析的局限性进行了比较全面的总结。然而，但很少有研究者对这种局限性而导致的研究结果的有效性进行全面检验。而且，现有研究者基本都将共词分析的分析单元固定在关键词上，很少对其他分析单元（如题名、摘要、全文等）进行考察。基于上述原因，本研究拟采用自然语言处理的方法，在前续研究的基础上，基于全文而识别研究热点并以其为效标，通过对不同单元之间的共词分析而识别的研究热点进行比较，检验各自的同时效度，从而对共词分析的有效性和可靠性问题做出系统回答。

3 研究设计

3.1 效标选择与结果变量的操作性定义

如前文所述，本研究主要关注基于共词分析而识别的研究热点是否具有效标关联效度的问题。由于热点识别并不涉及预测，因此本研究中所应用的效标关联效度主要测量指标是同时效度。为便于研究的展开，本研究给予了同时效度一个操作性定义，即本研究的同时效度指在取得基于题名、关键词和摘要而析取的共词网络中心度的同时，也获得了基于全文而析取的共词网络的中心度。其中，前者是待检验变量，后者是效标。之所以选择以基于全文而析取的共词网络的中心度为效度，是因为在本课题的前序研究中，发现全文共词网络的表面效度最高。关于效标的选择，本文将在后续部分进行专门讨论。

3.2 分析步骤

本研究的基本分析过程为：

第一，选择一个学科发展相对成熟、边界比较清晰的学科——动物学为分析对象，在CNKI数据库中检验了发表于1988-2017三十年间的全部中文文献。经过数据的去重、清洗，共获得55374篇学术论文的题名、摘要、关键词信息作为基本语料库以备分析。

第二，针对检索结果，采用随机抽样的方法，在每个十年随机选择其中的500篇文献下载全文，共获得1500篇学术论文作为全文语料库以备分析。

第三，应用自然语言处理方法，以Python为工具，析取了题名、摘要、全文的高频词，并应用pandas构建了共词矩阵。针对关键词，直接识别了高频词并构建了矩阵。

第四，应用两种重要的科学计量分析工具——Pajek和Sci分别对上述语料展开了共词分析，分别识别研究热点并计算了各种类型的中心度指标。

第五，以基于全文而识别的研究热点为效标，并计算其与基于题名、摘要、关键词而识别的研究热点在不同指标下的相关系数，并根据上述相关系数的比较，对不同分析单元的同时效度做出评价。

第六，对Pajek和Sci基于全文而识别研究热点的各项指标/算法获取的得分进行标准化，并求得热点指标综合变量，然后将这一综合变量与基于题名、摘要和关键词而获得的相对应的综合变量进行配对样本的t检验，从而进一步完善对不同单元同时效度的分析。

4 研究结果

4.1 不同分析单元基于相关分析的同时效度

如前文所述，本文以基于全文而识别的研究热点为效标，对题名、摘要和关键词等不同分析单元下所识别热点的同时效度进行全面检验。整体而言，在各种热点识别指标下，题名、摘要和关键词均与全文存在显著相关，但相关系数的大小在不同分析单元上却有着明显的不同（见表1）。这表明，采用题名、摘要、关键词为分析单元进行研究热点的识别，其效度存在着一定差异。具体而言，从Pajek和Sci2两个工具所识别的研究热点的综合得分来看，基于全文与摘要而识别的研究热点之间综合得分的相关系数都最大。由此说明，从整体上看，摘要的同时效度最高。本研究进而对八个单项指标进行了比较分析后发现，各单项指标尽管存在相关系数高低不同的情况，但仍然呈现出与综合指标相一致的情况，即摘要的同时效度高于题名和关键词。

表1 全文与题名、摘要、关键词在不同测度指标上的相关系数

本研究进而对Pajek所采用的用于识别研究热点的点度中心度、权重中心度、紧密度中心度和中介度中心度四项主要指标进行比较发现：首先，摘要在四项指标上的相关系数均高于题名和关键词，因此，摘要具有高同时效度这一特征体现于每个单项指标，具有较强的稳定性；其次，中介度中心度相对于其他指标相关系数最高，因此，中介中心度在研究热点识别中应该被赋予更高的权重；第三，如果以摘要为分析单元中介中心度的同时效度最高；第四，如果以题名为分析单元，权重中心度的同时效度最高；第五，如果以关键词为分析单元，中介中心度的同时效度最高。

同时，本研究对Sci所采用的用于识别研究热点的 Hits、Page_rank、Authority_hits、Eigen_centrality四种算法进行比较后获得了与Pajek类似的发现。即摘要的同时效度在四项指标上均最高，其中Authority_hits算法优于其他三种算法；以题名为分析单元时，Page_rank算法的同时效度最高；以关键词为分析单元时，Eigen_centrality算法的同时效度最高。

总之，基于摘要识别的研究热点与全文的相关系数值在各项指标上均最高。这表明，如果以全文为衡量标准，则通过摘要而识别的研究热点效度最高。同时，基于题名和关键词而识别的研究热点同时效度整体上比较接近，都相对较低。在各单项指标上，不同分析单元的同时效度不同。这表明，以单项指标来衡量，不同分析单元在效度方面存在不稳定性。

4.2 不同分析单元基于均值比较的同时效度

上文分析表明，以全文为效标时，题名、摘要和关键词的效度高低不同，但从表1也可看出，虽然不同分析单元之间的相关系数有高有低，但这些相关系数都具有统计意义上的显著性。为进一步解析各分析单元在研究热点识别的效标关联效度方面出现差异的原因，本文进而应用两种不同的分析工具——Pajek和Sci分别测度了基于全文、题名、摘要和关键词而识别的研究热点，将各测量指标的值进行标准化并求和后，分析对效标各分析单元的得分进行了独立样本的t检验。

基于Pajek和Sci两个工具，分别利用多项指标对研究热点进行综合测度后，得出对不同分析单元得分的均值进行比较的结果（见表2）。其中，全文与题名、全文与关键词在两个工具测度所获得的得分标准分的均值并无显著差异，而全文与摘要之间却存在显著差异。这一发现似乎与上述相关分析结论存在矛盾。进一步分析发现，与摘要相比，基于全文而获得的综合得分的均值较小。由于热点的测度依据均是共词网络的各类中心度指标，因此，网络规模越大，所识别的节点越多，中心度得分也趋向于增大。基于全文而识别的共词网络中从规模上显然大于摘要共词网络，所以，全文网络结点的中心度更可能大于共词网络的结点，而全文网络综合得分的标准分相应会小于共词网络。由于全文与摘要都以文本形式出现，其不同仅仅在于文本长短的不同。由此可见，全文更高的同时效度在很大程度上源于其较长的文本。当然，如果把题名也看作短文本，则全文与题名之间也是一种长文本与短文本的关系。但是，由表2可以看出，全文与题名之间的综合得分在均值方面并无显著差异。由此可见，当文本过短时，通过短文本而识别的研究热点由于缺乏区分度（即t值不显著），而效度很低（即相关系数低）。然而，由于本研究的目标仅仅是对题名、摘要、关键词和全文四种分析单元在研究热点识别上的同时效度进行评价，因此，对于文本长度与研究热点效度之间关系的深入解析，尚待后续研究的跟进。

综合上述相关分析结果来看，在研究热点的识别方面，文本比词的同时效度高，而文本的长度对于效度具有一定影响。

5 讨论

5.1 效标的选择与关键词的效度风险

效标关联效度是衡量研究可靠性的重要指标，而同时效度是效标关联效度的具体形式之一。效标关联效度评价的基本操作流程是，以选定的效标为参照，对拟检验的变量与效标之间的相关程度进行比较。本研究选定基于全文而识别的研究热点在Pajek和Sci两个计量工具上的综合得分的标准分及各项指标为效标，通过相关分析和配对样本t检验两种计算方法，对不同单元在研究热点识别方面的同时效度进行了分析。之所以选择以全文为效标，是因为任何形式的研究热点必然体现于全文之中。与其他分析单元（如关键词、标题、摘要）相比，全文基本不存在在计量过程中遗漏学术论文所表达的研究问题的可能性。基于这种考虑，本研究选择以全文作为效标。

需要注意的是，在传统的科学计量研究领域，通常都以关键词构建共词矩阵的基本单元。然而，在本课题组关于共词分析效度的系列中发现，基于关键词而识别的研究热点既存在与领域专家共识性的研究热点不一致的情况，又存在与其他分析单元之间不一致的情况。这种情况，在本课题其他类型效度检验也有体现（详情可参见本专题另外一篇文章《研究热点识别的内容效度研究：基于自然语言处理》）。显然，这些发现从一定程度上颠覆了传统研究中所“默认”的关于关键词对于学术论文最有代表性的观点。由此而产生的启示是，科学计量领域关于研究热点识别的基本分析单元需要从基于词转向基于文本。但同时也要注意到，长度不同的三种文本——标题、摘要和全文的效度系数也有所差异，由此可以看出，在研究热点的识别中，文本长度的确定问题也应得到本领域研究者的充分关注。

表2 全文与题名、摘要、关键词在不同测度工具上得分的t检验结果

5.2 测量工具与指标在同时效度检验上的一致性

为了对所检验结果的稳定性做出评价，本研究同时采用了Pajek和Sci两个软件工具并针对常用的八项研究热点识别指标、算法进行了分析，以期通过相互对照，确认对同时效度检验结果的稳定性。由前文所展示的结果可以看出，两个软件工具在所识别的研究热点上的综合得分一致程度很高。这表明，本研究关于摘要的同时效度最高的结论具有可靠性。另外，通过比较八个常用于研究热点识别的指标（算法）可以看出，各指标（算法）在研究热点识别方面基本一致，也存在一些小幅波动的现象。由此而产生的启示是，在应用现有的中心度指标及相关算法进行研究热点测度时，这些指标在不同的分析单元进行热点识别时的重要程度不同。因此，应考虑对于比较重要的指标进行加权，以便使所识别的热点具有更高的可靠性。

6 结语

本研究发现：基于摘要而识别的研究热点同时效度相对较高，而基于关键词所识别的研究热点同时效度相对较低；在研究热点识别的效率方面，文本比词的同时效度高，文本长度对同时效度具有一定影响。虽然本研究比较圆满地回答了所提出的研究问题，但仍然有一系列后续问题需要后续研究的跟进。这些问题主要包括，本研究虽揭示了基于文本进行研究热点的识别时，文本的长短对于研究的效度具有不同影响，但本研究的数据尚不足以对何种文本长度对于研究热点识别最为适宜这一问题做出解释。由此产生的启示是，文本长度与研究热点识别效度之间的关联应该成为今后本领域研究者需要关注的一个重要问题。另外，本研究发现，八种常用的研究热点识别指标（算法）在不同的分析单元上的效度不同，这表明在实际测量中，应该针对不同的分析单元，在不同的测量指标（算法）上使用不同的权重，这样才能保证研究热点识别的可靠性。然而，对于不同指标进行加权是一个复杂的过程，本研究所获取的数据尚不足以对这种加权过程进行解析。

参考文献：

［1］曹树金.我国网络舆情研究现状及其知识增长趋势分析［J］.情报资料工作，2016（6）:17-22.

［2］陈兰兰.基于社会网络分析和共词分析的国内关联数据研究［J］.图书与情报，2013（5）:129-132.

［3］张洪秀.教育测量与评价方法［M］.长春：吉林大学出版社，2014:59.

［4］郑日昌.心理与教育测量［M］.北京：人民教育出版社，2011:93.

［5］（美）格雷戈.施俊琦，译.心理测量：历史、原理及应用［M］.北京：机械工业出版社，2012:104.

［6］钟镇.知识图谱分析方法的可靠性检验研究——以共词分析为例［J］.科学学研究，2015，33（5）:647-653.

［7］傅柱，王曰芬.共词分析中术语收集阶段的若干问题研究［J］.情报学报，2016，35（7）:704-713.

［8］李纲，巴志超.共词分析过程中的若干问题研究［J］.中国图书馆学报，2017，43（4）:93-113.

［9］巴志超，李纲，朱世伟.共现分析中的关键词选择与语义度量方法研究［J］.情报学报，2016，35（2）:197-207.

［10］胡昌平，陈果.科技论文关键词特征及其对共词分析的影响［J］.情报学报，2014，33（1）:23-32.

［11］李佳.共词聚类分析法中的主要问题与对策［J］.情报学报，2010，29（4）:614-617.