共词分析中的词汇遴选方法研究

2016-03-21，，，，

中华医学图书情报杂志 2016年4期

，，，，

共词分析方法属于内容分析方法的一种，其原理是当两个能够表达某一学科领域研究主题或研究方向的专业术语(一般为主题词或关键词)在同一篇文献中出现时，表明这两个词之间具有一定的内在关系，并且出现的次数越多，表明它们的距离越近、关系越密切[1-2]，据此可以归纳出该学科的研究热点、结构与范式。由于共词分析方法灵活、结果直观，所寻找的是当前研究重点关注的主题，在揭示文本数据的信息单元之间的关系方面更加有效，能够反映研究前沿，并且对当前发表的文献直接进行统计，不需要庞大的引文索引作为基础，具有较好的时间效应。因此成为快速识别学科发展的重要方法，在各学科领域得到了广泛的应用。

1 词汇遴选和阈值确定方法研究现状

在共词分析中，词汇遴选是共词分析的重要阶段。如果将所有的词汇用于分析，不仅会造成巨大的运算量，而且由此带来的稀疏矩阵会对结果的准确性造成影响。因此用于分析的词汇能在多大程度上代表文献内容，同时又能够确保分析过程快速及结果准确是一个需要研究的问题。为了了解目前共词分析中的词汇遴选方法，笔者对CNKI数据库中的相关论文进行了分析。检索式为：SU='共现' or SU='聚类分析' or SU='共词' or TI='共现'or TI='聚类分析' or TI='共词'，时间选择2001-01-01到2012-12-31，学科领域选择“图书情报与数字图书馆”，共检索到640条记录(检索时间为2013年12月)。按照被引次数降序排列，选择被引10次以上，并且涉及共词分析具体应用的文献37篇。对文献所用词汇遴选方法与步骤进行了统计分析，去掉方法研究类和综述类论文，最终筛选出30篇关于共词分析方法应用的高被引文献。整理和统计了每篇文献的词汇遴选方法，包括高频词的阈值、用于分析的词汇个数，结果表明在共词分析的词汇选择阶段，特别是阈值确定环节存在问题，主要表现在以下两个方面。

一是高频词更受关注，中低频词鲜有涉及。所统计的30篇文献均选取高频词进行分析。虽然中低频词不利于聚类，但有助于观测一些隐含主题或前瞻主题的外现[3]，因此对于新兴研究领域、研究现状、研究前沿等方面的发现有一定的意义。如果完全忽略中低频词，结果的准确性可能会受到影响。

二是高频词的阈值确定标准不一，主观经验成为主要方法。在笔者所调研的文献中，90%的文献均没有对阈值选择方法进行说明就直接给出了结果，所选择的阈值从2到100不等。国内学者对阈值选择方法也有过研究[3]，认为目前国内外高频词选取方法各异，大多数学者根据经验直接选取高频词。除此之外，根据关键词累积频次选取一定比例以及齐普夫第二定律也被一些学者所采用。如依据“二八定律”选择占所有词汇中前20%的高频词[4]，或者在词频总数中选择一定百分比的词频[5]。文献[6-7]则根据齐普夫第二定律中高频词与低频词的界分公式得到高频词阈值。该方法相对于上述方法较为科学，而且计算简单。但是齐普夫第二定律公式的依据和推理并不严密[8]，因为一篇文献要受到多种随机因素的影响，如语种、作者、文献长度等，要以一个简单的公式包容所有的情形是不可能的。

进入大数据时代，数据量越来越大，情报研究对数据分析粒度、分析时间和效率的要求也更高。因此要求计算机系统能够实现情报分析的自动处理，而计算机需要标准化的流程和方法，尽量减少人为的干预。由此可见，通过简便、规范的词汇遴选和词频阈值选择方法来确定待分析的词汇是目前需要解决的重要课题。本文对词汇遴选，特别是词频阈值选择方法进行分析，并提出了简便易行的确定方法。

2 共词分析中的词汇遴选方法研究

为了排除同义词归并、停用词表构建等问题的干扰，确保词汇能够充分代表文献内容，本文选择主题词进行分析，从而只考虑共词分析在词汇遴选过程中存在的问题。在进行文献集合内容分析时，所选取的词汇集合一定要最大程度地表示所选择文献集合的内容。而文献集合的最小单元是单篇文献，词汇集合的最小单元是每个词汇，因此我们基于词汇与文献的关系对词汇选取方法进行分析。

2.1 词汇与文献内容的关系分析

应用共词分析方法的前提是文献中的关键词在一定程度上代表了文献的内容。在共词分析方法之外，文本挖掘、文本分类等多个领域中都涉及到选取特征值、选取特征向量的问题。如在文本聚类中通过tf-idf算法计算词汇在文献中的重要程度，在文本分类中通过卡方值计算该词与该类间关系强度，卡方值被认为是文本分类中较为准确的方法。尽管上述方法在文本分析中表现出色，但是并不适用于一般的共词分析，因为每个关键词或者主题词只在一篇文献中出现一次，每个词相对于文档的权重也是一样的，因此并不能用上述的tf-idf等方法进行词汇遴选。

为了解决该问题，一些研究者通过对标题、摘要等内容分词，从而获得更多的词汇，但是引入自由词之后，就出现更为复杂的词汇规范问题和语义问题。同时由于缺少完善的词表支持，不能保证除了关键词之外，从标题和摘要中获取的其他词汇能够全面反映文献内容。因此该方法并不能够实现词汇的自动遴选。

2.2 词汇集合与文献集合的关系分析

在大部分共词分析文献中，都有选取X个词来表示文献的说法。其假设是每篇文献都用一定数量的词来表示，那么所有词汇构成的集合就能很好地表示文献集合的内容，不过事实并非如此。假设我们在每篇文献中选取了小于平均关键词个数的N个词来代表该文献，但这并不能保证最终所得到的词汇集合中的词汇数量会减少很多，因为随着文献数量的增加，词汇增加趋势越来越慢，在文献量非常大(大于20 000篇)的情况下，甚至并不能明显减小集合中的词汇数量，况且目前还没有能够在每篇文献中提取关键词的统一标准和可靠方法。

还有一种方法就是在所有词构成的集合中进行筛选其优点是能够精确地控制所选词汇集合中的词汇数量。如上文所述，根据词频的阈值选择是最常用的方法。

在词频阈值的确定方法中，要确保选择的词能代表文献的内容，每篇文献至少需要2-3个词来进行表示。如果所选择词不仅能够覆盖大部分文献集合，同时也能够确保大部分文献集合中的每篇文献有2-3个关键词，我们就可以认为所选择的集合基本上代表了文献集合的内容。

鉴于以上观点，本文进行了以下实验分析。

3 实验与分析

我们选择了干细胞领域进行实验研究，并选择了造血干细胞和结核病两个领域进行了验证。干细胞研究从2000年左右到现在得到了快速发展，新的研究方法、技术和发现层出不穷，文献量丰富，并且能够满足我们从干细胞领域中选择较小领域进行验证的需求。

3.1 数据获取

选择“中国生物医学文献数据库”(CBMdisc)为来源数据库，时间范围为2000-2009年，检索主题词为干细胞/全部树/全部副主题词，检出22 698篇文献。提取文献中的主题词，去掉副主题词，共得到6 245个主要主题词，累计词频155 289，平均每篇文献6.8个主题词。

3.2 高频词获取

对比分析上文中提到的各种高频词获取方法。

文献集合内词频为1的词共2 073个(即I1=2073)。根据齐普夫第二定律公式，计算得到T=142.6，则高频词和低频词的临界值为143(表1)。

3.3 高频词个数与文献比例关系分析

按照词频顺序从高到低排序， Top N个词覆盖的文档所占总文档数的比例见图1。

表1 二八定律和齐普夫定律计算结果

图1 Top N个词的文档覆盖率

以往一些研究经常会提到所选择的词汇集占整个文献集合的比例，这个结论会让我们误以为所选择的词能够代表大部分文档内容。通过该图我们发现，极少数的特高频词就能覆盖95%以上的文献，但并不能够代表所覆盖文献的内容，可见选择词汇数量和覆盖文献比例的相关关系并不明显。

如果只选择能覆盖文档95%的词汇，就会造成一些文献中只有一个词来表示。如在该数据集中“干细胞”的词频最高，如果选择5个词来表示，那么大多数文献只能用“干细胞”来表示，与结合数据集内容进行分析的目标相去甚远。

因此我们必须保证选择的词能够代表整个数据集合中每篇文献的内容，而这一点通过每篇文献都需要2-3个词来进行表示。为了实现该目标，我们首先选择能够覆盖文献90%的Top N个词，构成第一个集合；然后从Top N+1个词开始，重新选择能够覆盖文献90%的第二个集合。依照该方法，在选择了3次集合之后，该集合可以保证至少有73%的文献至少有3个词来表示，同时词频的选择方法满足高频词的确定方法。

干细胞领域的3个词频集合随选词个数增加的累积文献覆盖率增长曲线见图2。我们最终选中了1 536个词作为筛选结果。

每个区间中选择词汇数量及相关数据见表2。

图2 干细胞领域词汇集合的三个区间词汇累积文档覆盖率

/%/%1(1-5)50.08336695.72(6-102)971.5324390.03(103-1536)143422.901090.0

最终选取的1 536个词汇与传统的二八定律的结果接近，但是这种方法能更清楚地说明选择该数字的意义。

从图1我们发现，区间1中曲线接近直线，增长速度极快，我们可以将该区间定义为高频词；区间2和区间3接近对数函数，表明增长稳定，我们可以将该区域看作是中频次区域。在共词分析时，可以根据目的的不同，选择恰当的区域以选取词汇。

3.4 方法验证

为了验证该方法在不同领域选词的结果，我们重新选择了两个领域进行分析，考虑到需要对不同数量的文献集合进行分析，因此选择了结核病和造血干细胞领域(表3)。

表3 结核病和造血干细胞文献数据

结核病文献量接近干细胞文献集合的2倍，而主题词个数却很接近，再一次说明了文献量达到一定数量后，词汇的增长趋势越来越缓慢，并接近于某一个值。

而造血干细胞领域的文献较少，因此主题词也较少。

为了便于显示，每个区间用单独的图表示，造血干细胞领域和结核病领域中词汇累积文档覆盖率见图3和图4。两个文献集合的3个区间及相关数值见表4。

图3 造血干细胞领域词汇集合的三个区间词汇累积文档覆盖率

图4 结核病领域词汇集合的三个区间词汇累积文档覆盖率

从图3和表4可以看到，文献数量较少的造血干细胞领域在3个区间中共选择了329个词，占总词汇数的15%左右，同时3个区间所覆盖的文献都达到了90%，因此我们认为这个词的集合符合共词分析的基础。

从图4和表4还可以看到，在结核病领域，前两个区间的词汇占所有词汇总数的45%；第三个区间选定了剩下的所有词，但是文献比例才达到了11.4%，其原因是文献量过多。这种情况不仅会造成选择的词汇量很大，而且文献的覆盖率较低，不能很好地表示文献内容。因此需要减少文献集合数量，找到随文献增加而词汇总量变化趋势变缓的临界点，确定文献的数量。

这种方法并不适合所有领域，需要检验文档数和词汇总个数之间的关系，从而确定是否使用这种方法。