文献资源分类、存储过程中的特征提取选择方法研究

2022-12-05谢积鉴李荣唐青青胡婷婷钟雪梅

中国科技纵横 2022年20期

谢积鉴李荣唐青青胡婷婷钟雪梅

（广西壮族自治区科学技术情报研究所，广西南宁 530022）

0.引言

在文献资源的分类及存储过程中的特征提取，是从拟处理标准文本中去找出可以全面描述文献的内容并可以区分其他文献的特征向量，通常由特征词及权重构成，特征提取是文本向量空间降维的有效方法，同时特征提取可挑选出类别特征项。特征提取可分为无监督及有监督训练方法，有监督模型是基于标注的方法进行训练，通过分类实现特征提取，继而采用分类模型判别词语是否是索引词汇，其较多见的方法又包含C4.5决策树分类器及朴素贝叶斯分类器等[1]；无监督模型通常利用文本、图、主题及词的使用频率统计等模型挖掘特征词的关系，无监督模型的代表性特征词通过相关权重挑选出来。TFIDF算法[2]根据词的使用频率统计，TextRank算法[3]的特征提取是根据主题模型及图模型。

1.启发式特征选择

文献资源特征提取的过程可以分为3个步骤：（1）对原数据集执行去停用词或分词等预处理，获得初始特征集T。（2）继而对特征集合T执行权重分配，并依据权重值降序排列获得特征集T1。（3）最终依据对应评估函数，选取获得一个最具代表性的文本类别信息的特征子集T2。

特征子集启发搜索策略主要包括Wrapper包装式搜索策略及Filter过滤式搜索策略[4]。Wrapper包装式搜索策略为了获得特征子集是通过训练学习实现的，Wrapper包装式搜索策略的最大特点是依据选择标准执行特征的选择；Filter过滤式搜索策略依据数据信息选出与目标最相关的特征，Filter过滤式搜索策略利用了聚类功能。其为了获得特征子集，依据差异性获得特征区分度。最后，Filter过滤式搜索策略通过排名选出与目标最相关的特征子集。

1.1 Wrapper包装式的属性搜索策略

Wrapper包装式搜索策略[5]在执行特征搜索时依赖于监督式的训练学习，Wrapper包装式搜索策略针对数据量较小的文献时，处理效果比较好，因为该方法要经过监督训练过程才可实现特征搜索。

Wrapper包装式搜索策略的过程主要包含3个步骤：（1）为提高数据搜索模式的质量，执行预处理，获得初步特征子集T。（2）进行训练集的实验。训练学习过程依据训练集样本数据评判规则，建立模型。（3）在学习器上进行试验集实验，依据训练集模型判别性能优劣。

Wrapper包装式搜索策略大多情况下是依据分类器分类性能判别特征的有效性，然而，在实际应用中大多情况下是将随机搜索策略和Wrapper包装式搜索策略结合。在特征选择中，Wrapper包装式搜索策略需在分类器的训练及验证上花费较多时间，效率低，所以较少应用于实际，和Wrapper包装式搜索策略对比，Filter过滤式搜索策略分类性能低，但效率高。Wrapper方法计算开销高、效率低，因此，Wrapper多用于文献资源分类，Filter方法多用于海量文献资源。

1.2 Filter过滤式的属性搜索策略

Filter过滤式搜索策略[6]是一种属性选择搜索策略，该搜索策略不依赖训练集，相对独立性强，依据评估函数，搜索出代表文献资源的特征集合。特征集合依据评估函数不同可将Filter过滤式搜索策略的属性选择算法分为距离测度以及信息测度。

1.2.1 基于距离测度的特征聚类选择算法

距离测度[7]根据特征项间距离衡量样本相似度，该算法通过计算不同区域中特征项间的距离代表相似性。如果特征项的距离越小，则特征项越相似。如果特征项距离越大，则特征项相似性越小，可划分性就越强。依据距离判断文本相似度的方法众多，包括闵可夫斯基距离、欧氏距离S阶Minkowski测度等。

在文本检索领域，特征聚类是重要研究方向之一。聚类分析[8]是进行各个对象的内部特征分析，其中，聚类分析中划分在同组表示性质相近，划分在不同组表示性质相差较大，它依据相似性度量，特征空间被划分为若干簇的子集，经过分组，从而确定特征相似性。同组数据相似性大，不同组之间的相似性小，进而完成特征聚类。聚类算法的描述：（1）特征词先经过相似度及权值计算，按顺序排列。（2）执行特征聚类，簇中心在所有簇中随机选择。（3）将簇中心和特征项比较相似性。例如，如果特征相似性大就进行簇中心替换，否则不替换。（4）所有簇的簇中心保留下来，其他的特征项剔除，直到全部特征项对比结束。

聚类方法较多，其中，经常使用的有K均值聚类及分层聚类方法。分层聚类方法通过计算向量相似度实现聚类，相似度最大的两类合并，直到满足阈值条件，则聚类结束。K均值聚类方法是通过指定K值实现聚类，该方法通过聚类的个数进行特征聚类。

1.2.2 基于信息测度的特征选择

信息测度是经常使用的属性选择算法，信息测度根据特征项之间的信息量衡量特征项。在特征选择时，需要进行特征词的重要程度量化。比如，在特征选择时，含信息越多的特征项成为特征项的可能性越大。因此，基于信息测度的特征选择很重要的一步是将概率和信息量的大小结合。

基于信息测度的属性选择算法众多。以下对经常使用的属性选择算法进行分析：

（1）文档频率[9]（DF）。DF是最容易的评估函数，表示训练文本中包含某特征项的文本频率，其步骤可概括为：1）设定文本频率阈值。2）统计出所有特征词的文本频率值M，和设定文本频率阈值比较。3）假设M超出阈值范围，则剔除该特征词。4）若M值过大，表示类别区分度较小；若M值过小，表示类别区分度较大。该方法算法容易及复杂性小，因此，实际应用中效率较高，适用于复杂数据集，该方法可以降低特征空间维数。但是，该方法不足之处是去除小于阈值的特征词，该方法会滤掉一些文本频率较低的特征词。采用该方法，有些被滤掉的特征词也许包含重要的类别信息影响到分类判别的准确性。

（2）文本频率－逆文本频率[10]（TF-IDF），TF-IDF是Salton建立的方法，该方法主要根据文本频率TF及逆频率IDF进行计算，TF-IDF比较适合特征权重函数计算。TFIDF是经常使用的特征搜索方法，广泛应用于文本分类领域，该方法在特征权重函数计算中取得的效果较好。TFIDF原理是：文章中的短语或词多次出现，但这些短语或词却很少出现在其他类中，则认为该短语或词对该文很重要，说明该词分类能力好。TF代表某短语或词在某文中出现的次数，即词频。IDF代表含某一个短语或词文本数目的倒数，如果含某一个短语或词的文本数目少，则该短语或词IDF值高。IDF值越高，该短语或词的类别区分度越高。

（3）信息增益[11]（IG）。在文本中，IG评估方法给出了特征词的信息熵差。IG计算公式如下：

式中：P（Ci）表示Ci类文本数与文本总数的比值。P（t）表示含特征词T的文本比例。p（ci|t）表示在ci类文本中出现特征词T的条件概率。p（ci|t）表示在ci类文本中特征词T不出现的条件概率；n表示文本类别数。

信息熵和信息增益分别用公式（1）和公式（2）表示。IG考虑两种情况：特征T出现及不出现。信息增益值代表某特征词的重要性，增益值和信息越重要程度成正相关。

（4）开方校验[12]（CHI统计）。开方校验中，x2表示统计量，表示的特征词和文本类别之间的分布关系。x2统计量用于衡量特征和类之间独立性。假设特征T和类是相互独立的，则x2值为0。x2值越低，特征词和类别的相互关联性越小。公式如下：

A为文本中T和ci同时出现的次数。B为文本中T出现但ci不出现的次数。C表示文本中ci出现但T不出现的次数。D表示文本中ci与T都不出现的概率。N为文本总数。

在本类别及其他类别文本中，CHI统计偏向于高频出现的特征词，在实际应用中较为可靠，阈值稳定，不会随着训练集的变化而变化。但缺点是CHI统计分类效果不佳。

1.3 组合式的属性选择算法

组合式属性选择算法是将Wrapper方法及Filter方法相结合[13]，其原理是：先用Filter模型初步进行特征选择，去除冗余特征，获得的特征子集，进而降低特征空间维度；再用Wrapper模型进一步进行特征搜索，获得最优特征子集。

IGICA是一种两阶段属性选择算法[14]，第一阶段，先通过信息增益对特征项进行排名，第二阶段，特征选择中加入ICA。分析结果显示，构建的方法分类能力强，优于其他算法。两阶段的属性选择算法，在对传统向量空间模型进行计算的时候无需考量词语之间的语义关系，先用潜在的语义索引，再结合新组建词间语义空间，因此效率高。有的研究在进行文本特征搜索的时候采用潜在遗传算法（GA）及语义索引（LSI）。VSM（向量空间模型）[15]在对特征向量进行降维中利用了LSI（朗格利尔饱和指数）。VSM（向量空间模型）结合奇异值分解，并采用遗传算法降低了维度。因此，VSM（向量空间模型）充分发挥了二者优点，使效率得到了提升。近年来，混合改进特征选择的方法不断涌现，如DTFS特征选择法，提高了邮件分类性能。DTFS特征选择法同时了考虑文本的频率及词的使用频率[16]。首先，利用ODFFS（最佳文本频率）特征选择法和阈值特征选择法进行组合，选择最佳特征。其次利用OTFFS（最优词频率）与阈值进行组合，选择最佳特征。启发式搜索策略的出现，则是组合了OTFFS及ODFFS的功能，利用朴素贝叶斯（NB）分类器及模糊支持向量机（FSVM）对语料进行分类。有部分研究针对文本证据权、信息增益、CHI统计算法中冗余信息干扰的局部性，提出CWFS算法（竞争优胜者属性选择算法），解决了传统算法分类性能差及效率低的问题。

2.结论

大数据时代的到来，为海量的非结构化文献资源处理提供了重要的技术支撑。本文针对文献资源分类、储存过程的特征提取处理过程，分别分析了Wrapper包装式的属性选择算法、Filter过滤式的属性选择算法、组合式的属性选择算法的基本原理和各自优劣，为文献资源特征提取处理提供了有益的参考。本文认为，可以通过约束学习、同义词相互补充、特征权重分配的深度学习算法使得特征更具有合理性及可解释性，提高语义信息表达的准确程度，从而优化文献资源分类、储存过程的特征提取处理，进而提升文献信息检索过程的用户体验。