APP下载

基于特征空间稀疏近似的文本特征表达方法研究

2019-03-29张新阳李辉

科学与技术 2019年9期

张新阳 李辉

摘要:文本特征空间通常具有稀疏性,即可以选取一个紧支持且规模远小于原始文本数据的表达来代表原始数据而不丧失其主要特征或在某些处理操作中所得到的结果與原始文本所得到的结果相近似。近似表达非常适合于应用在文本压缩、大规模文本可视化、文本特征提取、文摘生成等领域。文本特征空间的稀疏性的一个对偶特征即是文本信息的冗余性。采用迭代阈值算法循环选择文本中特征较强的分词与句子,能够实现文本特征的有效表达同时减小文本规模。迭代阈值算法可以构建一个文本数据渐进近似的框架,从而为线性的的文本数据建立一个层次化的存储结构,从而在文本检索、文本聚类等应用领域发挥作用。试验表明,基于特征空间稀疏近似的文本特征表达能够有效地构建按需取值的文本检索与在线查询,在实际的文本检索与自然语言处理中具有很好的实际应用效果。

关键词:迭代阈值法;文本特征空间;特征表达;文本检索;在线查询

一 引言

文本特征表达是基于内容的文本处理中的基础关键技术。文本特征表达需要庞大的领域词表支持,依靠具有强文本内容表示功能的特征词语进行类目或主题的区分、主题词或关键词的标引。在信息抽取和信息检索中,抽取和检索的对象很大程度上也是领域相关的。

目前很多著名的知识库主要依靠专家手工构建,如WordNet、HowNet。除此之外,也有许多自动方法来获取领域词语,主要分为两类:基于规则和基于统计的。基于规则的方法利用人工构建好的领域词语特征字(词)库、经常与领域词语共现的指示词库和指示领域关系的关系词语库,在大规模语料中利用模板匹配的方式获取领域词语。基于统计的方法简单快速,主要利用机器学习的方法进行领域词语获取,如基于Bootstrapping、互信息、TFIDF等的领域词语自动获取。

本文将利用文本分类中的特征提取方法在大规模分类语料中自动获取领域词语。

二 约定说明

在本文中将用到以下概念:

1.领域词语

词语表可分为通用词语和领域词语两部分,简单地说,领域词语是具有强文本表示功能的特征词语。所谓强文本表示功能,是指在文本表示时,能将文本的内容特征(例如领域类别、主题思想、中心意义等)鲜明地表示出来。例如,常见的虚词性成分(“总而言之”)的文本表示功能弱,而一些领域性强的体词性成分(“封闭式基金”)则文本表示功能强。

2.领域通用词和领域专类词

领域词语中又可根据词语的领域流通度分为领域通用词和领域专类词。领域通用词是表示领域的基本词语,代表了该类领域的质心特征,如体育类的“比赛、球队”;领域专类词专指性强、区别度高,能将领域的详细特征区分开来,如体育类中的“世界拳击理事会、拳王”则不仅可以将体育类和其他类区分开,还能将体育类内部的小类如拳击区分出来。

三 特征表达方法分析

在文本自动分类中,关键的一个技术是特征提取。特征提取的步骤包括:词语切分,词频统计,加权计算和特征选择(二者通常结合在一起进行)。

经过权重计算和特征选择后,就能生成文本类别的核心向量,这些向量中的特征词可以认为是能代表该类文本特征的类别领域词。

权重计算和特征选择有很多计算公式,如信息增益、期望交叉熵、文本证据权、χ2 统计量等,其中最著名的是TFIDF公式。那么,权重计算和特征选择的公式究竟哪个为优呢?其实在这些公式中,关键在于特征选择时的倾向:高频词或稀有词,也就是公式中的P(w)因子起很大作用,因为一个单词出现的频繁程度,并不能说明这个单词对于分类很重要,有许多重要单词只出现很少次数,而很多次要单词却频繁出现。例如游戏类中很多的游戏名称、体育娱乐类中人名等专名,往往频次不高,却能一词定类。在以往研究者的文章中,都倾向于高频单词,其中Yang和Djujia Mladenic的文章综合比较分析了很多种特征评估函数的优劣,并特别指出,信息增益的缺点在于考虑了单词未发生的情况,互信息的缺点在于没有考虑P(w)因子,以致倾向于稀有单词。期望交叉熵克服了两者的缺点,所以效果比它们都好,同理,文本证据权也考虑了P(w),也是一种较好的评估函数。[唐焕玲等,2003]的实验表明,如果修改一下信息增益及文本证据权的公式,把它们的P(w)因子去掉,它们的权值调整效果即会大幅度提高,接近于互信息的量级。

在第二节中,我们提到领域词语可分为领域通用词和领域专类词。其实,二者的区别是在领域区别度基础上的频率差别,即二者都具有较高的领域区别度,但在领域内的频率不同。因此,在特征选择时,我们应该充分考虑P(w)因子的作用,既要保证高频的领域通用词,又要照顾到较低频的领域专类词,这样既可满足我们对领域通用词和领域专类词的需求,又可克服特征选择时片面倾向于高频词或稀有词的缺点。

[陈克利,2003]对TF*IDF和TF*IWF*IWFF公式进行了分析并作了一些改进。[陈克利,2003]认为关键词在某类的权重受三个因素的影响:该词在当前类中的出现频率;该词在总语料中的出现频率;该词在不同类别之间出现频率的差异。

第一个因素由TF表示,但如我们上面的分析,类别中词的出现频率和其对该类的重要度并不完全成正比,频率在计算中起了过度的作用,应该采取频率的n次方根(n>=1)的形式消弱其影响,并且可根据n的取值随意调节,以满足对领域通用词和领域专类词的需求。

第二个因素由IWF*IWF表示,含义为:总训练语料中出现次数越少的关键词其权重越高。但TF*IWF*IWFF(和TF*IDF)忽略了第三因素,关键词在总语料中的出现次数并不能完全说明该词在分类中的重要性,频率相同的关键词在分类中的重要性是不同的:在各类之间分布月均匀,其重要性越小;反之越大。

方差是体现数据分布是否均匀的很好的数学指标,但从方差公式中可以看出,方差大小又受到词频大小的影响,为了消除此影响(因为词频因素已经在TF中得到表示了,方差需要的只是词频之间的差异性表示),可以用方差除以该词在各类中词频之和,于是得到公式:

表示关键词在不同类之间的分布差异性。从上面的分析可以得到关键词在类中的权重计算公式:

其中, , 是类 含有的所有词的次数之和, 是词i在类 出现的次数;

,其中m为类别数; 表示训练语料中出现词 的次数,N是训练语料中所有词出现次数之和;n>=1。

四 词语表与训练语料介绍

(一)扩充的词语表

词语切分一般采用最大匹配法。双向最大匹配法速度快,词表开放、格式简单易扩充,而且由于分词错误多集中于常见词,并不影响领域特征词的提取,分词结果正确率对于提取特征词可以充分接受。但是切词底的词条对领域词语抽取影响重大,特别是当大家专注于进行特征提取和特征权值计算的算法改进时,却忽视了进行提取和权重计算的特征本身(即词条)。如果词表中缺乏具有一定完整性和区别度(专指度)的领域词条,那么最先进的算法也是缘木求鱼。

我们在原有通用词条的基础上,扩充了大量领域性强的词语,特别是短语,总词语表达32万余条词语。新增加的词语主要抽取自门户网站网页上专家标引的关键词语。“关键词”是对一个网页的主题的描述词语,更适合作为领域聚类的特征项。

(二)训练语料

训练用的分类语料库约1万个XML文件,1千万字。XML文件标注了语料的标题、关键词、类别(详细标明到细致的主题,如“经济-证券-债券”,共两百多个)、时间、段落等属性。具体领域和文件数分布如下:

采用如此大规模的语料主要是考虑到如下两个因素:

1、一个词语是否属于领域词汇关键在于它区分领域的能力,只有将词语放在整个分类系统中,比较词语在该领域与其它各个领域的出现差异,才能较好地获得这种区别能力。因此,在进行领域词语聚类时,必须将整个分类系统考虑进去,而不是只比较两三个领域。

2、各个领域的语料量必须足够大,这样才能克服词语在语料中出现的偶然性因素,而且,随着语料规模的扩大,新的领域词语也随之增多。

五 算法实现

算法具体步骤如下:

Step1:双向最大切分。同时识别出底表中没有的数字字母词。

Step2:统计词次。统计时根据位置加权,加权时文本长度会对加权因子产生影响。例如,对一篇200字的文章和一篇1000字的文章中的标题中的词,都乘以相同加权因子,那么,1000字的文章的标题中的词的词数就会湮没在整个文章中的词的词数中了,没有体现标题中词的独特标示作用。因此,对关键字、标题加权时,应该动态加权,即按文章正文词数动态调整加权系数。标题加权底数为2,关键字加权底数为3,正文词数按200字分级,每增加一级,在原来系数上相应加1。最终词次统计公式如下:

其中, 表示词w在正文中的计数, 表示词w在标题中的计数, 表示词w在关键词中的计数, \200(整除)。

Step3:权重计算。按照第三节中的公式计算每个词在类中的权重,n(n>=1)参数主要原来调节词频的影响,当n取值小时,倾向于词频大的詞;当n取值大时,则词频的影响减弱,倾向于词频小的词。

Step4:特征选择。通过观察提取结果,根据不同类别的具体情况设定不同的阈值,约为3.5到5.5之间。

六 实验和结果分析

(一)实验与结果分析1

我们分别对n取1、2、3、4、5、6不同的值,然后与该类未作权重计算的频率进行对比,观察权重计算及n值对特征提取的影响(限于篇幅,只列举了n为1、3、6时的情况)。下表在财经领域对五种待对比的分表中各取前30个词,按降序排列。频率这一列指只对财经领域分词后统计词频得到的分表(前30个),未做权重计算;差集指n=6时的词集减n=3时的词集后的余集。

频率这一列中只有财经、公司、市场和企业可以算作经济类的领域词,大量出现的是那些高频常用词。通过对n取不同值时词语的观察,权重计算时n取值对词语的领域通用度(或领域稀有度)的影响显而易见,n取1时,区别度不够,出现了如:的、TOM、公司这样的词语;随着n值的加大(n=6),经济领域中高区别度的词语大量出现,很多基本上都是经济领域中独有的词语,如:半年线、金汇通、重组股、券商、重仓股、双底、超跌股、外汇通等。差集中的词也是区别度很高的词语,并且能够补充n=3时领域通用词中没有出现的词语。

(二)实验与结果分析2

由于没法进行召回率的测试,因此对领域词汇聚类进行评价的最简单指标是准确率。我们以经济领域为例,分别取聚类后(n=2)的前1000、2000、3000、4000、5000个词语,人工进行评测,评测时将与经济相关的专名,如机构名、人名等也作为经济领域的词语。但这种人工评价方法主观性较强,只是一个无奈的选择。评价结果如下表:

从结果可以看出,整体效果较好。随着词语的增加,准确率逐渐下降。

(三)实验与结果分析3

和专家人工构建的领域词表进行比较是本节的目标。我们与北京大学合作完成的HSK(商务)词表(共2382个词语)包括由领域专家收集选择的经济领域的词语。我们与之进行了对比,

词表1(10000)指的是我们自动聚类得到的词表(n=3,前10000个词语),词表2表示HSK(商务)词表,非表示词语不在词表中,词表2与非词表1(10000)相交的数字1109表示“出现在词表2中但不出现在词表1中的词语数为1109个”。

从上表可以看出,二者的重合率比较低,当自动聚类的词表取前2382个时,重合率仅为0.22%。综合分析,原因如下:

1、HSK(商务)词表所收词语以领域通用词为主,甚至包括一些领域不强的一般通用词语,如“生效、维修、实时”(皆不在我们自动聚类得到的词表中);我们自动聚类得到的词表中则偏向领域性强的领域专类词语,如“股指、蓝筹股、社保基金”(皆不在HSK(商务)词表中)。

2、HSK(商务)词表基本上不收经济领域的专名,如公司名、经济人物名;而我们自动聚类得到的词表中含有大量专名,如“”智富基金、华夏银行、周小川(皆不在HSK(商务)词表中)。

3、HSK(商务)词表的词条基本上是词,较少短语;而我们的切词底表中短语数多于词数,因此我们自动聚类得到的词条很多是HSK(商务)词表的词条组合,如“社保基金、机构投资者、资本市场、钢铁板块”。

七 结语

采用迭代阈值算法循环选择文本中特征较强的分词与句子,能够实现文本特征的有效表达同时减小文本规模。迭代阈值算法可以构建一个文本数据渐进近似的框架,从而为线性的的文本数据建立一个层次化的存储结构,从而在文本检索、文本聚类等应用领域发挥作用。试验表明,基于特征空间稀疏近似的文本特征表达能够有效地构建按需取值的文本检索与在线查询,在实际的文本检索与自然语言处理中具有很好的实际应用效果。

参考文献

[1]周雪忠.中文文本分类特征表示及分类方法比较研究[C].Advances in Computation of Oriental Languages.北京:清华大学出版社,2003.

[2]唐焕玲.文本分类系统SECTSCS中若干技术问题的探讨[J].计算机工程与应用,2003,(11).

[3]陈克利.基于大规模真实文本的平衡语料分析与文本分类方法[C].Advances in Computation of Oriental Languages.北京:清华大学出版社,2003.

[4]钟敏娟等.基于分类和关键词组抽取的信息检索算法[J].系统仿真学报,2004,(16).

[5]牟廉明.数据挖掘中聚类方法比较研究[J].内江师范学学报,2003,(4).

(作者单位:云南电网有限责任公司信息中心)