APP下载

基于K-近邻算法的文本情感分析方法研究

2012-07-25安毅生李慧贤

计算机工程与设计 2012年3期
关键词:查全率查准率全局

樊 娜,安毅生,李慧贤

(1.长安大学 信息工程学院,陕西 西安710064;2.西北工业大学 计算机学院,陕西 西安710072)

0 引 言

面对互联网中海量信息,如何快捷而准确地鉴别人们对某政策、事件或产品等所持的观点是褒义还是贬义,必须借助于文本情感分析 (sentiment analysis)技术[1-6]。本文充分考虑网络文本内部结构以及情感表达特点,提出一种基于K-近邻算法的情感分析方法,建立情感分析层次化模型,多层次、细粒度的分析文本情感。

1 文本情感模型

为了对文本中复杂的情感进行准确的分析,首先引入全局情感和局部情感的概念。全局与局部,是反映事物及其过程包含与组合的相互关系的一对哲学范畴,是揭示客观事物的整体和部分的相互作用和关系的一种普遍联系。全局就是整体,就是事物的各个部分、各个方面的总和,它对于各个部分、各个方面具有领导的、决定的、主要的作用。我们通过分析发现,文本中的情感也符合全局和局部这样的哲学规律,通过对大量语料信息的分析,将文本中的情感分为两种:全局情感和局部情感。全局情感是指整个文本所表达出的情感;而局部情感是指文本中某个特定部分表达出的情感,这个特定部分可以是词、短语、句子或者段落等。文本中各个局部感情相互作用,相互影响,最终确定文本的全局情感。因此,可以通过确定文本的局部情感最终识别全局情感。根据上述分析,建立文本情感层次化模型,如图1所示。

图1 文本情感层次模型

依据文本的语义结构特点,层次化模型分为3个层次:T为文本的褒贬倾向,节点C1,C2…,Cl为各个自然段的褒贬倾向,节点P1,P2…,Pm是段中各个句子的褒贬倾向。句子的情感信息传递给自然段,自然段的情感信息对文本的全局情感产生影响。

这个层次化情感模型清晰的显示了文本内部的情感脉络,通过该模型可以对文本的情感进行多角度、细粒度、分层次的分析。

2 情感分析

根据建立的层次化分析模型,文本情感计算方法可以分为两个步骤进行:①计算并获取文本中的各个段落的情感倾向值,即局部情感;②根据局部情感计算获得文本全局情感。

下面将针对这两个步骤进行详细阐述。

2.1 局部情感分析

首先,确定每个段的情感倾向。段落的情感识别看作段中句子的情感标注问题,因此可以采用条件随机场模型(conditional random field models CRF)[7-9]。由 于 段 中 主 观内容和客观内容是同时存在的,如果先剔除客观内容的,直接对主观内容进行情感分析,必然能有效的避免客观内容对情感判断的影响。基于此,我们提出了一种两层式CRF模型对段进行分析,该模型如图2所示。

图2 两层式CRF标注模型

该模型具体包括以下两个步骤:

(1)在第一层CRF模型中,首先标注段中包含的句子的主客观性。这样通过第一层的标注,将客观句子过滤,只保留主观句子待处理,避免了客观句子影响下一层的褒贬标注。

(2)将标注为主观性的句子作为第二层CRF模型的输入,在第二层完成对句子的褒贬性标注。

根据各层任务的不同,位于不同层次的CRF模型分别采用不同的模型特征。第一层的模型特征为主观特征。我们将包含情感词语的句子定义为主观句子,反之则为客观句。因此主观特征即是情感词。依靠知网资源建立一个包括知网词语以及褒贬两个种子集合的综合情感词库,主观特征就是应用这个情感词库。对于包含情感词库中情感词的句子,将其标注为主观句子,否则标注为客观句子。第二层的模型特征为褒贬特征。我们建立的综合情感词库中的情感词包括两个属性,一个是情感词的褒贬,一个是其褒贬值 (褒倾向赋值为1,贬倾向赋值为-1)。对于句子中包含的情感词,取其褒贬值作为模型的褒贬特征。

通过上述步骤,完成了对段落中句子情感的标注,可以确定每个段落的情感。

2.2 基于K-近邻的文本情感分析

式中:如果y值大于给定的阈值0.5,X属于类1;当其小于0.5时,X则属于类0。其中,Lk(X)表示与给定实例X距离最近的K个实例的值。

在实际应用中,为提高K-近邻法的精度,经常使用一种改进的K-近邻法算法-加权K-近邻法。在该算法中,对每个实例引入了决策权重的计算。对于实例X,分别定义X与K个最近邻 (X1,y1),…, (XK,yK)之间的距离为d1,…,dK。决策权重βi的计算如下

基于权重的近邻决策规则可以描述为

情感倾向包括两类:褒义类和贬义类,因此情感识别可以看作是两类分类问题,即褒义类和贬义类的识别。基于此,采用K-近邻算法[10-13]识别文本的情感。该算法是一种简单、有效、非参数的方法,其本质是一种预测性的监督算法,它的规则本身就是数据样本。

在下文中以两类分类问题为例,给出K-近邻法的形式化描述:基于向量空间模型 (VSM),将每个实例视为Rn空间中的一个点 (向量)。假设n个带类标识的实例数据为(X1,y1),(X2,y2),… (Xn,yn),其中Xi为实例的向量表示,yi为实例对应的类别。类别的取值为0和1,表示两类。对于给定的实例X,可以通过式 (1)判断其类别

在确定实例X的K-近邻后,计算每个实例的决策权重,根据决策权重的大小,判断其在预测X的类别归属时发挥作用的大小14。

这种算法是一种非常有效的方法,它对训练数据中的噪声有很好的健壮性,当给定足够大的训练集合时也非常有效,通过K个近邻的加权平均,可以消除孤立的噪声样例的影响。

对于一个文本的全局情感而言,我们对文本中的所有局部情感采用加权K-近邻方法,从而获取文本的全局情感。由于文本中的各个段具有不同的权重,因此,各个局部情感在影响全局情感时发挥的作用也是不同的。相对重要的段的情感发挥的影响作用大,而相对不重要的段的情感发挥的作用较小。加权K-近邻法通常是根据距离目标点的远近来确定权重的大小,但是在全局情感预测中,各个段的权重并不是根据传统意义的距离来确定的,而是根据段自身体现的重要性确定的。因此权重的计算也与加权K-近邻算法中权重的计算有所不同。

根据上述分析,获取全局情感的计算如下

式中:P(T,sj)——文 本 T 的 全 局 情 感,PT(Ci,sj)——文本T中段Ci的情感,即文本的局部情感,当PT(Ci,sj)为褒义倾向时,取值为1,当其为贬义倾向时,取值为-1。Wi表示段Ci的权值。

段权重的计算是确定全局情感的关键步骤。一个文本中的各个段,对文本的贡献大小是不同,在本文中我们将段的权重更具体化的定义为段的贡献率,所谓贡献率指的是段对文本主题以及内容的贡献程度。通过对语料分析发现,以下几个因素会对贡献率产生影响:

(1)段中包含主题句的多少。主题句是包含主题概念的句子。如果一个段包含的主题句相对较多,说明该段对文本主题表达发挥的作用更大。

(2)是否是文本首段或者尾段。按照网络文本通常的语义结构和作者的写作习惯,首段和尾段相对其它段落对文本表达更为重要。包含文本首段或者尾段的段因而具有较大的贡献率。

(3)是否包含与文本标题相似度较高的句子。文本的标题是对文本主要内容的总结,如果段包含了与标题相似度高的句子,就具有较大的贡献率。

将标题与句子分别表示为特征项的向量,向量间的夹角越小,标题与句子的相似度越高。句子与标题相似度的计算公式如下

式中:T——标题的向量,Si——句子的向量。相似度阈值δ根据实验确定,在本文中通过多次的实验,最终确定δ=0.75,当一个句子与标题的相似度大于该阈值时,认为该句子与标题相似,同时认为包含该句子的段相对比较重要。

全面考虑上述各个因素,一个段的贡献率定义如下

式中:VCi——第i个段的贡献率,NCi——段Ci中包含的所有句子的数目,S(Ci)——段Ci中包含的主题句子的数目,α——当段包含首段或者尾段时赋予的值,n——段Ci中所包含的与标题相似的所有句子的数目。α的值必须通过实验统计分析确定。

通过上述计算步骤,就能确定一个段的贡献率,即段的权重。获取段的情感和段的权重,采用加权求和的方式完成对文本全局情感的预测。

3 实验结果和分析

实验中采用的语料为中文手机产品网络评论文本。首先 从 手 机 产 品 评 论 (http://product.it168.com/newpinglun/cSpace_pl.asp?cType_code=0302)搜集整理手机评论文本,并对所有评论认真审查,去除语言不规范及内容重复的文本,最终选取文本1200篇,将选取的文本转换为统一的文本格式,手工对语料中的文本标注褒贬倾向。同时将所有语料分为两部分,其中600篇作为训练语料集合,其余的600篇作为测试语料集合T。

对本文方法评估分为两个部分,首先评估提出的段权值计算方法;然后评估基于K-近邻方法的全局情感获取方法。

在实验中,采用传统性能评价指标查全率 (R)、查准率 (P)以及F1值刻画性能的优劣。

第一部分实验是评估段权值计算方法。

一种是常用的方法,仅仅考虑到包含首段或者尾段的段有较大权值,其它情况不作考虑;另一种方法是段贡献率计算,该方法充分考虑了标题、主题句子等多种因素对段权值的影响。在实验中,我们主要比较这两种权值确定方法的优劣。为了便于比较,我们将第一种方法称为Q值方法,将第二种方法称为贡献率方法。

在实验前,首先必须确定Q值方法中对首尾段的加权值Q。设置Q=1.1,1.2,…1.9,分别在600篇语料样本上进行试验,其中褒义倾向文本350篇,贬义倾向文本250篇,采用两层CRF模型进行段情感分析识别,随着Q选取不同的值,判断情感褒贬的准确率也随之发生相应的变化。实验结果显示Q值与判断准确率之间的关系如图3所示。

从图3可以看出,当Q=1.6时,情感判断的准确率最高,因此后继实验中Q取值为1.6。

在确定了Q值之后,进行Q值方法和贡献率方法的比较实验。

分别选取测试集文本数的30%、50%、70%、80%、95%形成5个测试集,分别记作T1、T2、T3、T4和T5。采用本文提出的基于两层CRF模型方法识别段的情感,应用Q值方法和贡献率方法分别计算文本的全局情感。表1是采用这两种方法的实验结果比较。

图3 Q值与准确率关系

表1 不同权值计算方法的比较

表1中的实验结果显示,贡献率方法平均查全率达到83.9%,平均查准率达到85.2%,平均F1达到84.5%;Q值方法的平均查全率达到82.5%,平均查准率达到82.4%,平均F1达到82.3%。贡献率方法的各项评价指标明显优于Q值方法。这是因为贡献率方法不仅考虑了包含首、尾段落对段权值的影响,同时将包含主题句的数量以及是否包含文本标题等因素也考虑在内,在权值计算中充分考虑了多种因素的综合影响,能更细致的区分不同段的不同权值。因此,在实际应用中比简单的Q值方法效果更好,能有效提高情感识别的准确率。

第二部分实验是评估基于加权K-最近邻算法的全局情感识别方法。

目前,机器学习方法中的SVM方法[15]和贝叶斯分类器[16]在文本情感二值分类中有较好的分类效果。贝叶斯分类器是一种概率分类器,它利用类别的先验概率和特征分布相对于类别的条件概率来计算未知文本属于某一类别的概率。

因此在实验中,将比较基于加权K-近邻算法与SVM方法以及贝叶斯方法获取文本全局情感的性能。实验中同样采用查全率 (R)、查准率 (P)以及F1值来刻画性能的优劣。

实验测试数据选取实验1中的5个测试集T1、T2、T3、T4和T5。表2是3种方法的查全率和查准率的比较。

表2 获取全局情感的查全率和查准率比较

表2的实验结果说明,基于加权K-近邻算法获取全局情感的查全率和查准率显著高于其它两种方法。SVM方法的平均查全率为81.9%,Bayes方法的平均查全率为80.1%,基于加权K-近邻算法的平均查全率达到了87.5%;SVM方法的平均查准率为81.8%,Bayes方法的平均查准率为81.0%,而基于加权K-近邻算法的平均查准率达到了89.3%。上述比较说明,SVM方法与Bayes方法相比,性能稍好,但是本文提出的基于加权K-近邻算法则明显优于SVM方法,与SVM方法相比,平均查全率超出近7%,平均查准率超出近8%。表3是3种方法的F1值比较。

表3 获取全局情感的F1值比较

表3中的实验结果显示,3种方法的综合评价指标F1值相比,同样是基于加权K-近邻算法明显高于其它两种方法。

上述实验结果说明,基于加权K-近邻算法在提取文本全局情感方面与表现较好的传统机器学习算法相比,各项性能指标都有明显提高。本文提出的层次化情感分析模型对文本情感进行细致划分,同时充分考虑了文本内部各个部分对文本内容以及主题表达的不同贡献;而传统方法仅仅就文本整篇进行分析,忽略了文本内部的语义关联。因此,本方法有助于细粒度地分析文本的情感,并具有较高的准确率。

4 结束语

本文在分析文本结构和情感表达特点的基础上,提出了建立局部-全局的文本情感分析模型,对文本情感进行分层次分析。首先通过两层CRF模型,获取文本中各个段的情感,即文本的局部情感,然后采用加权K-近邻算法获得文本的全局情感。实验结果显示,本文提出的这种情感分析方法,与传统机器学习分析方法相比,明显提高了情感识别的准确率。在后继的研究中,将探讨提取文本中的句法语义信息,以进一步提高模型分析的准确率。

[1]KIM SM,HOVY E.Identifying and analyzing judgment opinions[C].PA,USA:Proceedings of the Main Conference on Human Language Technology Conference of the North A-merican Chapter of the Association of Computational Linguistics,2006:200-207.

[2]Devitt A,Ahmad K.Sentiment polarity identification in financial news:A cohesion based approach [C].Prague,CZ:Association for Computational Linguistics,2007:984-991.

[3]PANG B,LEE L.Opinion mining and sentiment analysis[J].Foundations and Trends in Information Retrieval,2008,2 (1-2):1-135.

[4]Titov I,McDonald R.Modeling online reviews with multigrain topic models[C].New York,NY,USA:Proceedings of the 17th International Conference on World Wide Web,2008:1-120.

[5]Stoyanov V,Cardie C.Topic identification for fine-grained opinion analysis[C].PA,USA:Proceedings of the 22nd International Conference on Computational Linguistics,2008:817-824.

[6]XU Linhong,LIN Hongfei,ZHAO Jing.Construction and analysis of emotional corpus[J].Journal of Chinese Information Processing,2008,22 (1):116-122 (in Chinese). [徐琳宏,林鸿飞,赵晶.情感语料库的构建和分析 [J].中文信息学报,2008,22 (1):116-122.]

[7]CHOI Y,CARDIE C,RILOF E.Identifying sources of opinions with conditional random fields and extraction patterns[C].PA,USA:Proceedings of the Conference on Human Language Technology and Empirical Methods in Natural Language Processing,2009:355-362.

[8]ZHAO J,LIU K,WANG G.Adding redundant features for CRFs-based sentence sentiment classification [C].PA,USA:Proceedings of the Conference on Empirical Methods in Natural Language Processing,2008:117-126.

[9]ZHAO J,XU H B,HUANG X J.Overview of Chinese opinion analysis evaluation [EB/OL ]. http://nlprweb.ia.a.c/2008papers/gnhy/nh1 0.pdf,2008.

[10]Kristof Coussenment, Dirk Vanden.Improving customer complaint management by automatic email classification using linguistic style features as predictors [EB/OL].http://www.elsevier.com/locate/dss,2007.

[11]FANG Yuan,LIU Yang.A new density-based method for reducing the amount of training data in kNN text classification[C].Hong Kong:International Conference on Machine Learning and Cybernetics,2007:3372-3376.

[12]Branavan S,CHEN H,Eisenstein J.Learning documentlevel semantic properties from free-text annotations [C].Proceedings of the Association for Computational Linguistics,2008:263-271.

[13]DU H,CHEN Y Q.Rectified nearest feature line segment for pattern classification [J].Pattern Recognition,2007,40(5):1486-1497.

[14]YU H,Hatzivassilog1ou V.Towards answering opinion questions:Separating facts from opinions and identifying the polarity of opinion sentences[C].PA,USA:Proceedings of the Conference on Empirical Methods in Natural Language Processing,2006:129-136.

[15]ZHANG M,YE X Y.A generation model to unify topic relevance and lexicon-based sentiment for opinion retrieva1 [C].New York,NY,USA:Proceedings of the 31st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,2008:411-418.

[16]CUI H,Mittal VO,Datar M.Comparative experiments on sentiment classification for online product reviews [C].Proceedings of the 21st National Conference on Artificial Intelligence,2006:1265-1270.

猜你喜欢

查全率查准率全局
Cahn-Hilliard-Brinkman系统的全局吸引子
量子Navier-Stokes方程弱解的全局存在性
海量图书馆档案信息的快速检索方法
落子山东,意在全局
基于数据挖掘技术的网络信息过滤系统设计
基于词嵌入语义的精准检索式构建方法
大数据环境下的文本信息挖掘方法
基于深度特征分析的双线性图像相似度匹配算法
新思路:牵一发动全局
基于Web的概念属性抽取的研究