一种改进的商品评价情感极性分析算法

2015-06-23邵其武缪裕青谢益均蔡国永

桂林电子科技大学学报 2015年2期

关键词：词表贬义词词典

邵其武,缪裕青,2,谢益均,高韩,蔡国永,2

(1.桂林电子科技大学计算机科学与工程学院,广西桂林 541004; 2.桂林电子科技大学广西可信软件重点实验室,广西桂林 541004)

一种改进的商品评价情感极性分析算法

邵其武1,缪裕青1,2,谢益均1,高韩1,蔡国永1,2

(1.桂林电子科技大学计算机科学与工程学院,广西桂林 541004; 2.桂林电子科技大学广西可信软件重点实验室,广西桂林 541004)

针对商品评价信息的褒贬分析问题,提出PMI_HRV算法。算法在基于语料库的PMI算法基础上,采用最新的基于知网词典算法,解决基于语料库算法中低频词准确率差的问题;建立评价领域词语相关的基准词表,并增加否定属性表和网络用语表以扩充知网词典,使结果更为准确。实验结果表明,PMI_HRV算法具有较高的准确率和召回率。

情感分析;商品评价;点互信息;知网词典;基准词表

情感分析(sentiment analysis)又称评论挖掘或意见挖掘,是数据挖掘和计算机语言学相结合的一种对网上各种内容进行分析(包括提取、分析、处理、推理等)的技术[1]。情感分析的一个重要应用是对网络上大量的产品评论进行挖掘和分析,计算情感褒贬倾向性,进而发现产品优缺点,为用户决策提供支持[2]。

目前,计算情感褒贬倾向性主要有2类方法:1)基于大规模语料库,通过统计词的概率分布来计算[3];2)基于某种世界知识,一般是语义词典,通过词典层次结构关系来计算[4]。前一类方法结果比较准确,人为影响小,但计算复杂、计算量大,而且与语料库的规模和领域关系比较大;后一类方法简单有效,计算量小,但结果依赖人工建立的词典,受人主观因素的影响比较大,并不一定能客观地反映事实。

鉴于此,提出一种改进的评价词情感极性计算方法PMI_HRV(point mutual information and hownet and reference vocabulary)算法。该方法在点互信息方法基础上,采用最新的基于知网词典算法,解决基于语料库算法中低频词准确率低的问题。在计算2个词的相似度时,不仅考虑2个词的距离,还考虑2个词的位置信息,从而使相似度计算的结果更为准确;建立结合评价领域词语的基准词表,分别从待评价语料和人民日报语料中选择基准词,组成基准词表,并增加否定属性表和网络用语表来扩充知网词典。

1 相关研究

1.1 基于语料库的词语情感极性计算方法

语料库是一种电子文本库,通常已经过科学取样和加工,借助一些分析工具(如计算机),可开展相关的语言理论以及应用研究。

《人民日报》标注语料库是北京大学计算语言学研究所和富士通研究开发中心共同制作的标注语料库,是我国第一个大型现代汉语标注语料库[5]。语料库中每个词语的词性均有明确的标记,目前共有40多个标记。语料库涵盖范围广,涉及领域多,是当前最常用语料库之一,也是本研究所采用的语料库。

基于语料库的方法主要是点互信息(point mutual information,简称PMI)方法[3],通过大规模语料库中词语的统计信息进行情感倾向计算。首先,选取一些基准词,其中有褒义词也有贬义词,计算待求词与所有基准词基于语料库的点互信息值,然后计算待求词褒贬倾向。PMI计算公式为:

其中:P(W1)为词W1在语料库中独立出现的概率; P(W2)为词W2在语料库中独立出现的概率; P(W1&W2)为词W1和W2在语料库中同时出现的概率,一般指θPMI个词距内W1和W2共同出现的概率。例如,W1在语料库中出现了n次,则P(W1)=n,同理,W2在语料库中出现了m次,则P(W2)=m,θPMI=p,则P(W1&W2)指在距离为p的范围内,W1和W2同时出现的次数,由此可得PMI值。由式(1)可知,PMI值与语料库和基准词有关。

假定褒义基准词集Swordset1={C1,C2,…,Cn},贬义基准词集Swordset2={D1,D2,…,Dn},则对于待求词W,基于PMI的情感极性SSO_PMI(W)计算公式为:

即所有褒义词与待求词的PMI值之和减去所有贬义词与待求词的PMI值之和,归一化后使结果为[-1, 1]。若结果大于0,则待求词为褒义词,情感极性强弱由结果大小表示,结果越大,则褒义越强;若结果小于0,则待求词为贬义词,情感极性强弱由结果大小表示,结果越小,则贬义越强。

通过分析可知,基于语料库的PMI方法人工干预较少,当待求词在语料库中出现概率较大时,能够比较真实地反映词语褒贬倾向。然而,该法的计算过程复杂,计算结果严重依赖语料库,若某个词情感极性强,但在语料库中出现次数很少甚至为0,则计算结果值很小,不能完全体现真实情况。另外,基准词的选取对最终结果影响很大。

1.2 基于词典的词语情感极性计算方法

《知网》是由著名机器翻译家董振东先生发起和创建的一个常识知识库,用来描述汉语和英语词语所代表的概念[6]。“概念”与“义原”是知网中最重要的2个概念。每个词语可表示为一个或多个“概念”,每个“概念”可表示为一个或多个“义原”。“义原”是知网中最小的有意义的单位,共有约1500个义原。义原之间存在复杂的关系,《知网》描述了义原之间的8种关系,其中最重要的是上下位关系。根据上下位关系,所有义原组成一个义原层次结构,它是一个树状结构,是语义相似度计算的基础。词语、概念、义原关系如图1所示,义原层次结构如图2所示。

图1 知网词典中词语、概念、义原间的关系Fig.1 The relationship of words,concepts and sememes in Hownet

图2 树状的义原层次结构Fig.2 Sememes hierarchy tree

基于词典的方法是基于知网词典进行相似度计算[4-8]。首先,选取一些基准词,其中有褒义也有贬义,计算待求词与所有基准词基于知网的相似度,然后计算待求词褒贬倾向。

假如一个词语有m个概念,另一个词语有n个概念,那么就有m×n种组合,计算每对概念的相似度,取最大者作为词语间相似度。这样,2个词语的相似度就归结为2个概念的相似度。实词概念和虚词概念之间相似度为0。实词概念的语义表达式分为4部分:1)第一独立义原描述式,其相似度记为s1; 2)其他独立义原描述式,其相似度记为s2;3)关系义原描述式,其相似度记为s3;4)符号义原描述式,其相似度记为s4。总的相似度为4部分加权和,

其中βi为参数,指si在最终s中所占比例,β1+β2+β3 +β4=1。

第一独立义原更能反映词语的主要特征,对次要部分相似度值起制约作用,即若SSIM1比较小,SSIM2比较大,则最终结果不能真实反映2个词语相似度情况[4]。因此,对式(3)进行修改,得到新的相似度计算公式:

义原相似度计算公式[7]:

其中:S1、S2为2个义原;α为可调节参数;d为2个义原在义原树上的距离。

2个义原的相似度不能仅考虑2个义原的距离,还应考虑其他因素,因此,2个义原的相似度还应考虑义原在义原树上的位置因素[9]:

其中:dS1、dS2分别为2个义原在知网层次树中的深度;D(S1,S2)为2个义原在层次树中的距离。

通过式(6)得到2个词语的相似度,然后通过基准词计算某个词的情感极值。假定褒义基准词集SWordset1={C1,C2,…,Cn},贬义基准词集SWordset2= {D1,D2,…,Dn},则对于待求词W,基于知网的情感极性SSo_Hownet(W)计算公式为:

通过分析可发现,基于知网词典的情感极性计算方法,计算过程简单,能很快得到结果。然而,该法的计算基础为知网词典,而知网词典是手工建立,不能完全真实反映所有领域的所有情况,尤其是当一个词在不同语境下有不同意义时,知网计算取所有情况下相似度最大值,显然不能真实反映词语的相似度。因此,通过知网难以获得完全真实的结果。

2 PMI_HRV算法

基于语料库的方法与基于知网词典的方法均有一定的局限性,在基于语料库方法的基础上,结合最新的基于知网的相似度计算方法,建立结合评价领域词语的基准词表,并增加否定属性表和网络用语表来扩充词典,提出PMI_HRV算法。

首先,对需要处理的商品评价语句进行预处理。从网上获取的评价语句长短不一,格式各不相同,需要进行预处理才能进行分析。预处理首先是断句,然后通过分词和依存句法分析以及否定标记等,得到三元对(属性名、情感词、否定属性标记)。

观察发现,商品评论句子有很多相似性,比如一般评论偏向口语化,用语比较简单,一般都是常用词,情感表达比较明确,且容易判断。另外,人民日报语料库涵盖范围广,大多都是通俗易懂的报道,比较符合商品评论特点,因此,大部分三元对中的情感词都可通过式(2)计算得到明确的褒贬极性。对于一些特殊评价词,比如出现概率不大或者不常用的词,虽然比例很小,但对最终的结果仍有影响,这部分用式(7)计算。

2.1 基准词表、否定属性表、网络用语表的建立

基准词表是情感极性计算的重要影响因素,通常选择词典中出现频率较高的词作为基准词[10],但这种选择基准词的方法不能反映不同领域的情况。PMI_HRV算法动态生成基准词表。首先,统计语料中词语词频,选择词频最高的30个褒义词和30个贬义词作为基准词表一部分,然后统计待计算词语词频,将最多的10个褒义词和10个贬义词作为基准词表一部分。不同测试集将得到不同的基准词表。

本算法将原始数据处理成三元对(属性名、情感词、否定属性标记)。一般对商品评价数据的处理得到二元对(属性名、情感词)[11],然而,商品某些属性本身含有否定意义,比如费用、塑料感、温度等,对应的情感词如高、强、高等,它们是褒义词,但实际上属于否定意义,因此,有必要对这部分属性进行单独标记。本算法通过人工筛选建立了一个否定属性表。

商品评价的特点是口语化、通俗易懂、网络用语多,其中网络用语是影响结果的一个重要因素。本算法从大量网络用语中筛选出与商品评价相关的网络用语,建立网络用语表。

2.2 算法描述

图3为算法流程图。PMI_HRV算法描述如下:

图3 算法流程图Fig.3 The flow chart of algorithm

Input:数据集dataset、语料库文件corpus、知网词典hownet、网络用语词典集net_dic、否定属性集neg_att、一般基准词集base_list1。

Output:褒义词识别数qua1、褒义词正确数qua2、贬义词识别数qua3、贬义词正确数qua4。

for(eachSentence(i)∈Dataset)//预处理

{(attribute(i),word(i))←sentence(i);}

for(i=0;i≤dataset.size;i++)

{if(attribute(i)∈neg_att)

(attribute(i),word(i))→(attribute(i),word (i),1);

else

(attribute(i),word(i))→(attribute(i),word (i),0);}

for(i=0;i≤dataset.size;i++)

{if(word(i)∈褒义词)褒义词集←word(i);

else if(word(i)∈贬义词)贬义词集←word(i);}

base_list←top10(褒义词集)//取频次最高的10个加入基准词集

base_list←top10(贬义词集)

base_list←top30(base_list1中褒义词)∪top30 (base_list1中贬义词)

for(i=0;i＜=dataset.size;i++)

{if(word(i)对应三元对为(attribute(i),word (i),1))

{通过式(2)计算word(i)的PMI值a

if(a＞θ)result←(attribute(i),-a);

else通过式(7)计算word(i)的hownet值b

result←(attribute(i),-b);}

else if(word(i)对应三元对为(attribute(i), word(i),0))

{通过式(2)计算word(i)的PMI值a

if(a＞θ)result←(attribute(i),a);

else通过式(7)计算word(i)的hownet值b

result←(attribute(i),b);}}

if((attribute(i),i).get(i)＞0)

{qua1++;

if(attribute(i)是褒义词)qua2++;}

else if((attribute(i),i).get(i)＜0)

{qua3++;

if(attribute(i)是贬义词)qua4++;}

return qua1,qua2,qua3,qua4;

3 实验与分析

3.1 实验环境与实验数据

测试环境是PC机,配置Intel Core i3 3.4 GHz, 4 GB内存,Windows 7系统,算法实现语言为Java,运行环境为Eclipse 3.6。

测试数据是网上某电商关于某款笔记本电脑的评价数据,实验语料库是人民日报标注语料库,知网词典从知网官网下载,网络用语词典是收集整理网络用语后手工建立。

首先建立基准词表,通过知网和测试数据,得到基准词表,如表1所示。通过测试数据分析得到否定属性表,如表2所示。建立的网络用语词典如表3所示。

表1 基准词表Tab.1 Reference words list

表2 否定属性表Tab.2 Negative attribute words list

表3 网络用语词典Tab.3 Network words list

3.2 实验过程

为了对比实验效果,共进行5次实验。实验1单独采用文献[3]的PMI方法,统计褒义词和贬义词数;实验2单独采用文献[9]的知网词典方法,统计褒义词和贬义词数;实验3采用PMI_HRV算法,统计褒义词和贬义词数;实验4通过不同的设定,找到合适的θPMI值和θ值;实验5通过不同的基准词表在PMI_HRV算法下的效果对比说明本算法采用的基准词表的作用。

5次实验所用的预处理后的数据、否定属性表和网络用语词典完全一致,前4个实验所用的基准词表为本算法所用基准词表,实验5对比的基准词表是一般用的基准词表和本算法基准词表。

3.3 实验结果与分析

实验结果采用P、R、F值作为评价指标,P为准确率,R为召回率,F为综合评价指标。P和R是广泛用于信息检索和统计学分类领域的2个度量值,用来评价结果的好坏,其中P衡量检索系统的查准率, R衡量检索系统的查全率。通过计算各个算法的P、R以及F值来衡量算法的优劣,F=P×R×2/(P+ R)。表4～7为实验结果。

表4 不同算法识别数与正确数对比Tab.4 The comparison of different algorithms in identification and correct number

从表4可看出,对于褒义词,3种算法识别数都小于总数,其中PMI_HRV算法识别数1791比PMI算法识别数1578和知网词典算法识别数1686更接近总数2057;在3种算法的正确数上,PMI_HRV算法的1775最高。对于贬义词,3种算法的识别数大于总数1115,说明有部分褒义词被判断成了贬义词,这是评论语料的词语分布不平衡所导致的。PMI_ HRV算法的识别数更接近褒义词总数1115,说明效果最好;在贬义词的正确数上,PMI_HRV算法为1047,和知网词典算法相同,高于PMI算法的923。综合来看,PMI_HRV算法的性能要好于基于PMI和基于知网词典的算法。

表5 不同算法P、R、F对比Tab.5 The comparison of different algorithms in P,R and F

表5由表4的实验数据计算得到。PMI_HRV算法在褒义词上的P值比基于PMI和基于知网词典的算法稍差,但R值要高很多,F值比基于知网的算法高3个百分点,比基于PMI的算法高10个百分点。PMI_HRV算法在贬义词上的P值比基于PMI和基于知网词典的算法分别高6个和14个百分点, R值比基于知网的算法稍高,比基于PMI的算法高11个百分点,F值比基于知网的算法高3个百分点,比基于PMI的算法高13个百分点。

从表6可看出,不同阈值下P、R、F有不同结果,从实验数据看,θPMI=5,θ=0.2时,褒义词上的P、R、F值分别为0.991、0.863、0.923,贬义词上的P、R、F值分别为0.843、0.939、0.888,都比其他情况下的值更高,因此,选取5、0.2作为最终阈值。

从表7可看出,采用本算法基准词表在褒义词P值上比一般基准词表高22个百分点,R值低5个百分点,F值高9个百分点;在贬义词上P值与一般基准词表基本相等,R值比一般基准词表高39个百分点,F值比一般基准词表高30个百分点。采用本算法的基准词表,算法效果明显。

单独用基于语料库的算法和单独用基于知网词典的算法,结果F值均低于PMI_HRV算法。主要原因是单独用基于语料库的算法,部分低频词和中性词无法区分;单独用基于知网词典的算法,依赖手工建立的知网词典。PMI_HRV算法是2种算法的融合,可以很好地解决这些问题。基准词表是算法计算的基础,实验结果表明,本算法基准词表因为兼顾语料库中词语和待评价领域中词语,F值高于一般的基准词表,说明不同领域之间没有通用的基准词表,需要建立结合评价领域的基准词表。

表6 不同阈值下结果对比Tab.6 The comparison of different thresholds

表7 不同基准词表结果对比Tab.7 The comparison of different reference words list

4 结束语

对商品评价信息进行褒贬分析可为商家和消费者提供决策支持。传统基于语料库的方法,结果比较准确,人为影响小,但计算复杂、计算量大,对于出现频率很低的词,准确率低;基于知网词典的方法简单有效,计算过程简单,但其结果依赖人工建立的词典,受人主观意识影响较大。在基于语料库的PMI方法基础上,通过建立结合评价领域词语的基准词表,增加否定属性表和网络用语表,结合基于知网词典方法,提出PMI_HRV算法,解决了使用PMI算法计算时低频词无法计算的问题,扩展了知网词典,使基于知网词典的计算结果更为准确。实验结果和分析表明,算法的准确率、召回率和F值相比已有算法有明显提高,有一定的实际应用价值。

本研究提出算法在某些方面仍然有待改进。例如,采用的语料库是人民日报语料库,对特定领域适应性不高,下一步工作将考虑研究建立一个较通用的跨领域语料库。

[1] 苏杰,缪裕青,刘少兵,等.基于语义倾向计算器的情感分析方法[J].桂林电子科技大学学报,2012,32(4):302-306.

[2] 魏慧玲.文本情感分析在产品评论中的应用研究[D].北京:北京交通大学,2014:1-2.

[3] Turney P D.Thumbs up or thumbs down?semantic orientation applied to unsupervised classification of reviews [C]//Proceedings of the 40th Annual Meeting on Association for Computational Linguistics.Stroudsburg:Association for Computational Linguistics,2002:417-424.

[4] 刘群,李素建.基于《知网》的词汇语义相似度计算[C]//第三届汉语词汇语义学研讨会论文集.台北:台北市中研院语言学研究所,2002:59-76.

[5] 北京大学计算语言学研究所.人民日报语料库简介[EB/OL].[2001-05-10].http://www.icl.pku.edu. cn/icl_res/.

[6] 董振东,董强.知网简介[EB/OL].[2013-01-29].http://www.keenage.com.

[7] 李峰,李芳.中文词语语义相似度计算:基于《知网》2000 [J].中文信息学报,2007,21(3):99-105.

[8] 朱嫣岚,闵锦,周雅倩,等.基于Hownet的词语语义倾向计算[J].中文信息学报,2005,20(1):14-20.

[9] 江敏,肖诗斌,王宏蔚,等.一种改进的基于知网的词语语义相似度计算[J].中文信息学报,2008,22(5):84-89.

[10] 祖李军,王卫平.中文网络评论中提取产品特性的研究[J].计算系统应用,2014,23(5):196-201.

[11] 周剑锋,阳爱民,周咏梅,等.基于二元搭配词的微博情感特征选择[J].计算机工程,2014,40(6):162-165.

编辑:梁王欢

An improved algorithm for sentiment polarity analysis of product reviews

Shao Qiwu1,Miao Yuqing1,2,Xie Yijun1,Gao Han1,Cai Guoyong1,2
(1.School of Computer Science and Engineering,Guilin University of Electronic Technology,Guilin 541004,China; 2.Guangxi Key Laboratory of Trusted Software,Guilin University of Electronic Technology,Guilin 541004,China)

In order to solve the problem that low-frequency words have poor accuracy,PMI_HRV algorithm is proposed for judgment analysis on product evaluation information.PMI_HRV uses the latest method of Hownet based on the PMI.Moreover,the reference vocabulary in the method is related to the evaluation.In addition,the negative attribute table and the network glossary is appended to the Hownet to improve the accuracy.Experimental results show that PMI_HRV algorithm has better precision and recall rates.

sentiment analysis;product review;point mutual information;Hownet;reference vocabulary

TP301.6

1673-808X(2015)02-0156-06

2015-01-26

广西自然科学基金(2014GXNSFAA118395);广西教育厅科研项目(2013YB094);广西可信软件重点实验室基金(kx201116);桂林电子科技大学研究生教育创新计划(GDYCSZ201466)

缪裕青(1966-),女,浙江台州人,副教授,博士,研究方向为数据挖掘、分布式计算、云计算。E-mail:miaoyuqing@guet.edu.cn

邵其武,缪裕青,谢益均,等.一种改进的商品评价情感极性分析算法[J].桂林电子科技大学学报,2015,35(2):156-161.