APP下载

结合属性词和副词权重的细粒度情感分析

2017-08-09

环球市场 2017年19期
关键词:极性词典副词

王 倩

乐山职业技术学院

结合属性词和副词权重的细粒度情感分析

王 倩

乐山职业技术学院

为了提高现有产品评论挖掘算法的准确率,通过计算细粒度的词汇的语义倾向度,设计了一种结合属性词和副词权重的情感倾向分析方法,采取了细粒度分析的思想,对评论的倾向性进行判定。本文设计了一种基于消费者关注程度的属性词权重计算方法,提高同一整句中正反极性同时存在情形下的极性判别准确率。结果表明相较于不考虑属性词权重的方法,结合属性词和程度副词权重的情感分析能够提高准确率6%左右。

属性提取;情感分析;权重;

引言:

随着互联网和计算机技术的快速发展,以淘宝、京东等公司为代表的电子商务也得到了迅猛发展,网购成为很多人购物的重要方式。在实际应用中,利用情感分析技术能挖掘出顾客对商品的满意程度和购物喜好以及商品在使用中的缺陷,为商家提高商品和服务质量具有重要促进作用。随着电子商务网站的发展,产品评论挖掘受到越来越多的关注,中文评论观点挖掘的研究处于起始发展阶段,在中文评论挖掘中,对评论的情感分析一般可以分为基于词典方式和基于分类算法两大类。

1 基于词典方式和基于分类算法分析

本文采用两者结合的方法进行情感倾向分析,将基于词典方式的中间结果作为分类器的一个特征参与到分类中去,相当于在基于词典的方法上进行二次分类,提高判定结果的准确率。对于属性词的权重,一般是应用在特征选择过程中,作为情感倾向分析和属性词提取的结合点,属性词的权重问题在中文评论挖掘中较少作为重点进行研究,大多研究认为属性词对整句的情感倾向同等重要,有研究将TF或TF-IDF改进算法作为属性词的权重[2]。使用TF或者TF-IDF算法作为属性词权重的方法忽略了属性词与属性词之间对于用户而言也存在着不同的重要程度,一般是在整个文档上说明属性词的重要程度。

程度副词的权重同样是研究的重点,在目前的研究中,大都直接使用中国知网发布的情感词集bata版[3]中的副词词典,通过根据语感直接对其赋值的方式进行[4]。此种方法忽略了如果对应的副词不在程度副词表中的情况,对此较少有研究者进行分析,在由词汇的极性扩展到句子的情感倾向性的过程中,容易造成漏检,从而降低检测的准确率。对以上问题,设计了一种基于用户关注程度的属性词权重计算方法。

2 评论预处理及算法前期准备

评论是使用网络爬虫下载的电商网站的评论,在评论中,往往存在着噪声,需要对评论初步去噪,去除明显不属于评论的噪声如广告句、不含对商品评论的句子等。

2.1 情感词提取

消费者在发表评论时,基于自己的主观感受以短文本形式进行描述的反映消费者对产品的主观感受和评价的词汇,称为情感词。可以将情感词归纳为3类:

(1)评价性的形容词:表达消费者主观评价的形容性词汇; (2)情感动词;

(3)网络新词表

2.2 属性词提取

属性词反映了商品不同的特性,在属性词上对商品有针对性分析比在所有特性词上进行分析更有效。因此,如何准确的提取这些属性词,成为情感分析的重要任务之一。考虑到小概率事件对语料库影响较小,滤除次数少于3次的名词。根据中文表达的惯性,一般属性词的附近位置都有对应的评价词,用于评价属性词的具体特性,因此,在提取属性词时,将附近位置存在情感词的属性词提取为候选属性。实验表明窗口长度为5时准确率较高,因此阈值选为5。

3 结合属性词和副词权重的情感分析

3.1 属性词权重设置

为了表示某个特征对整个数据集的贡献程度,通常用数字来衡量其重要程度,常用的表示方式有布尔型权重、频数型权重、信息熵、TF-IDF算法等。一般是在进行特征选择进行加权时考虑。如对于评论句“相机像素很差,但是价格很好”类型的句子,使用均一的权重衡量方式就不能正确的检测出来,判定的结果为0;本文设计的属性方法可以判定出其极性倾向值。对用户而言,“像素”之于“相机”要比“价格”之于“相机”重要,因此判定该句极性为负。

3.2 情感词极性计算

情感词极性计算时采取基于极性词典和语义相似度的极性计算方法。构建的组合的极性词典是通过知网的情感用词集和NTUSD台湾大学的极性词典去重形成。

在情感词极性计算时,首先查找组合的极性词典,若存在则取其极性,同时存在或不存在采用基于Hownet的语义相似度计算极性。词汇的语义相似度计算方法采用刘群等人[4]的计算方法。通过计算待定词与种子集的语义相似度,取top10的和,设定合适阈值判定词语的极性。

在验证实验中发现,若使用全部的Hownet极性词典作为种子集,极性判定的准确率明显不如经过精心选择的种子集。本文在构建种子集时,参考了朱嫣岚等人在文献[5]中使用的40对基准褒贬词对作为种子集,结合商品评论信息的特点进行适当改进,形成新的种子集。

实验以数据集Dataset 1为例, 其中待定情感词共计348个,判定的实验结果如表1所示。

表1 情感词极性计算结果

在严格定义的实验结果中,发现单字情感词大约占判定错误总数的1/3,如“高”、“低”、“大”、“小”等词的极性判定,在基于词汇粒度的情感分析方法时,准确率往往不高。原因在于单字情感词必须要在实际的句子综合考虑。

3.3 程度副词权重设置

当前研究一般基于知网2007年发布的“情感分析用词语集(beta版)的中文程度级别词语,结合人的语感进行人工赋值。其中程度级别词语合计219个,可分为极量级、高量级、中量级、低量级四个量级,分值从大到小,依照人的语感进行赋值。有一定的可行性,但过度依赖于人工建立的修饰词词典。

3.4 实验结果

3.4.1 数据集简介

实验使用的Dataset1是编写爬虫从某电商网站爬取的关于相机的商品评论信息,经过处理后的评论有正样本1869条,负样本256条。为了更好的验证结合属性词权重设置的情感倾向分析方法,在平衡数据集上Dataset 2上进行了实验对比分析。数据集二Dataset2是从本地已下载评论中随机抽取的不同领域商品的评价信息,各抽取正负极性的句子3016条,合计6132条。

3.4.2 属性词权重设置对结果的影响

为了验证本文提出属性词权重设置方法,分别在Dataset1做了对比实验,第一组使用文献[2]中采用的属性词权重的设计方法;第二组将全部属性赋值为1,表明有同等的重要程度;第三组实验对属性词的权重采用本文的衡量方法进行设置,F1-score结果分别是0.656,0.661,0.667,说明本文方法有一定效果。

图1 副词权重改进前后在两个数据集上的结果对比

3.4.3 程度副词权重设置对结果的影响

使用改进后的属性词权重条件下,使用改进后的程度副词的权重分别在Dataset1、Dataset2上的实验,在Dataset1 上结果从0.667提升至0.685;(见图1)

而在Dataset2上使用改进前的副词权重,F1-score为0.67,使用改进后的副词权重F1-score为0.731,分类结果准确率提升了6%。

4 结语

本文设计了一种结合属性词和副词权重的情感倾向分析方法;并对当前属性词权重和副词权重的设置方法进行了改进,在不同的数据集上进行了实验验证,结果表明改进前后的分类性能均有所提升。实验表明本文设计的两种倾向性分析方法是有效的,但仍然存在着不足之处,如在负面评价的判定上有着准确度不高的问题缺点,对多极性的情感分析未能在其他数据集上进行验证等等问题,都需要在下一步的研究中进行改进。

[1]刘群,李素建.基于《知网》的词汇语义相似度计算[C]. / /第三届中文词汇语义学研讨会论文集,2002.

[2]朱嫣岚,闵锦, 周雅倩等.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006, 20(1):14-20.

[3]中国互联网信息中心. 2013年中国网络购物市场研究报告[R]. 2014年4月.

[4]施聪莺,徐朝军,杨晓江. TFIDF算法研究综述[J]. 计算机应用,2009, 29:167-170.

上接(第9 6页)知此知彼,方能百战百胜。首先,一定要把网络引入到旅游管理中,把每个子公司和总公司紧密相连,做到信息畅通、快捷,提高工作效率。其次,在经营中,用高科技手段替代人工操作,既节省了人力和财力,又提高了效能,减少了操作中的失误,更好地为广大游客服务。再次,旅行社的发展跟得上世界形势,就必须大力发展网络营销。我国网络市场巨大,是一个非常有潜力的市场。就目前世界排名来看,我国上网人数仅次于美国,位于世界第2。

3.4 树立旅行社良好形象,打造知名品牌

在当代,企业文化是展现企业“软实力”的重要指标,企业的特色就是灵魂。各旅行社更要视形象为生命,千方百计打造企业形象,树品牌,提高企业知名度和信誉度。主要从以下几方面入手:

第一,加大宣传力度,提高旅行社的知名度。通过合适的媒体,如国内知名报刊、杂志、广播等宣传旅游服务项目、景点和特色。要从游客的需求出发,进行产品设计和宣传。

第二,通过创意活动形式促进宣传,提高旅行社的美誉度。互联网让世界成为“地球村”,创意广告越来越热,旅行社行业的宣传手段层出不穷,花样繁多。

第三,增强旅行社员工的形象意识,树立员工的良好形象。良好的仪表总会给人留下美好的印象,也会在客观上促进旅行社的整体形象树立和发展。如:邀请专业人士为企业员工设计制服,无论是明亮醒目的颜色搭配,还是每一处的细节设置无一不彰显了该公司团结协作、奋发向上的团队精神。员工的精神风貌,反映了企业的精神风貌,特别是一线员工,直接服务于游客,因此,员工的良好形象是旅行社整体形象的重要组成部分,员工对游客的服务质量的高低,将直接影响游客对企业的印象。良好的员工形象加上良好的服务,这必将给旅游企业带来一笔无形资产,为企业的发展提供经济效益。

在国民生活水平日益增长的今天,我国人民开始追求高质量高品位的生活,这对我国的旅游业来说,无疑是迎来了它的巅峰时代。旅游企业应抓住这一契机,开动脑筋,运用现代化管理手段,完善市场策略,更健康更稳步地发展。

参考文献:

[1]赵鹏、李享、刘磊.旅行社与汽车俱乐部经营自驾车旅游的比较研究[J].旅游学刊,2008年第1期

[2]李蕾蕾.旅游目的地形象策划[M].人民邮电出版社.北京,2008年 5月第1版

[3]毛勇.北方经贸三峡重庆库区国际旅游市场营销策略研究[J].北方经贸,2001年09期

[4]李天元.市场定位还是形象定位——旅游企业市场营销中的定位问题[J].旅游学刊,2001年第2期

乐山职业技术学院校级科研基金(KY2016001)

王倩(1986-),女,河南商丘人,乐山职业技术学院助教,硕士,数据挖掘、压缩成像、智能交通。

猜你喜欢

极性词典副词
副词“好容易”及其词汇化成因
韩国语副词“더”与汉语副词“更”“再”的对应
米兰·昆德拉的A-Z词典(节选)
米沃什词典
跟踪导练(四)
词典引发的政治辩论由来已久 精读
红葱不同极性提取物抑菌活性研究
香椿子不同极性部位对糖尿病周围神经病变的保护作用
漫画词典
副词和副词词组