APP下载

面向商品评论的二元情感认知模型

2018-09-18黄永峰

中文信息学报 2018年8期
关键词:知识库常识词语

陈 放, 王 颗, 梁 爽,黄永峰

(清华大学 电子工程系 新一代网络技术与应用实验室,北京 100084)

0 引言

随着电子商务的不断普及,互联网已经成为了商品销售的重要渠道。许多消费者在完成交易后会在购物网站上发表商品评论。消费者可以通过浏览商品评论,了解商品的总体质量、各方面特点、售后服务和交易风险等信息。商家可以通过收集商品评论,获知商品的用户体验,从而加快产品升级,改善售后服务,提高核心竞争力。电子商务交易规模的不断扩大使得网络商品评论的数量迅速膨胀。海量的商品评论已经超出了人工收集和处理的能力,因此需要计算机自动从大规模评论文本中全面、精炼地筛选出有价值的信息。

本文主要关注面向商品评论的细粒度情感分析研究。其目标是将评论文本转化为<评价对象,评价词语>形式的结构化表达,并分析其表达出的情感倾向[1-2]。限制计算机理解人类语言和情感的一个重要因素是,计算机不具备人类社会的常识[3]。这里的“常识”不仅包括常识性知识,还包括常识性推理。目前,很多情感分析系统使用大量评论语料训练情感计算模型,语料中隐含的知识通过训练过程记忆在模型的参数中,用户无法直接感知和修正。本文提出的情感认知模型与这类情感计算模型有所不同。首先,通过学习大规模评论语料,将其中的常识性知识保存在知识库中。然后,基于知识库进行常识性推理,分析用户的情感倾向。显式的知识库表达模式不仅可以让模型进行增量学习,还方便用户修正、重用知识。

本文首先介绍二元情感认知模型的总体设计;然后,依次阐述“二元情感常识库”和“评价体系知识库”的定义和构建方法,该部分体现了模型学习和记忆常识性知识的过程;最后,展示在上述两个知识库的支持下情感分析引擎的应用方法,该部分体现了模型应用已有知识进行常识性推理的过程。

1 相关工作

1.1 二元情感常识库

二元情感常识库主要涉及评价观点抽取和情感倾向判别方面的研究。Hu和Liu[4]先使用关联规则挖掘商品属性,再利用词语的共现关系,将商品属性附近的形容词提取出来作为评价词语,最后利用WordNet中形容词的近义词和反义词集,判断评价词语的情感倾向。该方法的缺点在于没有考虑评价对象的领域相关性以及评价搭配之间的语法关联,抽取结果中存在很多噪声。Popescu和Etzioni[5]首先利用点互信息量(PMI)抽取商品属性,然后通过若干人工制定的语法规则模板识别评价词语,最后使用松弛标记算法确定评价搭配的情感倾向。如果模板制定合理,评价搭配抽取具有较高的准确率。但由于模板的覆盖率有限,该方法的召回率相对偏低。Zhuang等人[6]通过有标注语料学习评价对象和评价词语的词性标签和依存句法关系,再根据学习到的模板抽取无标注评论文本中的评价搭配。该方法能够从训练数据中自动获得语法规则模板,但模板的质量很大程度上依赖于训练使用的评论语料。另一类方法将二元搭配抽取建模为一个序列标注任务,使用有标注数据训练模型,同时识别句子中出现的商品属性和评价词语。Li等人[7]使用词例、词性和句法依存关系等特征构建了条件随机场(CRF)模型,对评价对象、评价观点和情感倾向进行联合抽取。Liu等人[8]使用双向LSTM网络抽取评价搭配,该方法的优势在于无需人工制定模型特征。然而,基于统计的方法普遍存在对文本语义信息利用不足的缺点[9]。同时,为了取得较好的实验效果,此类方法通常需要大量的有标注数据,且跨领域适用性较差。

1.2 评价体系知识库

评价体系知识库主要涉及商品属性层次结构构建方面的研究。Yu等人[10]使用树形结构描述商品属性之间的层次关系。该方法首先利用网络上的商品描述等领域先验知识,构建出一棵粗粒度的初始属性树,然后将其他商品属性加入树结构的过程建模成一个函数优化问题,通过最小化属性树的整体误差得到最终的商品属性树。该方法的优点在于构建结果层次结构清晰,能够看出各个属性之间的关系。但该方法构建的精细属性树的准确性很大程度上依赖于初始树结构的合理性。此外,由于该方法在初始化属性树时需要借助领域先验知识,因此不具有很好的跨领域适用性。Shi等人[11]对属性词语向量化后进行层次聚类,得到商品属性的树形结构描述。该方法的优点在于不需要领域先验知识,具有很好的通用性。但其构建的树结构固定为二叉树,结构不合理,且属性树的准确性较差,一些不具备从属关系的商品属性也作为父子结点出现。Kim等人[12]基于Blei等人[13]提出的nCRP模型进行属性树抽取。然而,该方法的计算复杂度太高,实用性较差。

2 二元情感认知模型

2.1 模型设计

本文提出的二元情感认知模型旨在从自由文本形式的商品评论中提取结构化的评价观点,进而分析消费者的情感倾向,模型框架如图1所示。

图1 二元情感认知模型框架

(1) 情感分析引擎: 以评论文本作为输入,在“评价体系知识库”和“二元情感常识库”的支持下,识别评论文本中的显式观点,并对隐式情感进行推断,输出结构化的评价观点。

(2) 二元情感常识库: 记录了<商品属性,评价词语>形式的二元情感常识及其情感倾向,能够帮助分析引擎进行显式评价观点挖掘。

(3) 评价体系知识库: 记录了商品的常见属性、属性的层次关系和评价权重,能够帮助分析引擎进行隐式情感推断。

模型对不同类型商品的大规模评论语料进行学习,将每一类商品的情感常识和评价体系知识保存在两个知识库中,提供给情感分析引擎使用。上述学习过程也是知识库的构建过程,知识库中的知识可以被修正和重用。情感分析引擎利用“二元情感常识库”中的知识提取消费者的评价观点,然后按照商品的评价体系将其层次化地展示出来。另外,情感分析引擎还可以借助“评价体系知识库”的层次化组织结构对消费者深层情感进行推断。

2.2 二元情感常识库的构建方法

2.2.1 二元搭配抽取

二元搭配是指消费者在商品评论中谈论的具体对象以及描述它的词语,本文将其定义为<商品属性,评价词语>。本文首先利用斯坦福句法分析器Stanford Parser得到评论文本的词性标签和依存句法关系,然后按照一定的语法规则抽取二元搭配。

依存句法分析通过依存句法树来描述句子的句法结构,句子中的词语作为树的结点,词语间的依存关系作为树的边。Stanford Parser依存句法分析的输出格式为“Reln(Gov, Dep)”,其中Gov表示核心词,Dep表示从属词,Reln表示两者之间的依存关系。在对商品评论完成词性标注和依存句法分析后,本文使用表1中的语法规则提取评论文本中出现的二元搭配。其中,POS表示单词词性,Reln表示依存关系,Target表示商品属性,Modifier表示评价词语。

表1 二元搭配抽取规则

2.2.2 情感倾向判断

本文将二元搭配的情感倾向分为积极、消极和中立三类,结合通用情感词典和人机交互进行情感倾向判别。

在二元搭配<商品属性,评价词语>中,评价词语很大程度上反映了消费者的褒贬态度。一类评价词语本身带有强烈的情感色彩,并且在搭配不同商品属性时,其情感倾向保持不变,这一类评价词语称为“通用情感词”。例如,“good”总是表达积极的情感,而“bad”总是表达消极的情感。本文使用伊利诺伊大学Bing Liu研究小组提供的通用情感词典“Opinion Lexicon”进行情感倾向判别。该词典较为完整地收录了常见的通用情感词,包括2 006个积极词语和4 783个消极词语。如果二元搭配中的评价词语属于通用情感词,则根据通用情感词典将评价搭配分类为积极或消极;如果评价词语不属于通用情感词,则进行进一步的判断。

与通用情感词不同,另一类评价词语本身并不带有情感色彩,但在与特定的商品属性搭配时,却能表达出一定的情感,并且这种情感随着搭配对象的变化而改变。例如,“big”本身并没有情感倾向,但在手机领域中,它在描述“screen”时表达出积极的情感,而在描述“problem”时却表达出消极的情感。针对这一现象,本文将包含非通用情感词的二元搭配挑选出来,人工标注其中领域专有二元搭配的情感倾向,最后将其余二元搭配分类为中立。

至此,二元情感常识库的构建全部完成。图2展示了智能手机领域二元情感常识库的部分实例。

图2 智能手机领域二元情感常识库实例

2.3 评价体系知识库的构建方法

2.3.1 商品属性及从属关系抽取

商品属性一般为名词或名词短语。在评论文本中,属性名词通常与带有情感色彩的情感词(常为形容词)共同出现,并被情感词所修饰。根据这一特点,本文使用Qiu和Liu[14]提出的“Double Propagation”算法提取商品属性。

为了得到商品属性之间的关联,本文使用Stanford Parser对评论语料进行依存句法分析,并根据表2中的语法规则抽取属性间的从属关系。其中,Reln表示依存关系,Targets表示商品属性集合,Father表示父属性,Child表示子属性。使用这样两条简单的规则足以抽取出大量从属关系,它们基本可以满足标签抽取及属性树精细化的需求。因此,本文没有采用其他更复杂的规则,以免产生过多噪声。

表2 从属关系抽取规则

根据上述规则抽取出的从属关系中,一个属性可以存在多个父属性和子属性。从属关系整体上较为可靠,但存在较多噪声。为了避免这些噪声的影响,本文在利用从属关系提取标签词及校正属性树时仅使用其共现频率等统计特征,详见2.3.2。

2.3.2 属性树初始化

属性树的初始化过程将商品属性构建成一个初步的层次结构。本文首先将属性词向量化,并以此为基础对属性进行层次聚类,最后利用抽取的从属关系为二叉树中的非叶子结点提取类别标签。

本文用语境向量表示属性词。具体地,假设有n个属性词F1,F2,...,Fn,则每个属性词的语境向量是一个n维向量,Fj的语境向量的第k维是评论语料中同时包含Fj和Fk的句子数量。

对于向量化后的属性词,使用自顶向下的层次聚类方法生成层次结构。本文使用明尼苏达大学George Karypis等人提供的CLUTO聚类工具箱进行聚类操作。为了实现自适应的分类,本文根据Shi等人[7]的方法,采用类内相似度阈值来控制分类,并自顶向下二分实现聚类。类内相似度的定义如下:

具体聚类方法如下:

令C1,C2,...,Ck分别表示聚类得到的k类属性,C1∪C2∪…∪Ck=F(F为所有属性词的集合),记C={C1,C2,…,Ck}是各属性类构成的集合。

(0) 令C={C1}={F};

(1) 计算C中各类别的类内相似度IS;

(2) 设定阈值th(实验中取0.7),记C中类内相似度IS

(3) 对C′中的m类属性分别用CLUTO工具箱进行二分类,得到新的2m类属性,记作集合C″;

(4) 令C=C-C′+C″;

(5) 重复1—4步骤,直至集合C不再变化,所得C={C1,C2,...,Ck},即为最终聚类结果。

上述方法得到的二叉属性树中,所有属性词均出现在叶子节点,非叶子节点没有定义。考虑到非叶子节点是其子孙节点的总体概括,本文提出如下方法提取类别标签:

记“主—从”属性对集合为R=m∈F,s∈F},其中m为主属性,s为从属性,F为商品属性集合。

(1) 对某一属性类的属性词集合Ck,根据属性词之间的从属关系,将该类别所有属性词的所有主属性词加入标签词候选集合M={m|∃s∈Ck,s.t.∈R};

(2) 对每一个候选词m∈M,计算其作为该类属性词标签的得分,如式(3)所示。

其中,freq(s)freq(s)freq(s)表示属性词s在评论语料库中出现的频次,freq()freq()freq()表示“m-s”作为主从关系的属性在评论语料库中出现的频次;

(3) 将候选词按得分从高到低排序,最高得分的候选词作为该类属性的标签。

2.3.3 属性树精细化

经初始化得到的属性树存在树结构不准确、精确度不高的问题。因此,本文提出以下五条规则,用以对初始的属性树进行校正、完善和修剪,具体如下:

(1) 所有孩子节点均非叶子节点的节点,应被其孩子节点取代;

(2) 在非叶子节点出现的属性词,应从叶子节点中删除;

(3) 删除与兄弟节点及父节点之间均无从属关系的叶子节点;

(4) 仅有一个孩子节点的节点,应被其孩子节点取代;

(5) 同名的非叶子兄弟节点合并。

其中,规则(1)、(4)、(5)主要用于改善树形结构,增加属性树的宽度、减少属性树深度;规则(2)、(3)主要用于剔除可能错误分类的叶子节点,提高属性树的精确性。

2.3.4 属性权重设置

商品具有多方面的属性,消费者对重要属性的评价很大程度上决定了其对商品整体的情感态度,而次要属性则对整体评价的影响较小。因此,本文通过对商品属性赋予不同的权值,描述该属性在评价体系中的重要程度。

一般来说,某种属性在评论语料中被消费者提到的次数越多,则说明该属性受关注的程度越高,对消费决策的影响越大,其重要性也就越强。因此,本文规定属性的权重正比于其在语料库中出现的频率。同时,考虑到属性树的层次结构特点,本文使用归一化的相对频率设置属性权重,属性Fi的归一化权重wFi可以根据式(4)计算。

其中,N(Fi)表示Fi在评论语料中出现的次数,mFi表示Fi的父属性。上述属性权重设置方式使得同一父节点下所有子节点的权重之和为1,方便进行情感推断。

至此,评价体系知识库的构建全部完成。图3展示了智能手机领域评价体系知识库的部分实例。

图3 智能手机领域评价体系知识库实例

2.4 情感分析引擎的应用2.4.1 观点挖掘

商品评论中最有价值的信息是消费者对商品各方面属性的具体评价。观点挖掘通过分析自由文本形式的商品评论,输出结构化的评价观点。这使得评论文本中重要信息的表达更加简洁、直观,也简化了信息的进一步加工处理。本文提出了一种基于“二元情感常识库”的观点挖掘方法,用于提取出商品评论中出现的显式评价观点,输出<商品属性,评价词语>形式的二元搭配及其情感倾向。例如,从评论“这款手机的屏幕很清晰,但电池寿命不长”中,可以得到积极的评价搭配<屏幕,清晰>,以及消极的评价搭配<电池寿命,不长>。

由于“二元情感常识库”记录了商品相关的先验知识,本文得以将观点挖掘简化为一个信息检索任务。对于一条评论语句,算法首先定位其中出现的商品属性,然后以属性词为中心,考察一定长度的文本窗口内是否存在能与属性词组成二元搭配的评价词语。如果这样的二元搭配在“二元情感常识库”中出现,则将其抽取出来作为评价观点,并根据“二元情感常识库”确定评价观点的情感倾向。

2.4.2 情感推断

目前的情感分析研究大多只能识别文本中显式表达的情感,无法对深层的隐含情感进行推断,从而限制了计算机的情感理解能力。情感推断有着十分重要的意义: 在情感能够推断的条件下,计算机获取的信息将更加全面,对人的情感“理解”将更加深刻。本文提出了一种基于“评价体系知识库”的情感推断方法,对商品评论中未出现的属性进行情感倾向推断。例如,对于评论“这款手机拍摄的照片有些模糊”,如果具备类似于“照片清晰度是相机质量的评价指标之一”的常识性知识,那么便可以推断出消费者对手机“相机”有负面的评价。

评价体系知识库的树形结构描述了商品属性之间的内在联系,父节点是子节点的总体概括,子节点是父节点的具体表征。因此,父节点的情感倾向可以根据其所有已知情感倾向的子节点推断得出。

首先,情感分析引擎提取出评论中的<商品属性,评价词语>,并通过二元情感常识库确定其情感倾向,从而确定该属性的情感得分,如式(5)所示。

其中,oFi表示已知属性Fi的情感倾向,1表示积极,0表示中立,-1表示消极。未知属性的情感倾向通过其子属性情感倾向的加权和得到,如式(6)所示。

其中,Fk表示待推断的商品属性,mFi表示Fi的父属性,scoreFi表示属性的情感得分,wFi表示属性的权重。根据待推断属性情感得分的正负,便可以推断出消费者对商品高层次属性的潜在情感倾向。

3 实验

3.1 二元搭配情感判别实验

实验使用的数据是从亚马逊网站上爬取的智能手机商品评论,共涉及63件商品,105 978篇评论文档,从中抽取出了2 556条二元搭配。

本文分别统计了包含通用情感词和非通用情感词的二元搭配中积极、消极和中立类别的比例,结果如表3所示。

表3 二元搭配的情感倾向分布

从实验结果可以看出,绝大多数包含通用情感词的二元搭配表现出积极或消极的情感倾向;大部分包含非通用情感词的二元搭配不带有情感色彩,但也有一部分二元搭配能够表达积极或消极的情感态度。为了提高知识库的完整性和准确性,文本对这部分专有搭配的情感倾向进行人工标注后加入知识库。情感倾向判别的实验结果如表4所示。

表4 情感倾向判别实验结果

由于大部分二元搭配包含通用情感词,且包含非通用情感词的二元搭配中情感中立类别较多,因此仅使用通用情感词典便可以得到不错的分类结果。结合人工标注的领域专有情感搭配后,二元搭配情感分类的准确率进一步提升。

3.2 商品属性树构建实验

实验使用的数据是从亚马逊网站上爬取的商品评论,涉及智能手机和笔记本电脑两个领域。数据规模如表5所示。

表5 商品属性树构建实验数据规模

本文根据商品属性树的各个父子节点之间是否符合上下级关系来评价树结构的准确性。设属性树中共有N对父子节点,其中父节点是子节点正确主属性的有n对,本文以正确父子节点对所占的比例n/N来衡量属性树的整体正确率。本文以Shi等人[7]的方法作为基准,对比属性树的构建效果,结果如表6、表7所示。

从实验结果可以看出,本文提出的属性树构建算法在智能手机和笔记本电脑数据集上的准确率均高于基准方法。其中,初始属性树采用了Shi的方法对属性词提取语境向量,并二分聚类得到树形结构,因此树形结构相同。但本文基于从属关系的统计特征进一步提取了类别标签,得到了更为准确的结果。而精细属性树则是在初始属性树上基于本文提出的五条规则进行树形结构对的校正和不恰当节点的滤除,因此准确性进一步提高。

表6 智能手机数据集实验结果

表7 笔记本电脑数据集实验结果

3.3 情感推断实验

实验使用的数据是从车主之家网站上爬取的汽车领域的商品评论,评论数量超过20万条,每条评论带有1~5分的用户评分。本文随机选取若干包含二元搭配的评论,制作了三个规模较小的测试数据集,每个数据集约有1万条评论,每条评论根据用户评分标注了整体情感倾向(小于3分为消极,大于3分为积极)。

为了验证情感分析引擎的有效性,本文首先对评论文本进行显式观点挖掘,抽取其中出现的二元搭配,并确定其情感倾向。然后根据情感推断算法计算属性树根节点的情感得分,若得分大于0,则认为整条评论的情感为积极;若得分小于0,则认为整条评论的情感为消极。实验结果如表8所示。

表8 情感推断实验结果

从实验结果可以看出,情感推断算法得出情感倾向与消费者实际表达的情感倾向基本一致,从而验证了该算法的有效性。

4 结论

本文提出了一种面向商品评论的二元情感认知模型。该模型从大规模评论文本中学习领域先验知识,存储在知识库中,并可以通过人机交互的方式对知识进行更新和修正。模型中的情感分析引擎在“二元情感常识库”和“评价体系知识库”的指导下,能够对商品评论进行显式观点挖掘和隐式情感推断。本文还介绍了“二元情感常识库”和“评价体系知识库”的具体构建流程,以及情感分析引擎的使用方法。实验验证了知识库构建方法的可行性和情感分析引擎的有效性。

本文初步提出了“二元情感常识库”和“评价体系知识库”的基本构建方法,其中涉及的诸多细节还需要进一步的改进和完善,如二元搭配和从属关系的抽取规则、评价单元的情感倾向判别等。另外,未来还需要在更多领域和更大规模的数据集上对模型进行测试。

猜你喜欢

知识库常识词语
容易混淆的词语
汉语近义词辨析知识库构建研究
找词语
靠不住的常识
常识:哪杯更冰凉
基于TRIZ与知识库的创新模型构建及在注塑机设计中的应用
近视600度以上,这5条常识务必知道
高速公路信息系统维护知识库的建立和应用
一枚词语一门静
位置与方向测试题