基于产品评论的情感标注一致性问题分析

2018-04-20毛雪芬

文教资料 2018年35期

毛雪芬

摘要：随着信息技术的发展，互联网上由用户产生并带有情感倾向的信息显著增加。对产品评论进行语料标注并进行文本倾向性分析，能够帮助用户快速地获取和理解所需要的信息。如何保证人工标注语料的质量，是语料工作中无法忽视的问题。基于抽取出的两位标注者对汽车评论文本和美妆评论文本各自标注的800句语料数据，旨在通过比较标注一致性，求证以下三点并探究原因：在语料标注的过程中不断细化标注规范对提升标注一致性是否有显著作用;相同的标注规范用于不同领域，标注一致性是否有明显差异;不同的标注规范对同类评论文本的标注一致性是否有明显影响。

关键词：产品评论语料标注一致性文本倾向性

1.引言

随着互联网的快速普及与发展，用户开始主动参与信息的发布，带有情感倾向的信息大量涌现。对这些信息中用户所持的看法、观点、态度或评论进行挖掘，从而得到该看法或评论是属于对该事物的积极或消极意见，即文本倾向性分析[1]，又叫情感分析。

目前，文本倾向性分析按照文本处理类别的不同，可分为基于新闻评论和产品评论的两类情感分析。产品评论类情感分析是以Web上用户发表的产品评论为挖掘对象，从大量的文本数据中发现关于产品的功能和性能的评论信息的过程。[2]其中，对情感信息的抽取是情感分析中最基础的任务，主要是抽取包含情感倾向的主观评论中有价值的信息元素，如评论对象、情感倾向、情感词等。[3]对这些情感信息进行人工标注是情感信息抽取中不可或缺的一环，同时标注的语料也为计算机提取文本特征进行机器学习提供了数据。如何保证人工标注语料的质量，则是语料标注工作中无法忽视的问题。对多位标注者标注的语料进行标注一致性分析，是语料标注过程中评价语料质量的重要指标。

基于汽车评论文本和美妆评论文本的情感分析是产品在线跟踪与质量评论的一个实例，也是文本倾向性分析的实际运用。通过收集用户对汽车或美妆产品的使用反馈，抽取非结构化的评论文本中的对象、属性、情感单元，获得用户对汽车或美妆的倾向性评论，不仅方便生产、销售厂商进行针对性的改进，而且可以为潜在的消费者提供真实的评论信息作为参考，还可以构建相关领域的情感词典，实现文本倾向性的自动分析。

基于两位标注者对汽车评论文本和美妆评论文本各自标注的800句语料，本文旨在通过比较两位标注者之间的标注一致性，从而求证以下三点并探究原因：在语料标注的过程中不断细化标注规范对提升标注一致性是否有显著作用;相同的标注规范对不同领域进行标注一致性是否有明显差异;不同的标注规范对同类评论文本的标注一致性是否有明显影响。

2.语料标注

2.1标注平台

本文选取了汽车评论文本和美妆评论文本的语料。每位标注者在人工标注平台（http：//106.15.336.135：8080/Annotation/）上都拥有自己的用户名和ID。标注者的标注任务就是从标注平台自动切分的句子中抽取出评价三元组，评价三元组的内容是对象、属性、极值，对象由对象位置和标签构成，属性由属性位置和标签构成，极值由极性位置和极性构成。其中，人工标注平台会给出“对象”标签和“属性”标签的相应标签的下拉选项，标注者在标注时根据需要进行选择即可。在标注过程中，如遇到平台所给标签以外的“对象”或“属性”，标注者可以与其他标注者达成一致后，在标注平台上增加“对象”标签。同理，当标注者认为某对象标签不必要时，也可与其他标注者商量后在平台上进行删减。情感极值则需要标注者对文本的情感倾向进行判断。目前的文本情感通常分为两类（正面、反面）或三类（正面、反面和中立）。其中正面类别是指主题中持有积极的态度和立场;负面类别是指文本中持有消极的态度和立场;中立类别是指文本中持中立态度和立场。[4]本次语料标注的情感极值采用三类，分别以-1/0/1代表负面、中立或正面。

2.2標注过程及语料选择

汽车评论文本和美妆评论文本中的语料，由标注者A和标注者B分别进行标注。标注过程如下（图1）：第一部分，在标注规范1中，选取汽车语料中的1202-1400句进行标注，标注者进行商讨后对汽车语料中的2201-2400句进行标注。第二部分，参照这一规范对美妆语料进行1-200句的标注。第三部分，运用标注规范2，对汽车语料中的1-200句重新进行标注。为了便于说明，分别对这些数据简要命名：汽车1201-1400（1）;汽车2201-2400（1）;美妆1-200（1）;汽车1-200（2）。

根据上述提取出的标注语料，对其进行标注一致性分析，旨在印证以下几点，并进行原因探究：

（1）在语料标注的过程中不断细化标注规范对提升标注一致性是否有显著作用;

（2）相同的标注规范应用于不同领域，标注一致性是否有明显差异;

（3）不同的标注规范对同类评论文本的标注一致性是否有明显影响。

在上述公式中，Pa是指一致性概率，其中A是标注者A和标注者B标注一致的次数，N是标注对象的总次数;Pe是指期望值，其中M是目标词w的标记个数，Cj是标注者A和标注者B标注为标记j的次数之和。上述公式能够比较实际观测值和期望值的差异，能够计算两位标注者之间的吻合率，从而评价标注者的标注一致性。Kappa值是语料库质量的重要指标，通过比较标注一致性可以更好地反映标注质量。

计算标注一致性的过程：首先从标注系统后台提取出标注者A和标注者B针对汽车评论文本和美妆评论文本中同一文本的标注语料，本文主要对评价三元组中的“对象”、“属性”、“极值”三个标签分别进行Kappa值的计算，从而对比标注者A和标注者B的标注一致性。需要说明的是，提取出的标注语料中，有些句子不仅仅会有一个评价三元组，还会有多个评价三元组。比如“发动机和变速箱不错”，涉及到了两个对象“发动机”和“变速箱”，需要增加一个“对象”，则导致评价三元组的个数变多。针对同一文本，标注者标注的评价三元组个数和顺序会存在不一致，从而影响统计。例如：

（1）能装能跑的汽车

标注者A<汽车：汽车，动力：，1：能跑>

标注者A<汽车：汽车，空间：，1：能装>

标注者B<汽车：汽车，动力：，1：能跑>

标注者B<汽车：汽车，空间：，1：能装>

（2）操控很有质感指向精准

标注者A<汽车：操控，操控：指向，1：精准>

标注者B<方向盘：，操控：指向，1：精准>

标注者B<方向盘：操控，舒适性：质感，1：有>

为了便于计算Kappa值，对于这类评价三元组不一致的的句子采取人工校对的方式。本文采取的方法是，对于（1）这种评价三元组个数相同前后顺序不同的句子（简称为“多对多”），进行人工手动校对，使之顺序上对齐，方便统计;对于（2）这种评价三元组标注个数本就不同的句子（简称为“一对多”），手动调整前后顺序，一旦对象、属性、极性有一组匹配，则即算作一致。同时补充出标注者A未标注的那栏，赋予空值进行对齐。这样就有了可对比的数据。基于本文主要研究对象、属性、极性的标注一致性，语料规模相对较少，并且这类句子只是少数，所以这种方法是可行的。在所提取的800句标注语料中，出现评价三元组“多对多”、“一对多”现象的句子个数分布如下：

本文只对“对象”、“属性”、“极性”进行标注一致性分析，“对象位置”、“属性位置”、“极性位置”因为对评论文本的情感单元长度和判断差别较大等因素未进行一致性计算。以汽车评论文本的对象标签为例。以下是汽车1-200（1）中出现的所有对象：

如此，求出汽车1-200（1）中标注者A和标注者B的“对象”标签的Kappa值。以此类推，分别求出汽车1201-1400（1）、汽车2201-2400（1）、美妆1-200（1）、汽车1-200（2）四份语料数据的对象、属性、极性的标注一致性。

4.标注一致性统计结果

通过上述公式进行Kappa值计算，汽车1201-1400（1）、汽车2201-2400（1）、美妆1-200（1）、汽车1-200（2）四份语料的对象、属性、极性的标注一致性，图表如下：

从上述图表中可以看出总体的标注一致性趋势。四份标注语料中，对象的标注一致性较高于属性和极性，而属性的标注一致性最差。这符合我们的心理预期。实体是独立存在的，属性是附属于实体之上的特征，实体与属性的关系是“一对多”的关系。实体较好判断，属性的判断则较为模糊。比如“电动座椅和自动空调可能会更好一点”中，对象“座椅”和“空调”显而易见，而“电动”和“自动”是指“配置”属性还是“设计”属性，标注者则难以达成一致。又比如“悬挂太硬”中，“太硬”指的是悬挂的“操控”属性还是“舒适性”属性，由于每个人的认知理解不同，也会有所分歧。诸如此类的问题还有很多。除此之外，还有一类文本，如“这个价位的买suv能买多大的空间呢？”、“作为一款落地75w的豪华品牌suv没有具备与价格相匹配的豪华感”。这些句子都包含了多种属性，可以解读出“价格高”、“空间小”、“外观不豪华”等互有联系的多重含义，容易干扰标注者，在标注过程中标注者难以避免地会依据自己的主观理解和倾向进行标注。

极性标注一致性介于对象和属性之间，标注过程中的极性判断会出现正面、负面、中立和没有极性四种情况。正面的文本容易做出极性判断，而后三者则容易有分歧。例如“发动机还是会给推你背的”、“自动挡油门调教前段非常肉”中的“推你背”和“肉”是负面还是正面;“悬挂很硬”是好还是坏;“座椅舒适性凑合吧”是负面还是中立态度;“后备箱不是电动门”是中性还是没有极性，等等。这些都影响了极性的标注一致性。

5.標注一致性问题分析

下面通过上述统计数据，对下面的观点进行印证分析：

（1）在语料标注的过程中不断细化标注规范对提升标注一致性是否有显著作用。

选取同一标注规范框架下，汽车评论文本中的1201-1400（1）和2201-2400（1）进行对比。从图4可以看出，标注者通过讨论，细化规范，汽车2201-2400（1）的对象、属性的标注一致性均有稳步提高，并且对象的标注一致性提高较大，Kappa值相比于汽车1201-1400（1）的0.730提高到了0.810。

这在我们的预期之中。产品领域的语料标注，必然会受到某一领域的限制。经过对标注规范的不断细化，标注规范趋于稳定，标注者对汽车领域也有了深入的了解，尤其对相应的实体对象更为熟悉。所以提升较大。相比对象和属性的提高，汽车2201-2400（1）在极性上却低于汽车1201-1400（1）。分析语料发现，汽车2201-2400（1）的文本中出现了很多评论文本，如“不追求极速也就不愿意多花10多万去买一个发动机”、“雾灯也不是标配”、“平时帮拉的物品也可以用在后排座椅上折叠起来”、“车身也用了不少轻量化材料”等句子，造成标注者在“中立”和“没有极性”上有所分歧。

（2）相同的标注规范应用于不同领域，标注一致性是否有明显差异。

汽车1201-1400（1）语料标注后，标注者针对相关问题进行讨论，对规范进行细化，再进行汽车2201-2400（1）的标注。之后用此规范对美妆评论文本中的前两百句进行了语料标注。所以选取汽车2201-2400（1）和美妆1-200（1）进行标注一致性对比较为合理。通过比较数据发现，美妆的对象一致性比较高，但属性和极性的Kappa值却较汽车均有所下降。

美妆评论文本的对象一致性较高的原因，可以从表3中得以解释。从表中可看出，汽车评论文本的对象较为分散，而美妆使用高频的对象标签仅有“*”、“洗发乳|洗发露”和“面膜”三个，出现次数分别是“109”，“23”，“10”。美妆中的对象类型不仅较为固定，而且对象也较为细化。

美妆的属性及极性标注一致性结果出乎意料。因为美妆评论文本中句子切分更为细碎，句长短小，相较汽车中的句子要简单许多，按照预期，标注一致性应该有所提高。重新对语料进行分析，可能有以下原因：美妆属性标签的重合性较多，比如“明年双十一再来你家/双十一的力度太大了/划算到爆”，是选“价格”属性还是“优惠活动”属性，而这种句子在语料中所占比重较大。

反观极性，从图6中可以看出，汽车领域和美妆领域极性类别分布差距大，可见人们在不同领域侧重的情感极性不同。比如在美妆领域，有55%是正面评价，而在汽车领域仅有27%;汽车评论文本中，非评价文本过半（58%），而美妆领域仅有34%。上文提到，正面评价较容易判断，而其他三类则容易有分歧，这应该是造成美妆语料中极性降低的原因之一。除此之外，各个领域有其自身的特点。例如汽车领域的“肉”、“顿挫”、“推背”这些词，需要在标注中慢慢熟识汽车领域的相关知识，才能对这些特定词语进行正确的判断，如“肉”说的是车的哪个方面，所表的态度是好还是不好等。美妆评论文本的“苍蝇腿”、“卡粉”、“控油”等词也是如此。这里不排除美妆因为是刚开始进行前两百句标注对其不够熟悉而导致的一致性下降。

当然，在美妆1-200（1）中还存在系统匹配的文本不一致情况，共有4例，如：标注者A的语料是“清扬水润去屑洗后更滋润”，而标注者B的语料是“一直都在用清扬很不错”。这种情况也有可能造成美妆1-200（1）标注一致性不如预期理想。

（3）不同的标注规范对同类评论文本的标注一致性是否有明显影响。

选取汽车2201-2400（1）和汽车1-200（2）进行标注一致性对比。数据表明，相比使用规范1标注的2201-2400，使用标注规范2标注的汽车1-200在对象、属性、极性一致性均有所提高。其中对象标签的一致性提高较显著，属性和极性提高不明显。

对这一结果的分析要结合两份标注规范的内容来进行：

①尽管对象一致性提高明显，然而新的标注规范只涉及一条具体的规定：对象标签中的“汽车”可以作为任何汽车评价文本的对象，默认只有在其他实体没有出现或者语料中提到的实体只有“汽车”的情况下，才将“汽车”作为语料实体。除了这一影响因素之外，对象标注一致性大幅提高的唯一解释就是标注者对标注流程及要点理解趋于稳定。

②在极性上，标注规范1是以直接态度词（心理动词）优先，而标注规范2以具体评论词优先。建议类文本（“要是车身再长一点就好了”）两者同样给定“-1”的极性值。理论上这两处改变对于极性值并没有影响（除非有反语，但在标注的过程中还未遇到）。唯一有影响的就是对非评价文本的处理。规范1只标注其中的对象和属性，规范2将其视为评价文本，所以极性也标。极性一致性有所提高，除了这一影响因素外，同上。

③标注规范2对属性标注作了新的调整，但主要是规定属性位置的标签：“后背/座椅/靠背/角度/实在/不敢/恭维”，这里的属性标签是舒适性，句子中推断出舒适性的词是“靠背角度”。针对属性标签，标注规范2规定要尽可能选择具体的属性标签。如：座椅/太/窄。属性标签可以是空间、设计，则选择更具体的“空间”。这是属性一致性有所提高的原因，然而数据上看，属性没有得到预期上的大幅提高，这也反面证明了这一条规定的难以实施性。因为属性的类别本身就有所交叉较为模糊，哪一个是更具体的属性也存在争议。

在本次印证中，可见新的标注规范有利于语料标注一致性的提高，但想要有显著的作用，还需要针对对象、属性、极性有更为详尽的规范。尽管本文没有对对象位置、属性位置、极性位置进行标注一致性测试，但可以预测，在新的标注规范下，标注一致性会有大幅提升。

6.总结

通过对汽车1201-1400（1）、汽车2201-2400（1）、美妆1-200（1）、汽车1-200（2）这四份语料进行“对象”、“属性”、“极性”标注一致性统计分析，可以得出，在标注一致性上对象>极性>属性;与此同时，本文印证，在语料标注的过程中通过互相讨论，不断细化标注规范对提升标注一致性有显著作用;相同的标注规范对不同领域的標注一致性有所影响，但影响不大;不同的标注规范对同类评论文本提升标注一致性有作用，作用也不显著。

本文还存在以下局限性：（1）由于时间原因，收集的汽车评论文本语料和美妆评论文本语料规模较小。所以下一步需要加大标注力度，形成一定规模的舆情标注语料库;（2）语料选取并不是在同一文本上反复标注进行对比，所以会受到很多因素的干扰。（3）由于不同标注者对不同产品领域的熟悉程度以及语言本身的理解多样性使得在准确率控制方面存在一定的难度。（4）本文只对汽车评论文本和美妆评论文本的对象、属性、标签进行标注一致性分析，未考虑这三者位置的标注一致性，容易影响所得结论的正确性和合理性;除此之外，还有一些因素会导致不一致。比如系统分配的文本存在不一致，比如实际标注了但在系统中却没有显示，出现“null”的情况。又比如标注者标注后没有进行检查，系统中显示的分词和词性忘记修改，并且会存在手误点错或者自身标注语句的前后规范不一致的情况。这就需要标注平台、标注者、标注规范的三方协调才能最终提高标注一致性。

参考文献

[1]魏志生.情感分析及其在产品评论中的应用研究[D].南京：南京大学，2012.

[2]施国良，石峰.基于文本挖掘的不同购物网站商品评论一致性研究[J].现代图书情报技术，2011：64-68.

[3]曲春燕，关毅，杨锦锋，赵永杰，刘雅欣.中文电子病历命名实体对象标注语料库构建[J].高技术通讯，2015，25（2）：143-150.

[4]黄世维.互联网信息情感倾向性的研究与实现[D].西安：西安电子科技大学，2012.

[5]魏慧玲.文本感分析在产品评论中的应用研究[D].北京：北京交通大学，2014.

[6]田园.评论价一致性对于产品属性感知的影响[D].南京：南京大学，2017.

[7]张虎.汉语语料库词性标注一致性检查及自动校对方法研究[D].太原：山西大学，2005.

[8]王娜娜.评论文本情感倾向性分析技术研究[D].北京：北京交通大学，2017.

[9]罗亚平.面向网络舆情的中文评论文本情感倾向分析研究[D].大连：东北财经大学，2010.