基于主题的微博小句内评价对象与评价词分析

2016-05-09牟彦霏

现代语文 2016年3期

摘要：本文针对给定主题的微博小句内评价对象与评价词情况，采取基于规则的方法，利用（CUCsas）倾向性分析系统（CUCsas），以第八届SIGHAN中文信息处理研讨会（SIGHAN-8）提供的评测语料为研究对象进行实验，并得出相关结论。

关键词：评价微博主题规则

一、研究背景

目前，倾向性分析主要集中于词语、句子、语篇三个层面，采用的主要是基于规则与基于机器学习的方法两种。这两种技术在倾向性分析领域各有优劣。基于规则的方法对语言本体研究较为深入，对于指定语料分析效果较好，但普适性相对不高。基于机器学习的方法在COAE、CCF等历届评测中虽占据主流，但效果并不理想。

虽然目前国内对微博的倾向性分析研究较多，但大多集中于整体文本的处理与策略的研究，而对特定微博主题的评价对象与评价词的句内或跨句搭配研究并不十分深入。本文针对这类问题，采取基于规则的方法，利用CUCsas倾向性分析系统，以第八届SIGHAN中文信息处理研讨会（SIGHAN-8）提供的评测语料为研究对象进行实验，并得出相关结论。

二、相关工作

（一）系统及运行流程

倾向性分析系统（CUCsas）由短语和句子倾向性计算规则解释器、评价对象抽取与极性判定规则解释器以及词典、规则库组成。短语和句子倾向性计算规则解释器加载语料、词典、短语规则库。词典除原有分词词典以外，还包括用户词典、情感词典、褒贬值词典、语义词典等多部词典。借助词典对语料进行分词及词性、语义、倾向、倾向值4层标注。词典加载切分结束后，进行短语规则库匹配，根据规则与相关公式对整个句子或整条微博进行倾向值的计算。倾向性计算后，通过评价对象抽取与极性判定规则解释器对评价对象提取规则进行解释，完成评价对象的抽取。

本次评测的任务是基于主题的汉语短信息极性分类（Topic-Based Chinese Message Polarity Classification），语料中主题（topic）已经给定，因此倾向性分析系统（CUCsas）在运行时与以往略有不同，不再提取评价对象，而在语义词典中对给定或与之相关的主题赋予“topic”的标签。

（二）确定评价对象

本次评测提供的训练语料共5000条微博，分为五个话题，分别是：日本马桶、三星S6、雾霾、央行降息、油价。其中非评价句4016条，评价句984条。每个话题各1000条。根据评测给定的五个话题，我们对央行、央妈、油价、雾霾、降息、马桶盖、马桶、马桶圈、马桶盖子、日本马桶、s6、S6、三星、三星S6、三星s6、S6旗舰、S6手机、三星手机、S6手机、S系列、Edge、edge、GalaxyS6Edge、GalaxyS6、S6旗舰等词或短语赋予“topic”的标记。我们暂时认为这些词是评价对象。

（三）选取语料

由于本次评测提供的训练语料中非评价句居多，为保证研究效果，我们从5000条微博中每话题选取100句能确定答案正确的微博，且选取的评价句与非评价句数量基本相当。最终在500句中确定评价句228条，非评价句272条。评价句中褒义有79句，贬义有149句。

微博语料与以前传统语料在形式、内容上都有很大差别。由于微博具有“转发”功能，因此用户除发表自己观点以外还可以转发其他用户内容，因此在形式上就会出现一些特殊标记。如“转发”会有“//”标记。发布或转发新闻时，新闻标题会用“【】”标记。我们认为新闻标题中的评价词不是针对整个微博做出的评价，因此对语料进行预处理时首先屏蔽掉了“【】”中的内容。

（四）相关数据统计

为了研究微博句内评价对象与评价词距离关系，运行如下短语规则进行实验：

*/w+#[*/！（w|topic）]+*/（po|ne）+#[*/！（w|topic）]=#3：0

该规则的含义是：两相邻标点间（即小句内）如果有评价词而没有主题“topic”标记，则取消评价词的情感值。这是一条覆盖面非常广的规则，如果将该规则放在所有短语规则最前面，则其他规则必须经过此规则筛选后方可运行，而如果放在后面则此规则毫无意义。这条规则对主题与评价词在小句内共现的情况可以得到较好处理，但对于跨句评价的情况则判断错误。因此该规则只是用来验证研究微博句内评价对象与评价词距离关系，而不能盲目地放进系统作为常驻规则运行。

系统未运行该规则前，短语规则计算出5000条微博的总体准确率为54.42%，500条微博为76.2%；运行该规则后5000条微博总体准确率为71.9%，500条微博为72.4%。系统未运行该规则前评价规则计算出5000条微博的总体准确率为73.82%，500条微博为77%；运行该规则后5000条微博总体准确率为75.66%，500条微博为69.2%。

对500条微博语料进行统计。从小句的角度看，文本中出现主题“topic”标记809处，“topic”标记与评价词（即带有“ne”或“po”标记的词）出现在同一小句的情况314处。以每条微博为单位进行统计，小句中有“topic”标记而无评价词标记的情况有182处，占总数的36.4%。“topic”标记与评价词标记在小句中共现的情况有259处，占总数的51.8%。整篇微博中因为“【】”新闻标题标记而预处理的文本中有“topic”标记的情况有58处，占总数的11.6%。

三、实验结果分析

（一）运行小句内规则

从整体看，5000句微博在运行该规则后短语规则的总体准确率由54.42%提升到71.9%；从准确率看，褒义、贬义都有所提升，但中性下降；从召回率看，褒义、贬义下降幅度较大而中性提升幅度较大；从F值看，褒义、贬义都有所下降，中性较大幅度提升。500句微博褒义、贬义、中性的准确率、召回率变化情况与5000条微博大致相当，但F值有所下降，整体准确率由77%降为69.2%。

5000条微博的语料中，非评价句占大多数，而该规则屏蔽掉了大量评价词的值，这就将很多原系统归为评价句的微博归到非评价句中，从而使得总体正确率有较大提高，但召回率褒义、贬义都有所下降而中性提高。由此可见，500篇评价句与非评价句数量大致相当的语料在运行该规则时说服力可能相对强一些。

由于该规则放在所有规则之前运行，且倾向性分析系统（CUCsas）先运行短语规则之后再运行评价规则，因此在该条规则的影响下，运行评价规则情况与短语规则大致相当。

（二）主题“topic”与评价词共现情况

通过语料可知，主题“topic”与评价词共现情况占总数的51.8%。运行主题“topic”与评价词的小句共现规则，整体正确率为64.09%，中性准确率最高，达86.67%。可见，小句中主题词与评价词共现情况在总文本中所占比例较大，且小句内的评价词对评价对象（即主题“topic”）有很大影响。如：

（-1）（Y：-0.25）【1-1-427】（：/w）（魅族/nq）（黄章/nr）（叫板/v）（三星/nq）（Galaxy/x）（S6/nq）（也/d/clue）（不/d/mone1）（过/v）（如此/r/mopo：-0.25）（！/w）（http/x）（@/w）（凤凰/n）（新闻/n）（客户端/n）

例句中被标记“topic”的词为“三星”和“S6”。

（三）主题“topic”与评价词跨句情况

这种情况下小句内无评价词对主题topic产生影响。因此，中性切分较好，达97.16%，而褒义、贬义切分较差。

如果将该规则放在所有短语规则前运行，因为主题topic与评价词不在同一小句内，本应该所有小句都被认为是非评价句，但这种情况下CUCsas倾向性分析系统切分得到的结果存在有倾向性的情况。如：

（-1）（Y：-0.25）【312-312-8657】（：/w）（出来/v）（混/v）（早晚/n）（还是/d/clue）（要/v）（还/v）（的/u）（，/w）（柴静/nr）（你/r）（也/d/clue）（不/d/mone1）（过/v）（如此/r/mopo：-0.25）（。/w）（——/w）（看到/v）（周忠民/nr）（的/u）（博文/n）（《/w）（崔永元/nr）（点评/v）（柴静/nr）（：/w）（纪录片/n）（如果/c）（能/v）（治/v）（雾霾/n）（，/w）（还/d）（要/v）（有关/v）（部门/n）（干/a）（啥/r）（》/w）（有感而发/lv）（的/u）（评论/v）（。/w）（http/x）

出现这种情况的原因是，“如此/r/mopo：-0.25”这类词或语的情感值不是在情感词典中被赋予的，而是运行短语规则后得到情感值。

例句中“如此/r/mopo：-0.25”运行的短语规则是：

（1）不/d+过/%+如此/%+*/w|y=#3：-0.25

（1）VL=N1

例句中第一条规则的含义是，副词“不”与任意词性的“过”“如此”三词连用时，如果后面直接连接任意标点符号或语气词时，该规则中匹配的第三项（即例句中的“如此”）被赋予“-0.25”的情感值。该规则运行一次。例1中第二条规则是匹配没有关系的句子，第一条规则运行几次就产生几个“VL”。该例句中第一条规则运行一次，产生一个“VL”，则该句的情感值就是“VL”的值。第二条规则运行一次。

虽然小句内规则导致了很多错误，但（CUCsas）倾向性分析系统（CUCsas）有一定的修正能力。由此可见，基于规则的方法在解决这类问题上非常有效果。

（四）小句内规则放在短语规则最后

本文前面对小句内规则“*/w+#[*/！（w|topic）]+*/（po|ne）+#[*/！（w|topic）]=#3：0”放在短语规则最前部的情况进行了相关实验，对主题“topic”与评价词在小句内外的情况进行了验证。我们可以看出，该规则对语料的影响非常大，虽然可以解决一定问题，但也导致了很多不可解决的错误。尽管（CUCsas）倾向性分析系统（CUCsas）有一定的修正能力，但不能保证准确客观。该规则最大的问题是过分地将很多跨句对评价对象进行评价的词取消了情感值。为了避免这一点，下面将该规则置于短语规则最后面，使用500条微博语料进行实验，短语规则计算得出总体准确率为76.6%。运行评价规则后，总体准确率为73%。整体来看，将规则置于最后虽然比将规则置于最前效果好一些，运行短语规则后总体准确率较原系统也略高，但运行评价规则后效果依然不如原系统好。

四、结语

本文在倾向性分析系统（CUCsas）的基础上，通过基于规则的方法对微博句内评价对象与评价词距离进行了相关实验。验证发现，虽然目前基于规则的方法在学术界并不是普遍流行的用法，但我们坚信基于规则的方法对语言的深度研究是十分必要的。

本文只是从5000条微博中抽取500条作为样例进行研究，由于能力与精力所限，研究的语料规模不够大，语料分析的程度不够细致，所得结论也存在很多偏差，没能完全做到科学准确，仍需进一步探索与研究。对微博文本进行倾向性分析有非常重要的研究价值和应用价值，相关问题有待进一步探讨。

参考文献：

[1]侯敏，滕永林，李雪燕等.话题型微博语言特点及其情感分析策

略[J].语言文字应用，2013，（2）：135?143.

[2]刘鸿宇，赵妍妍，秦兵等.评价对象抽取及其倾向性分析[J].

中文信息学学报，2010，（1）：84?88

[3]周红照，侯明午，颜彭莉等.语义特征在评价对象抽取与极性

判定中的作用[J].北京大学学报（自然科学版），2014，（1）：93-99.

（牟彦霏北京中国传媒大学文法学部文学院 100024）