文本语义情感倾向分析研究

2019-08-13张毅

科学导报·科学工程与电力 2019年2期

【摘要】互联网提供了一个开放、快捷、交互的平台，使得网民可以自由发表个人意见、表达个人观点、参与对公共事件的讨论。尤其对感兴趣的热点事件或涉及自身利益的社会公共事件，会积极地参与讨论和质疑，这往往会形成对热点事件的态度的一致性和普遍性。对于这些热点问题需要及早发现并掌握其发展动态，及时收集数据、整理信息、分析后续发展并形成相关舆情报告，为政府和相应职能部门提供决策的客观依据。论文在对文本语义模式分析和词汇情感倾向值计算的基础上，提出了基于语义模式与词汇情感倾向的改进判定算法。

一、文本语义情感倾向分析研究的意义

网络信息浩如烟海，鱼龙混杂，人工识别和研判显得力不从心。如何利用计算机网络技术、人工智能技术和数据挖掘技术，对网络舆情信息有效地挖掘和分析成为了一个新的研究热点。如何识别民众所关注的热点话题并有效地分类，如何判断民众对社会事件的态度是正向的d还是反向的，如何分析和把握社会热点事件的波动性等，是网络舆情研究中的亟需解决的重点问题，对认识和引导网络舆情具有重要的科学意义。

互联网提供了一个开放、快捷、交互的平台，使得网民可以自由发表个人意见、表达个人观点、参与对公共事件的讨论。尤其对感兴趣的热点事件或涉及自身利益的社会公共事件，会积极地参与讨论和质疑，这往往会形成对热点事件的态度的一致性和普遍性。同时，因为网络的匿名性，网民发布消息时往往不考虑所发布内容的真实性以及可能带来的社会影响。随着网民数量的持续增长，网络舆情对社会产生的影响也越来越大。

我国正处于社会转型时期，各种公共卫生事件、自然灾害事件、社会安全事件等时有发生；受贿腐败、分配不公等热点问题不断出现。对于这些热点问题需要及早发现并掌握其发展动态，及时收集数据、整理信息、分析后续发展并形成相关舆情报告，为政府和相应职能部门提供决策的客观依据。如果任凭事态的自行发展，很有可能最终形成网络突发事件，影响到社会的稳定和谐。

近几年来，已经有许多网络舆情事件在互联网上发生、发展，并且造成了严重的社会影响。从“瓮安打砸抢事件”到 “躲猫猫事件"，从“郭美美炫富”到“呼格吉勒图奸杀案”，从“香港占中事件”到2015年的“5·2庆安火车站枪击事件”等等，各种社会热点事件不断呈现，都在网络上广泛传播而受到社会的关注。每一个热点话题的出现都可能隐含着某种社会安全危机，存在着转变成社会突发事件的可能性。因此，对网络舆情监测中的文本语义情感倾向分析研究的重要性日益突现。

二、文本语义情感倾向分析研究的基础

目前，基于网络舆情文本语义倾向性研究方法主要有两种：一种是通过现有词典构建情感倾向词典，基于建立的词典，运用分词等技术判断文档中包含的关键词与词典中情感词的语义相似度来决定此关键词的倾向性，把所有关键词的倾向性综合起来就可得到此文档的倾向性。例如，Ku等利用WordNet中的其他与词汇相关的信息来判断词汇的语义倾向性；徐琳宏等采用HowNet作为基准词，并在实验中加入否定词和副词的处理，计算待测词与关联度确定语义倾向，从语义理解方面对电影评论进行了倾向性识别研究。

另一种是建立一个语义模式库，采用语义分析技术用于文本倾向性判断。例如，Wilson等探讨如何结合上下文环境来判定词语倾向性，选用了大量的特征，对信息的倾向性判别提出了一种比较全面的方法；吕滨等设计了一种基于语义分析的信息过滤模型，该模型针对不良信息的特点，以自然语句为处理单元，采用主题词和语义分析的两级过滤工作模式。

综上所述，文本情感倾向性分析技术已经具有一定的研究成果，但是许多方法只是片面地进行倾向性判定，不能较全面、准确地判定文本倾向。目前基于文本语义倾向性研究的方法较多，但都有其局限性。具有代表性的主要有两种方法，一是通过现有词典构建情感倾向词典，将所有情感关键词的倾向性综合起来，从而判定待测文本的情感倾向性，虽然此方法具有通用性，对于所有话题都可以使用一样的情感词典，但是基于情感词典的方法由于没有考虑语义关系和上下文环境，并不能真正鉴别相关文本的情感倾向性；另一种方法是基于语义模式的方法，采用语义分析技术对文本倾向性进行判断，但这种方法不具有通用性，针对每个话题要抽取的语义模式不一样，无法实现自动抽取语义模式。可见，目前针对文本语义情感倾向性研究的方法，单独使用一种方法都不能达到较好的判别效果。

三、文本语义情感倾向分析研究结构

本文是以词汇的倾向分析为基础，逐渐深入到颗粒度更大的句子、文本拓展研究。这是基于以下的分析：从颗粒度大小来说，从词汇到句子再到文本，颗粒度是在逐渐增大的。从这个方面来看，词汇具有基本的颗粒度大小，句子、文本等都是建立在此之上的。换句话说，词汇是句子和文本的基本组成单元，对于句子来说，句子是由有限个词汇组成的，其颗粒度的大小也是有限的。所以，通过一定的句法分析，最终仍需要词汇级别的信息来对句子级别进行识别处理。对于文本来说，其可以由无限个词汇或无限个句子所组成，颗粒度的大小不可能局限在某个范围之内。在实用系统中，绝大多数的情况正是文本级别的识别。虽然文本的语义倾向识别的颗粒度显得有些粗糙，而从词汇入手，以词汇级别的识别为基础，正是解决文本粗糙性的一条重要途径。例如，我们可以通过简单地计算文本中词汇的倾向值并对其求平均的方式，来获得文本的倾向。综上所述，句子、文本级别的倾向分析研究的基础工作就是对词汇级别的倾向分析研究，对词汇的倾向计算是此类研究中的关键工作。

四、文本语义情感倾向分析研究的算法改进

本论文主要是将结合这两种研究方法的优点，将两者结合起来，形成如下的研究框架：首先，基于HowNet建立基准词词典、否定词词典、程度副词词典和语义模式库；其次，对句子进行中文分词和词性标注，提取特征词汇并依据HowNet相似度方法确定其倾向值，同时考虑否定词、程度副词对词汇倾向值的影响；第三，对句子进行语义模式匹配并确定句子权值，并结合已计算的词汇倾向值来确定文档的倾向值；最后将文档的倾向值与设定的阈值进行比较，来最终确定文档的情感倾向性。综合以上分析，得到以下判定算法：

输入：语义模式集合S={s1，s2，……}，需要情感倾向判定的话題T={d1，d2，……}，其中di是话题的各条评论，设定阀值为θ。

输出：话题评论的情感情感倾向值R（T）。

通过实验证明，将基于情感词典和语义模式两种方法综合起来判定文本的语义情感倾向性比单独使用其中一种方法的判定准确率要高，此种方法能够较全面准确的判定文本语义的情感倾向性，从而验证了此种改进算法的有效性和实用性。

基金项目：贵州省教育厅高校人文社会科学研究项目，项目编号：2017ZC044

参考文献：

[1]熊德兰，程菊明，田胜利.基于HowNet的句子褒贬倾向性研究[J].计算机工程与应用，2008，44（22）：143-144.

[2]党蕾，张蕾.一种基于知网的中文句子情感倾向判别方法[J].计算机应用研究，2010，27（4）：1370-1372.

[3]徐军，丁宇新，王晓龙.使用机器学习方法进行新闻的情感自动分类[J].中文信息学报，2010，2195-100.

作者简介：

张毅（1974--），贵州遵义人，硕士，副教授，主要研究方向为计算机应用技术。

（作者单位：贵州理工学院大数据学院）