APP下载

基于复杂句式短文本情感分类研究

2018-11-13李毅捷段利国李爱萍

现代电子技术 2018年22期
关键词:情感分析

李毅捷 段利国 李爱萍

摘 要: 目前,网络文本中主观内容的情感倾向性识别成为文本信息处理的研究热点。针对汉语中复杂句式的结构特点以及对多种复杂句式的有效分析,基于word2vec进行情感词典的扩建,将扩充后的情感词典、关联词表、否定词表进行特征提取,得到有效的特征词序列,构建新的复杂句式模型并结合SVM进行训练和预测,完成复杂句式情感分类。实验结果表明,提出的复杂句式情感分类模型在处理精度方面比传统的句子级情感分类方法有了明显的提高,获得良好的情感分析效果。

关键词: 文本信息处理; 情感分析; 复杂句式; word2vec; 情感分类模型; SVM

中图分类号: TN911?34; TP391.1 文献标识码: A 文章编号: 1004?373X(2018)22?0182?05

Abstract: The sentiment tendency recognition of the subjective content in the current network text is a hot research topic of text information processing. In allusion to the structure characteristics of complex sentence patterns in Chinese and effective analysis of various complex sentence patterns, the sentiment dictionary is expanded based on the word2vec. Feature extraction is conducted for the expanded sentiment dictionary, associated word list, and negative word list, so as to obtain the effective sequence of feature words. The new model of complex sentence patterns is established, which is trained and predicted by combining with the SVM, so as to complete sentiment classification of complex sentence patterns. The experimental results show that, in comparison with the traditional sentence?level sentiment classification method, the proposed sentiment classification model of complex sentence patterns has a significant improvement in processing accuracy and can obtain a good sentiment analysis effect.

Keywords: text information processing; sentiment analysis; complex sentence patterns; word2vec; sentiment classification model; SVM

隨着互联网的兴起及迅速普及,开放性不断提高,人们通过微博等网络平台和电子商务等网站发表对时事新闻、热门话题、各种商品的观点和看法,用户庞大而稳固。交互的便捷使网络成为了人们越来越喜欢表达自己观点和相互交流的主要方式之一。随之而来网络上产生的主观性文本包含大量有用情感信息[1],因此对复杂句式的情感分析需要不断探索与学习。

1 研究现状

目前,对复杂句式的情感倾向性分析主要是基于机器学习的方法[2],吴晓吟研究了基于篇章情感分析中条件句、转折句、比较句对情感分析的影响,提出这三种句型的情感分析算法使篇章级情感分析准确率有所提高[3]。杨富平等人提出基于SVM和复杂句式的情感分类方法,通过分析汉语复杂句的结构特点,比较各类特征组合的情感分类正确率[4]。Song Rui等人通过建立比较句式模型利用条件随机场(CRF)进行比较句提取与分析[5]。Ramanathan Narayanan等人研究条件句情感分析,建立基于主题的监督学习模型从5个不同领域的条件句证明所提方法的有效性[6]。针对目前文本表达方式自由与多样等问题造成的复杂句式影响句子级情感分析的问题,本文对各种中文复杂句式进行详细情感分析,提出一种针对复杂句式的情感分类准则以及基于word2vec的情感词典扩展方法,结合SVM分类器完成复杂句式的情感分类。

2 复杂句式

2.1 复杂句式简介

汉语中复杂句由几个分句组成,含有多个主谓(宾)结构陈述两件或两件以上事情,重点在主句陈述的事情而分句的出现是为了更全面地阐释主句的含义,总结常见复杂句式:假设句式是某种情况下所产生的结果。例句:“如果不随便扔垃圾,环境就会变好。”褒义词“变好”影响句子情感极性,假设条件或特定条件下子句表达的情况不一定会发生。常用关联词:如果,只要……就;只有……才;即便、即使、就算、哪怕、纵使……还,也等。条件句式提出特定条件产生特定结果,或不管任何条件都产生某种结果。例句“不管这条道路多艰苦,我都会付出我的热情。”中“艰苦”与“热情”褒贬情感词的出现对分类的判定产生影响,后一分句中的情感词是重点。常用关联词:无论、不管、不论……都。

转折句式前后分句意思完全相对或部分相对。例句:“虽然生活水平提高,但是不能奢侈浪费。”转折句中“虽然”引导的分句不是整句话的重点,“但是”引导的分句情感是整句话的重点。常用关联词:虽然、虽说、虽是、尽管……但、但是、然而、可是、不过……。

说明因果句式前后分句分别阐明原因和阐释结果,前后分句都是客观真相。推论因果句式前后分句分别提出一个前提和由该前提推导出的结论,结论句中的情感词更能代表句子的情感倾向。常用关联词:因为……所以;原来、因此……;既然……就。

并列句式由多个简单句不分主次不分从属关系并列组成,前后分句都是客观事实。常用关联词:又……又……;既……又……;一边……一边……;那么……那么……。

选择句式分句分别列举多种情况并从中选出一种情况,例句:“你喜欢游泳,还是喜欢打球。”褒义情感词“喜欢”对情感分类的判定产生影响。常用关联词:是……还是……;与其……不如……;或者……要么……。递进句式前后分句的关系在意义上进一层次,前后分句都是客观事实。常用关联词:不但、不仅……。

2.2 复杂句式处理

本文根据各种复杂句式的特点,将引导复杂句式的关联词归纳为三类,如表1所示。

若复杂句式包含否定词,则前后分句分别统计否定词数量,句中含有奇数重否定会改变句子的情感倾向,含有偶数重否定与句子表达情感倾向相同[7]。本文总结常见否定词:未、从未、难以、绝非、不宜、没有、非、不曾、莫、不够、毋、否、不大、不太、颠覆、不、未曾、并非、未必、休、不要、没、否认、勿、没法、无、无法、不便、别、不许、不是。本文不仅通过关联词识别,还考虑关联词的词性、复杂句式模型来识别复杂句。根据表1对复杂句式的分类,结合否定词,将第一、二、三类关联词用[WA,WB,WC]表示,奇数和偶数重否定分别用[DO,DE]表示,情感词用[WS]表示,总结复杂句式匹配模型如下:

3 資源构建

3.1 情感词典

情感词典的建立和扩展是文本情感分析研究工作的基础。情感词典[8]的完善对提高情感分析准确率有很大帮助。中文情感分析领域当前没有统一标准化的情感词典,本文选取的中文情感词典:将HowNet中文情感词典进行整理有褒义词(4 566个)贬义词(4 370个)。大连理工大学情感词典对中文词汇、短语进行详细描述,将词语情感分为7大类21小类,本文选取11 229个褒义词汇、10 783个贬义词汇以及5 375个中性词汇。网络文本中大量带有情感倾向的新词会影响分词的性能,进而影响文本情感分类结果。为了提高文本情感分类的准确率,本文经收集整理网络资源摘选出464个带有情感倾向的网络词汇构建网络热点词情感词典,如表2所示。

3.2 word2vec原理

word2vec(word to vector)能够学习含有上亿条语句的语料库并输出适度维度空间中的词向量,通过这些词向量之间的运算完成各种自然语言处理的计算任务,许多文本处理把词语作为原子单位,但词语之间没有语义相似这一概念,使处理文本任务时有一定局限性,word2vec能从庞大数据集中计算出高维词向量空间中包含上下文语义信息,有利于挖掘更多情感信息。本文采用基于Hierarchical Softmax的CBOW模型进行训练,该模型比传统神经概率语言模型去掉了投影层,输出层对应一个二叉树,改用了Huffman树,降低了计算复杂度,提高了计算速度[9]。

通过分析有些词语不是输入词语的相近词,例如“疼痛”“状态”“疾病”等,为了将更精确的相近词扩充到基础情感词典,本文使用改进的基于《知网》的词汇语义相似度计算方法[10]。对上一步产生的词语集进行过滤,计算输入情感词与相近词集中每个词的语义相似度,定义语义相似度取值为[0,1]内实数,当两个情感词相似度值等于1则语义完全相同。本文设定阈值为1,保留和种子词语义相似度值为1的词语作为最终入选的相近词,如表4所示。

将已构建的基础情感词典中情感词作种子词,通过上述方法,去除基础情感词典中已存在的重复词,经过人工整理,最终褒义情感词扩充465个,贬义情感词扩充510个,中性情感词扩充105个。

3.3 复杂句式情感分析

4 实验结果及分析

本文使用了豆瓣电影七大分类各100部电影共20 000条影评作为数据集,除去重复和无价值数据,剩余17 542条影评,进行情感极性标注,将分类数据集按比例1∶1用于训练与测试。本文将情感倾向分为褒贬中三类,实验分别使用传统SVM分类器和加入本文构建的复杂句式情感评判规则进行情感倾向性研究,本文以准确率、召回率、F值作为实验的评价指标,单位为%,实验结果如表5和图1所示。

根据实验结果得出7种复杂句式在准确率、召回率、F值三方面都有不同程度的提高,递进句式和并列句式提高程度略低。本文继续验证扩展后情感词典对情感倾向性影响,设基础词典:关联词典+否定词典+网络热点词词典。特征词典1:HowNet词典+基础词典。特征词典2:大连理工大学情感词典+基础词典。特征词典3:HowNet词典+大连理工大学情感词典+基础词典。特征词典4:扩展后情感词典+基础词典。实验结果如表6所示。

通过实验结果分析,扩充后的情感词典在情感分类准确率、召回率、F值三方面都有明显提高,扩充后情感词典包含了丰富的语义信息,挖掘到词语间更多的语义关系,可以得到更完善的领域词、网络新词、情感词。综合以上优势本文提出的复杂句式情感倾向性分析方法有更好的分类效果,展现出优良的性能。

5 结 语

中文文本中涵盖丰富的情感信息,情感分析所使用的方法要考虑是否能正确判断出作者要传达的所有情感,有些词语同时具备褒贬性,例如“好事”,可以表示一件令人快乐的事件,也可以表示对他人的贬责。分词对情感倾向性的判别也很重要,例如“我与其余人不同”,若没识别出“其余”而识别成“与其”则影响情感分析结果。有些关联词的识别,例如“他不如你好看”中“不如”分词系统标注是动词,不是连词,例如“她不管你了”中“不管”虽标注成连词,但不符合复杂句式的匹配模式。有些日常词语单独使用不具备情感,搭配后具有情感倾向,例如“成绩上涨”表达快乐,“物价上涨”表达不满。这些问题都会影响情感倾向性的判断,未来工作要继续对文本情感分析进行更加深入的学习与研究。

参考文献

[1] 赵妍妍,秦兵,刘挺.文本情感分析[J].软件学报,2010,21(8):1834?1848.

ZHAO Yanyan, QIN Bing, LIN Ting. Text sentiment analysis [J]. Journal of software, 2010, 21(8): 1834?1848.

[2] PANG B, LEE L, VAITHYANATHAN S. Thumbs up? sentiment classification using machine learning techniques [C]// Proceedings of the Conference on Empirical Methods in Natural Language Processing. Philadelphia: Association for Computational Linguistics, 2002: 79?86.

[3] 吴晓吟.中文复杂句型的情感分析研究[EB/OL]. [2013?03?15].http://www.doc88.com/p?1738770331623.html.

WU Xiaoyin. Sentiment analysis of complex sentences for Chinese document [EB/OL]. [2013?03?15]. http://www.doc88.com/p?1738770331623.html.

[4] 杨富平,黄志勇.基于SVM和复杂句式的中文微博情感分析[EB/OL].[2016?01?12].http://www.doc88.com/p?3317610703317.html.

YANG Fuping, HUANG Zhiyong. Chinese micro?blog sentiment classification based on SVM and complex phrasing [EB/OL]. [2016?01?12]. http://www.doc88.com/p?3317610703317.html.

[5] 宋锐,林鸿飞,常富洋.中文比较句识别及比较关系抽取[J].中文信息学报,2009,23(2):102?107.

SONG Rui, LIN Hongfei, CHANG Fuyang. Chinese comparative sentences identification and comparative relations extraction [J]. Journal of Chinese information processing, 2009, 23(2): 102?107.

[6] NARAYANAN R, LIU B, CHOUDHARY A. Sentiment analysis of conditional sentences [C]// Proceedings of the Conference on Empirical Methods in Natural Language Processing. Singapore: Association for Computational Linguistics, 2009: 180?189.

[7] 李爱萍,邸鹏,段利国.基于句子情感加权算法的篇章情感分析[J].小型微型计算机系统,2015,36(10):2252?2256.

LI Aiping, DI Peng, DUAN Liguo. Document sentiment orientation analysis based on sentence weighted algorithm [J]. Journal of Chinese computer systems, 2015, 36(10): 2252?2256.

[8] BACCIANELLA S, ESULI A, SEBASTIANI F. SentiWordNet 3.0: an enhanced lexical resource for sentiment analysis and opinion mining [C]// Proceedings of the International Conference on Language Resources and Evaluation. Valletta: European Language Resources Association, 2010: 2200?2204.

[9] LILLEBERG J, ZHU Y, ZHANG Y. Support vector machines and word2vec for text classification with semantic features [C]// Proceedings of 14th International Conference on Cognitive Informatics & Cognitive Computing. Beijing: IEEE, 2015: 136?140.

[10] 江敏,肖诗斌,王弘蔚,等.一种改进的基于《知网》的词语语义相似度计算[J].中文信息学报,2008,22(5):84?89.

JIANG Min, XIAO Shibin, WANG Hongwei, et al. An improved word similarity computing method based on HowNet [J]. Journal of Chinese information processing, 2008, 22(5): 84?89.

[11] 邸鹏,段利国.基于复杂句式的文本情感倾向性分析[J].计算机应用与软件,2015,32(11):57?61.

DI Peng, DUAN Liguo. Text sentiment polarity analysis based on complex sentences [J]. Computer applications and software, 2015, 32(11): 57?61.

猜你喜欢

情感分析
基于语义的互联网医院评论文本情感分析及应用
基于双向循环神经网络的评价对象抽取研究
基于SVM的产品评论情感分析系统的设计与实现
基于词典与机器学习的中文微博情感分析
在线评论情感属性的动态变化
文本观点挖掘和情感分析的研究