APP下载

融合粗糙数据推理的卷积记忆网络文本情感分析

2022-11-16钟娜周宁靳高雅

科学技术与工程 2022年29期
关键词:准确率向量分类

钟娜, 周宁, 靳高雅

(兰州交通大学电子与信息工程学院, 兰州 730070)

随着Web2.0的快速发展,网民规模逐步增多,人们通过移动端应用程序编辑文字上传网络,会对所购买的产品以及发生的热点事件在平台上进行评价,这就使得网络中出现了大量对产品、服务或意见等的评论。这些带有主观情绪的评论在很大程度上是人们情绪倾向的真实写照,因此网络信息的主观倾向性分类备受关注。

情感分类主要根据文本中表达的情绪信息分为积极和消极两种或多种类型。由于现在的网络文本体现更多的是及时性和随意性,内容针对性强,没有完整的语义结构,导致语义特征稀疏,使得文本内部特征关系建模难度加大。新的网络流行词汇层出不穷,这也对语义特征识别提出了更高要求,情感语义需要对文本的词汇和结构进行更加深刻的理解。

早期处理情感分析的方法主要是基于语义的情感词典[1-2]方法,利用情感词典和句法分析来处理句子中的情感倾向词,但该方法受限于情感词典的质量和覆盖面。机器学习解决情感分类任务主要是有监督学习算法[3],陈波等[4]将Word2Vec词向量与Glove词向量进行相加融合,采用逻辑回归分类器验证了分类的有效性。此外,深度学习在情感分类领域取得了突破性进展,针对单一的卷积神经网络(convolutional neural network,CNN)模型在池化层时丢失了结构信息与长短期记忆网络(long short-term memory,LSTM)模型无法编码句子从后往前的信息等问题,学者们就如何高效提取特征展开了一系列研究。谢思雅等[5]提出双向长短期记忆网络(bi-directional long short-term memory,BiLSTM)与注意力机制的网络模型,结合Word2Vec词向量取得了较好的效果。为了减小特征维度,选择最具代表性特征,文献[6-7]采用CNN结合双向门控循环单元(bi-directional gated recurrentunit,BiGRU)并增加注意力机制,有效进行特征学习;王勇等[8]将多重注意力结合BiGRU进行建模;张腾等[9]利用情感词典计算情感积分,结合CNN与双向门控循环单元网络注意力机制进行特征提取,准确捕捉影响句子极性的情感特征。文献[10-11]分别将注意力机制与BiGRU、BiLSTM结合起来;黄卫春等[12]将CNN与BiLSTM结合用到文本分类任务中,对不同来源的词向量进行正逆序特征提取,获得了较好的分类效果;韩普等[13]提出融合词性与词语位置的特征向量和注意力机制的多个通道分类模型,有效提高了情感分类准确率;李辉等[14]提出基于HAN的双通道复合模型,证明了比起单一通道效果更出色;文献[15]利用LDA主题模型生成特征项,获得高质量词向量;邓钰等[16]利用n-gram特征和有序神经元长短时记忆(ON-LSTM)网络对多头自注意力机制进行改进,充分提取文本情感特征。同时随着深度神经网络的进一步丰富,Liao等[17]提出一种多级图神经网络的文本情感分析模型,确保了模型分类的准确性;Li等[18]利用Transformer中的自注意力机制结合胶囊网络,很好地捕获了句子的双向语义特征。

虽然以上研究所提出的模型都取得了不错的效果,但是,现阶段情感分析算法还存在以下问题:①在词向量嵌入层的改进较少,只是多种神经网络结合进行单一的特征提取并分类;②在特征提取时未充分利用语义关联规则,忽略了一些从文本全局出发挖掘到的细微情感元素,降低了模型对文本表征的能力。

为解决以上问题,现提出融合粗糙数据推理的卷积记忆网络情感分析模型,利用粗糙数据推理挖掘出能代表文本情感倾向的情感词集作为情感元素,将模型输入从直接分词得到的浅层特征转向为更具代表性的深层特征,包含更多的情感语义信息,输入卷积记忆网络中进一步提取特征有效提高文本的情感分析准确率。

1 相关技术与模型

1.1 粗糙数据推理理论

1.1.1 粗糙集理论

粗糙集理论[19]是粗糙数据推理的基础,它依托于近似空间,为进一步理解粗糙数据推理[20],有如下定义。

设U是数据集,R是U上的等价关系。把U和R构成的结构记作M=(U,R),称M=(U,R)为近似空间,其中U为论域。在利用近似空间去描述概念时需要通过近似的方式去刻画,因此引出上近似和下近似的概念。设M=(U,R)为近似空间,U/R={[a]R|a∈U}为U相对于R的划分,其中[a]R是由a确定的R等价类。对U中的任一子集X⊆U,在近似空间M内,子集X的上近似R*(x)和下近似R*(x)的定义为

R*(x)=∪{[a]R|[a]R∈U/R且[a]R∩X≠φ}

(1)

R*(x)=∪{[a]R|[a]R∈U/R且[a]R⊆X}

(2)

上近似R*(x)等于所有与X的交不等于空集的R等价类的并,下近似R*(x)等于所有包含在X中的R等价类的并。下近似R*(x)包含在精确信息X的内部,它含有的信息过于精确,而上近似R*(x)中的信息涵盖X,是精确信息X的扩展,通常包含X以外的近似信息,从而扩大精确信息的范围。因此,只考虑上近似,从而引出粗糙数据推理。

1.1.2 粗糙推理空间

U是数据集或论域,给出K={R1,R2,…,Rn}(n≥1),R1,R2,…,Rn为U上n个不同的等价关系;给定U上的二元关系S⊆U×U,称S为推理关系。将U、K和S构成的结构记作W=(U,K,S),称W=(U,K,S)为粗糙推理空间[21]。

1.1.3 粗糙数据推理

引入粗糙数据推理的目的是对实际中的粗糙数据联系进行描述,并密切关联于等价关系与推理关系的融合信息,使得数据之间展示推理,也体现近似。等价关系产生上近似,上近似中包含近似信息,推理关系记录的数据联系可视为数据之间的蕴含关系,即文本中含有情感特征的词语之间的蕴含关系,这使得推理运作于数据之间成为可能。关于粗糙数据推理的定义如下。

设W=(U,K,S)是粗糙推理空间,对于a∈U及R∈K则有

定义1设b∈U,如果b∈R*([a-R]),则称a关于R直接粗糙推出b,记作a⟹Rb。其中[a-R]定义为:[a-R]={x|x∈U且存在z∈[a]R,使得∈S}为[a]R的S的后继集。

定义2设b1,b2,…,bn,b∈U,如果a⟹Rb1,b1⟹Rb2,…,bn-1⟹Rbn,bn⟹Rb,n≥0,则称a关于R粗糙推出b,记作a|=Rb。

定义3对于R∈K,a由上述推理得到b的推理过程称为粗糙数据推理。

将以上推理方法用到TextRank[22]情感词提取算法中,增加情感词汇之间的关联关系搜索范围,通过推理得到候选情感词词图,应能更全面地得到准确代表文本所表达的情感倾向的情感词。充分利用语义关联规则,扩大了文本情感信息,帮助模型在训练预测中更有效地识别情感特征。

1.2 词向量

Word2Vec包含CBOW和Skip-gram两种神经网络语言模型[23]。Skip-gram模型从目标情感词上下文中选择一个词,将其词向量组成上下文的表示,即根据当前词来预测上下文概率的。CBOW模型使用一段文本的中间词作为目标词,其输入层就是语义上下文的表示。FastText词向量[24]是基于Word2Vec词向量做出的改进,对词语统计了它的n-gram信息作为特征输入,采用层次softmax改善了运算效率。将利用粗糙数据推理得到的情感词集采用Word2Vec词向量进行表示,同时训练文本的FastText词向量,二者融合以此来对词向量嵌入层改进。

1.3 BiLSTM模型

BiLSTM由前向LSTM与后向LSTM组合而成[25],在对句子进行建模时,可以拥有句子从前往后与从后往前的信息,从而更好地捕捉句子的双向语义依赖关系。解决了RNN计算效率慢、梯度爆炸以及仅具有短期记忆的问题。

1.4 CNN模型

CNN模型[26]对文本的浅层特征抽取效果较好,主要由嵌入层、卷积层、池化层和全连接层构成。不同于传统处理图像的CNN,它的卷积核宽度由词向量维度决定,只在文本序列的一个方向做卷积。将已改进的含有更强情感信息的文本词向量表示作为以上两种神经网络的输入,并结合二者各自的优势提取出更具代表性的情感特征,注意力机制对提取出的特征进行筛选与优化,因而可以确保本文模型具有更好的情感建模能力与分类效果。

2 卷积记忆网络情感分析模型构建

在CNN与BiLSTM网络基础上,将利用粗糙数据推理获得文本的情感词集Word2Vec词向量表示,融合到FastText生成的文本词向量中,使融合后的词向量具有更多深层语义的情感信息,以此来改进词向量嵌入层并加入注意力机制,选择关键特征,构建出如图1所示的情感分析模型。

图1 实验情感分析模型图

2.1 词向量嵌入层

传统的提取特征方法如词频-逆文本频率指数(term frequency-inverse document frequency,TF-IDF)仅以词频来度量词语的重要性,很多低频词也可携带重要的情感信息,TextRank算法在构建关键词图时采用共现窗口原则建立节点之间的关联,这一过程中仅仅考虑到局部词汇之间的联系。为了能提取出准确且代表性强的情感特征,对传统关键词提取算法TextRank进行改进使其提取出情感词集。评论文本经过分词、词性过滤得到候选情感词集C={c1,c2,…,cn}。定义规则中的关联度是确定两个情感词之间是否存在直接联系,点互信息(pointwise mutual information,PMI)算法为统计两个词语在文本中同时出现的概率,如果概率越大,其相关性就越紧密,关联度越高,表达式为

(3)

式(3)中:word1与word2是文档中两个候选情感词,当PMI>0时两个词语是相关的,将具有关联的两个情感词及其关联度加入关联集合中。

U相对于R的划分即划分等价类是根据知网与词林[27]计算候选情感词间的相似度得出的。基于知网的词语相似度计算公式为

(4)

式(4)中:sim1(C1,C2)为独立义原构成集合计算出的相似度;sim2(C1,C2)为关系义原特征结构的相似度;sim3(C1,C2)为关系符号的相似度。有的词语会有多个义项,所以情感词的最终相似度取所有义项组合中相似度最大的值,即

(5)

基于词林的词语相似度计算公式[27]为

(6)

利用知网和词林分别计算出相似度后记作s1和s2,接着综合考虑二者,同时为其赋予权重λ1和λ2,且满足λ1+λ2=1,按照式(7)的规则计算出情感词之间的最终相似度,即

s=λ1s1+λ2s2

(7)

引入粗糙推理空间W=(U,K,S),其中U为候选情感特征词集,K为等价关系的集合,R∈K,运用粗糙数据推理进行情感特征提取,如图2所示。

c1~c8为候选情感特征词

U相对于R的划分为

U/R={{c1,c2,c3},{c4,c5},{c6,c7,c8}}

(8)

假设推理关系为

S={}

(9)

推理关系由点互信息确定,U相对于R的划分基于候选情感词之间的相似性。

对c1,经过推理[c1]R={c1,c2,c3},[c1-R]={c4,c5},R*([c1-R]={c4,c5}又c5∈R*([c1-R]),所以c1⟹Rc5,同理对于c5,[c5]R={c4,c5},[c5-R]={c6,c7,c8},又c7∈R*([c5-R]),得到c5⟹Rc7,由c1⟹Rc5,c5⟹Rc7可知c1|=Rc7。对于不同等价类中的两个情感词之间也可能具有潜在联系,通过推理可看出c1与c7之间亦存在潜在关联。故将c1与c7添加到关联集合中,得到情感词集C′={c′1,c′2,…,c′n}。表示成Word2Vec向量形式为[fc′1,fc′2,…,fc′n]。最后训练生成评论文本的FastText词向量[fs1,fs2,…,fsn],二者融合使词嵌入层拥有更深层细微的情感元素。

2.2 CNN拼接BiLSTM层

ci=relu(ωfi:i+h-1+b)

(10)

接着将融合向量输入BiLSTM网络中,其分析模型如图4所示。例如前向的LSTMF依次输入“羡慕”,“旅游”,…“值得”,得到3个向量{hF0,hF1,…,hFn},后向的LSTMB依次输入“值得”,…,“旅游”“羡慕”,得到3个向量{hB0,hB1,…,hBn},将前后的隐向量拼接为{[hF0,hBn],[hF1,hB1],[hFn,hB0]},即{h0,h1,…,hn}。这样可以同时捕捉到句子从前往后和从后到前的语义信息。得到由拼接网络提取的特征。

图4 BiLSTM模型

2.3 注意力层

为对上述拼接网络提取的特征进行二次提取,凸显出关键情感特征,因此将注意力机制应用到本文算法中,计算公式为

σi=tanh(Wwhi+bw)

(11)

αi=softmax(σi)

(12)

ci=∑αihi

(13)

式中:σi为变换函数,对隐含层输入向量hi进行计算,Ww为权值矩阵;bw为网络可训练学习出的参数,经softmax函数处理得到权重的概率分布αi,最后对隐含层输入向量hi与权重αi进行加权求和,计算出模型的输出ci。

2.4 输出层

得到最终模型所需的特征后,在输出层利用dropout技术丢弃每一层的某些神经元,防止模型出现过拟合的问题。softmax函数用来分类预测情感类别。模型损失函数采用交叉熵损失函数,由于分别进行了情感二分类与三分类实验,二分类计算、三分类计算公式分别如式(14)、式(15)所示。

(14)

式(14)中:yi为样本i的标签,i取0~1;pi为样本i预测为正类的概率。

(15)

式(15)中:M为类别数量;yic为符号函数,若样本i的真实类别为c,则取1,否则取0;pic为样本i属于类别c的预测概率。

卷积记忆网络情感分析模型的算法流程如下。

输入:待分类评论文本输出:评论文本情感类别1.数据预处理(分词,去除停用词,词性过滤)获得候选情感词集C={c1,c2,…cn}2.粗糙数据推理改进TextRank算法提取情感词集C'={c'1,c'2,…,c'n}3.文本FastText词向量表示与情感词集Word2Vec词向量表示①for cj∈C, j∈(1,n)② if ci in sj, ci∈C', i∈(1,p)③load FastText and Word2Veci=i+1, j=j+1④得到评论文本的两种词向量表示Wv与Ft⑤拼接两种词向量Wv⊕Ft,得到融合向量[fc's1,fc's2,…,fc'sn]4.分别对融合向量[fc's1,fc's2,…,fc'sn]进行卷积运算与BiLSTM双向编码5.加入注意力机制筛选优化特征,得到分类输出

3 实验结果与分析

3.1 数据集及实验环境

为验证模型分类能力,实验采用两种类别的数据集进行训练与测试。weibo_senti_100 k数据集(https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/weibo_senti_100 k/intro.ipynb)来源于公开的ChineseNlpCorpus数据集,共有119 988条带有正负情感标注的新浪微博评论。图书评论数据集来源于网址https://spaces.ac.cn/archives/3414上公开的网上用户购买图书的评论数据,包含积极、消极和中性3类评价。数据集情况统计如表1所示。

表1 实验数据集

实验环境均在Windows7(64位)操作系统上进行,RAM为8 GB。同时采用Python编程语言,Pycharm实验环境,Tensorflow框架。

3.2 评价指标

在相同的测试集下,使用混淆矩阵对分类器的分类性能进行评价,混淆矩阵表如表2所示。

表2 混淆矩阵表

计算公式如下。

P=TP/(TP+FP)

(16)

R=TP/(TP+FN)

(17)

A=(TP+TN)/(TP+FP+FN+TN)

(18)

式中:P为精确率,表示正确预测的样本所占比例;R为召回率,表示预测为1的样本占实际标签为1的比例;A为准确率,表示在所有的判断中有多少判断正确的。F1值可看作是模型精确率和召回率的加权平均,公式为

F1=2PR/(P+R)

(19)

3.3 参数设置

实验参数的设置与实验的准确率紧密相连,具体参数如表3所示。

表3 实验参数

3.4 实验及分析

3.4.1 采用粗糙数据推理提取情感词集对情感分析结果的影响

为研究适当引入情感元素对情感分析准确率的影响,设置CNN、BiLSTM与CNN拼接BiLSTM对比单一的词向量和加入粗糙数据推理后获取的情感词集的融合词向量后的实验效果,其中Wv代表Word2Vec词向量,Ft代表FastText词向量,RDR-Wv-Ft代表加入粗糙数据推理获取的情感词集Word2Vec表示融合生成的FastText词向量,实验结果如表4所示。

由表4可看出,不同词向量的表示对模型准确率有着重要的影响。单一的词向量对模型准确率的影响不相上下,但加入粗糙数据推理引入情感元素的词向量融合表示比未加入情感元素的模型准确率在两个数据集上的最高值分别高出2.78%和0.49%。由于单一的词向量表示只包含由语料产生的词库作为模型的输入,这种不加处理的浅层特征很难通过模块的线性叠加进行深层情感语义的挖掘,而粗糙数据推理提取到的情感词集能够全面的代表评论文本的情感倾向,将多种与文本有关的情感信息融入模型,可以帮助模型提取到更具代表性的特征,从而提高模型准确率。

表4 粗糙数据推理提取情感词集后的融合词向量实验对比

3.4.2 情感分析基线模型对比

设置多个对比实验,验证模型的有效性。①SVM:使用TF-IDF提取特征,SVM分类器进行分类;②BiLSTM+Att:双向长短期记忆网络添加注意力机制进行情感分类;③CNN:使用FastText进行文本表示,CNN模型分类;④CNN+BiLSTM:单一的CNN网络与单一的BiLSTM网络结合;⑤CNN+BiLSTM+Att;在④的基础上加入注意力机制。

本文模型与其他对比实验均在相同数据集下进行,其准确率与F1值如表5所示。同时为了更直观对比各模型每一轮训练过程中的准确率变化趋势,绘制出如图5、图6所示的折线图。

图5 模型在微博评论数据集准确率

图6 模型在图书评论数据集准确率

从表5实验数据可看出,本文模型在两个数据集上均取得了比基线模型不错的分类结果。在微博评论数据集上,本文模型准确率可达到0.846 6,F1值达到了0.851,在图书评论数据集上,准确率为0.829 0,F1值为0.823 3。比基线模型中的最优值分别提升了2.04%、3.1%、1.08%和0.23%。

表5 各个模型分类结果对比

首先,分析第一组实验结果,SVM分类器在微博评论数据集上的准确率为0.723 7,由于微博评论数据集数量相对较大,内容繁杂,导致传统机器学习方法在提取特征时不能充分挖掘上下文情感语义信息,因而对分类准确率有所影响。在图书评论数据集上准确率仅为0.615 6,说明其在三分类领域表现比较差,相较于其他深度学习方法分类效果不理想,因此,考虑用深度学习方法做情感分类更为合适。

其次,在神经网络模型对比实验中,由于CNN模型主要靠窗口提取特征,在遇到较长文本时对语序不敏感且只提取到文本的局部特征,因此CNN模型的准确率不够理想,而BiLSTM由一个正向与反向的LSTM去处理序列,两个LSTM输出向量进行拼接,在提取特征的某个时刻,BiLSTM所获得的特征同时拥有过去和将来的信息,效果相对比CNN要好。为突出本文模型的优势,第四组与第五组实验为融合模型,第二组与第五组实验为是否加入注意力机制的对比,由实验数据可看出融合模型要比单一的网络模型准确率高,并且加入注意力机制的实验模型CNN+BiLSTM+Att准确率比未增加注意力机制的CNN+BiLSTM模型在两个数据集上准确率分别高出0.49%和0.69%,因为注意力机制对模型提取到的特征进行筛选,帮助模型注意到更为重要的部分,提高输出质量。而使用粗糙数据推理得到的情感词集Word2Vec词向量提取文本更具代表性的语义特征,将其融合到FastText词向量中,使融合后的词向量具有深层次的情感信息,所以本文模型在两个数据集上准确率都高于其他对比实验模型,同时结合图5与图6折线图的变化趋势,可看出随着实验每一轮迭代次数的增长,本文模型所代表的折线上升最快,准确率最高。

最后,为更直观地比较各模型F1值,绘制如图7所示的柱形图。

图7 各模型在两个数据集的F1值对比图

由图7可看出,在图书评论数据集上,本文模型F1值为0.823 3,在进行情感三分类任务时,由于中性评论出现的次数比较少,分类数据不平衡也可能是导致模型F1值变化不明显的原因,但本文模型F1值最高。而在微博评论数据集上实现情感二分类任务,本文模型F1值达到0.851 0,在词嵌入层加入粗糙数据推理从整个评论文档集中对语义进行挖掘具有关联关系的情感特征,同时将那些具有潜在关联的情感词也可通过推理加入到关联集合中去构建词图,这样使得最终提取到的情感特征更加全面,因此比其他模型F1值都高。

通过以上实验对比分析,提出的融合粗糙数据推理的卷积记忆网络文本情感分析模型在准确率和F1值上都有较好的表现,证明提出的方法具有一定的优势。

4 结论

提出一种融合粗糙数据推理的卷积记忆网络文本情感分析方法,利用CNN与BiLSTM来提取文本的局部特征与全局特征,加入注意力机制筛选出重要特征,结合粗糙数据推理得到的情感词集Word2Vec词向量并融合FastText词向量来添加情感信息。在两个数据集上进行实验,其准确率最高可达到0.846 6,较基线模型中最优值提升了2.04%,有效证明该方法具有较好的情感建模能力。

接下来的研究将结合图卷积神经网络、胶囊网络与BERT等动态词向量对中文情感分析任务进行建模,挖掘上下文更多的深层交互特性,进一步提高模型的准确率。

猜你喜欢

准确率向量分类
向量的分解
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
聚焦“向量与三角”创新题
颈椎病患者使用X线平片和CT影像诊断的临床准确率比照观察
按需分类
教你一招:数的分类
说说分类那些事
向量垂直在解析几何中的应用