APP下载

基于改进双向LSTM的评教文本情感分析

2022-12-30孔繁钰

计算机工程与设计 2022年12期
关键词:评教准确率卷积

孔繁钰,陈 纲

(1.重庆工商大学 管理科学与工程学院,重庆 400067;2.重庆大学 建筑城规学院,重庆 400045)

0 引 言

课堂教学评价是促进教学活动开展的重要形式,对各个阶段的教学效果都有正向激励作用[1]。教学评价的形式一般归纳为两种,一种最为常见的是定量评价,即通过直观的数据分析体现出教学效果,另外一种是定性评价,即通过较为感性的分析进行相应的评价,比如学生的主观评价、听课效果等等[2,3]。对于定量评价的量化处理相对简单,然而定性的教学评价的数据处理少有研究,且传统的评教文本情感分析方式已不能满足现有需求[4]。

目前的情绪分析主要基于两种方法分别是词典规则方法以及统计机器学习方法[5,6]。基于词典的规则方法,充分利用预先设定的情感词汇表构成的情感词典作为量化的基础,从而更好的对情感倾向因素进行定量分析。基于机器学习的浅层学习方法,通过将情感分析转化为模式分类问题。因为最终获得的特征无法进行有效区分,使得最终的分类效果不尽如人意[7]。除此之外,传统方法的另外一个弊端是不同特征同样具有一些可能的关联,需要将其考虑在内。

本文通过定性评价数据情感分析实现质性数据处理,其主要创新点在于:①在Bi-LSTM网络中使用恒等映射残差理论,使神经网络随深度增加而退化的问题得到有效解决;②所提方法使用正则约束将评价文本的语法添加到改进Bi-LSTM网络所有隐藏层中,实现对文本情感的鲁棒准确分析。

1 相关工作

根据不同的监督形式,可以将文本情感划分成以下4种类型:①有监督式;②无监督式;③半监督式;④深度学习分类[8]。有监督式和无监督式的不同之处在于使用的数据集是否带有标注。一般情况下,很难获取有标注的数据集,因此无监督学习的准确率通常较低。半监督式含有少量标注文本,准确率和适用性较好。深度学习分类通过神经网络进行情感分类。

1.1 传统的情绪分类方法

机器学习是监督式方法的基础。文献[9]提出了一种利用结构化支持向量机(SVM)编码的情感分类方法。结果表明,SVM比其它方法具有更高的准确性,但对于一些复杂特征的文本,其识别效率还有待提高[10]。文献[11]利用SVM解决情感分析的模式分类问题。通过从Twitter的流API收集数据,在源自希腊银行业的基准数据集上,将上述分类器与一组最新的机器学习分类器进行了测试。结果表明每个分类器都具有较好的分类准确性,但执行效率还有待优化。

无监督学习方法根据先验知识将情绪进行分类,该类方法效率虽低于有监督的同类方法,但由于它们不需要大量标记语料库而引起了研究者的广泛关注[12]。文献[13]提出了一种基于多级模糊计算和多准则融合的无监督情感分类方法。采用多层次的计算模型来计算评论的情感强度,利用基于情感类别可信度和领域类别代表性的多准则融合策略进一步降低情感极性的歧义,但在实际分类环境下受外界干扰较大,稳定性较差。文献[14]提出了一种针对大数据的多模式情感和情感建模的新架构。针对该体系结构中的多峰数据特征提取模块,提出了称为分治主成分分析和分治线性判别分析的新颖特征提取技术,获得了较好的分类效果,但其准确率仍有较大的提升空间。

在标记数据集较少的情况下,半监督学习方法是一种合适的选择。与有监督学习方法相比,该方法消耗的时间和人力更少,分类效果也优于无监督学习方法[15]。因此,半监督学习方法表现出了优于其它两种类型的方法。文献[16]在情感分类问题中使用了半监督学习中的聚类核算法,同时阐述了一种利用聚类核的半监督形势下的算法。通过构建加权无向图进而得出聚类核,但是该图需要包括所有样本,得到的核函数在输入到情感分类器中进行强化练习,最终就完成了情感分类。文献[17]通过半监督学习减少多模态情感分类的注释工作。利用半监督变分自动编码器从未标记的数据中挖掘更多信息,以进行多模式情感分析。但难以消除语义之间分布差异的负面影响。

1.2 基于深度学习的情绪分类

近年来,深度学习模型在计算机视觉和语音识别取得了显著的效果。它也被应用于自然语言处理任务,包括单词嵌入和文本训练的研究。卷积神经网络(convolutional neural network,CNN)首先应用于计算机视觉,然后应用于自然语言处理,在语义分析、搜索查询检索、句子建模等传统自然语言处理任务中取得了良好的效果[18]。因此,在文本分类中的应用越来越受到人们的关注。文献[19]提出了一种基于LSTM-CNN的情感分类模型。通过卷积和池化操作再次过滤LSTM提取的特征以找到重要的局部特征,结果表明所提模型可以获得较高的情感分类准确性,但对训练数据集高度依赖,从而影响分类的鲁棒性。文献[20]提出了一种结合CNN、词性和注意力机制的目标情感分类方法。该方案基于输入序列的LSTM建模。

大多数的学习连续词表示的算法通常只对词的句法上下文建模,而忽略了文本的情感。因此,本研究采用对定性评价数据情感分析实现质性数据处理,提出了利用改进Bi-LSTM结合Word2Vec词向量的文本情感分析方法。

2 改进的Bi-LSTM

2.1 LSTM与Bi-LSTM

LSTM对递归神经网络(RNN)进行了创造性的改进,采用了“三门限设计”,具体定义可以参见文献[21]等相关资料。LSTM的局限性在于其仅按顺序序列对数据进行处理,无法对信息进行从后往前的编码。然而,在文本中的词汇通常与上下文存在关联,有着双向的语义依赖。由此可知,逆序处理对于文本信息的处理具有很大意义。Bi-LSTM能够使正逆LSTM完成融合,再基于两个隐层从正向与反向两个角度分别对数据展开分析,将分析后所得的数据再次融合进而成为新的输入数据。

2.2 改进的Bi-LSTM

与LSTM相比,Bi-LSTM的优势在于其不仅能使用输入中的历史数据,还能使用输入的未来数据,具体原理结构展示如图1所示。

图1 Bi-LSTM的网络模型

若使用α表示图1中的向前传播序列,用β表示反向传播序列,给定特征图的输入用 (x1,…,xn) 表示,则Bi-LSTM的计算如下

(1)

深度残差网络使用恒等映射的残差块,使神经网络的退化问题得到有效解决,在提高准确率的基础上使网络训练更简易。鉴于此,使用深度残差改进Bi-LSTM网络对深层梯度消失问题进行处理,改进的Bi-LSTM结构如图2所示。

图2 改进Bi-LSTM的网络模型

由图2可知,信息在水平方向(时间维度)以及垂直方向(空间维度)上流动,不仅有输入和输出层,还有两个残差块作为隐藏层。每一个残差块都由2个Bi-LSTM组成,共计8个LSTM单元,所提方法采用的是ReLU激活函数。改进Bi-LSTM优势在于能融合累积相邻帧间的特征,对整个文本的叠加信息进行获取,最后使用softmax分类层实现对文本的情感分析。

3 评教文本情感分析方法

本次研究的创新之处主要在于深入探究了评教文本的情感分析,这类题材的分析不同于短小的微博情感分析,需要处理的语句信息量较大,冗余信息较多,一般评教的中文语句更加复杂。这就要求在情感分析中更多地关注模型约束,为此将正则化约束添加到Bi-LSTM的隐藏层中,且在改进Bi-LSTM网络的所有隐藏层中都加入语法。

3.1 基于Word2Vec词向量的表示学习

Word2Vec是一种词向量的机器学习工具,由Google公司开发,是文本分析的重要工具之一。Word2Vec的模型结构如图3所示。更多定义和相关介绍请参见文献[22]。

图3 Word2Vec模型结构

3.1.1 输入层

为了充分利用词的特性,在预处理过程中,将数据集中的每个文本分成多个用空格隔开的词,并针对每个单词训练一个嵌入词,在训练每个单词嵌入时使用Word2Vec。具体单词的嵌入是通过指定相应的参数来获得的,这些参数包括嵌入单词的尺寸、迭代次数以及上下文窗口的大小(即每个窗口中的字符数)。每一个出现多次的单词都被添加到一个包含m×k维数的字典中,其中m为字典中的单词数,k为训练时指定的嵌入单词的维数。

文本x包含n个字符的输入,表示为

(2)

式中:⊕为联合算子。xi∈k表示文本x中对应i个单词的k维嵌入词,因此x可以表示为n×k的特征矩阵,其中n为文本长度,即汉字数量;k为之前训练中指定的嵌入词的维数,即每个汉字表示为一个k维的嵌入词。在此基础上,需要对x的特征矩阵进行计算,从而求出其特征值,这里使用的是Word2Vec。

3.1.2 卷积层

所提方法使用具有多个不同尺寸卷积核的并行卷积层来学习文本特征,最终得到了文本中的特征,这样可以有效避免偶然性的发生。对于卷积核,特征κi表示为

κi=φ(w·xi~(i+h-1)+b)

(3)

式中:w是共享权重,xi~(i+h-1)代表了连接词的嵌入,从文本x上i字到 (i+h-1) 字,b是一个偏移项,φ是一个非线性函数,选取整流线性单元(ReLU)。则

κi=max(0,w·xi~(i+h-1)+b)

(4)

对于这个卷积核,依次进行h个单词的卷积,文本长度为n。因此,n-h+1执行运算,导致以下特征图为

κ=[κ1,κ2,…,κn-h+1]

(5)

因此,n-h+1特征图用于每个卷积核获得特征向量t的尺寸是1×(n-h+1)。 如果卷积核的数量是p,那么p特征向量可以通过特征映射获得。

如果q并行卷积核的不同类型使用的数量和每种类型的卷积核是p,那么在特征映射之后就可以获得特征向量(p×q)。

3.1.3 池化层

以上论述了从卷积核中提取特征的过程,该模型使用多个不同尺寸的卷积核来获得多个特征。如果在卷积层中使用不同大小的q并行卷积核,且每个卷积核的个数为p,则通过卷积和池化运算可以得到p×q一维特征值。最后,将所有融合的特征进行组合,得到一个维数为1×p×q的特征向量V,从而得到文本的特征向量V并传至输出层。

3.1.4 输出层

池化层向量的输出通过全连接层连接到softmax层。因此,最后一层是用于分类的全连接softmax层,其输出是最终类别的概率分布。在最终实现中,在全连接层上使用了dropout技术,以防止隐藏层神经元自我适应并减少过度拟合,并且对全连接层的权重参数提供了L2正则化极限。因此

z=w·mfm(V,r)+b

(6)

式中:函数mfm(,) 表示乘以相应的矩阵元素,r∈p×q是伯努利方差。若采用softmax输出概率分布,则j神经元的激活值ζj为

(7)

并且输出激活值加起来为1,即

(8)

基于已经搜集到的评教文本,采用正或负的二进制分类作为分类结果,分类计算如下

(9)

式中:μ为超参数。

综上,所提方法将每个文本转换为输入层中特征空间的句子表达,通过Word2Vec词向量进行特征提取和泛化,并在输出层中实现评教文本的情感分析。

本文使用Python在TensorBoard上实现和可视化Word2Vec模型,如图4所示。在网络中,嵌入层代表输入层,conv-maxpool代表卷积和池化层,一共有3个并行的卷积层,每个都紧随其后并与池化层相连。通过3层卷积和池化合并获得的特征值由连接层连接起来并传递到输出层。输出层是采用dropout技术的全连接的softmax层,输出分析准确率和模型损失。

图4 TensorBoard的可视化网络

3.2 评教文本情感分析步骤

评教文本情感分析模型的构建流程如图5所示。

图5 评教文本情感分析模型的分析流程

第一步,在得到输入后使用Word2Vec对输入数据进行转换并表示词向量,再将词向量输入模型;第二步,采用正则约束,在改进Bi-LSTM网络的所有隐藏层中都加入语法。第三步,采用语法规则调节器对输入的词向量词性进行判断,再对句子相邻位置的输出进行规范,从而模拟句子层次中非情感词、情感词、否定词和程度词的语言作用。不同分类的词语采用不同的解决方式。

若相邻位置均为非情感词,则表明相邻位置的情感基本一致。若当前词为情感词词典中的词语,则当前位置的情感分布应与周围位置的情感分布会有着明显区别,该问题可用情感迁移进行处理。若当前词为否定词词典中的词语,则表明当前位置的情感极性会发生反转,程序会通过特定的转换矩阵对此类语言现象进行模拟。如果该词是词典中所列出的词,比如“很”、“非常”等,那么这种词就表达了感情的强弱,这种效果可采用特定的转换矩阵来实现。

4 实验结果与分析

实验在PC机上进行,其操作系统为Linux操作系统,Ubuntu 14.04,主频为3.2 GHz,内存大小为16 GB,硬盘为512 G,采用Python 3.5编程。

4.1 数据集

实验采集2017学年到2020学年的学生评教数据,将其作为本次实验的数据。具体见表1。随机从数据集中挑选45 000条数据作为训练集,将56 000条文本数据作为测试集。一些文本数据列举如下,其中前两个为正面评教,后两个为负面评教。

表1 实验数据统计

李老师讲课幽默有耐心,分享很多实际案例,容易给人以启发和教育;

宋老师动作准确规范,跟同学互动的多,令人叹服;

张老师讲课很枯燥,总是“照本宣科”,面无表情;

胡老师讲课讲得天花乱坠,却不管同学能不能听懂。

4.2 评价指标

本文使用了4个指标对所提方法进行评价,分别是准确率acc、精度pre、召回率rec和F1值,对应的公式如下

(10)

(11)

(12)

(13)

其中,TP表示实际为正例且被正确地划分为正例的个数;FP表示实际为负例但被错误划分为正例的个数;TN表示实际为负例且被正确地划分为负例的个数;FN表示实际为正例但被错误划分为负例的个数。

4.3 结果分析

对比不同方法(所提方法与文献[11]、文献[16]、文献[20])的准确率、精度、召回率和F1值,实验结果如图6所示。

图6 不同方法的情感分析性能对比

其中,文献[11]利用SVM解决情感分析的模式分类问题,将SVM分类器与一组深度机器学习分类器进行测试训练。文献[16]中探讨了基于半监督的聚类核算法,同时利用该方法进行了实例计算,构建了加权无向图来求解聚类核,然后将该核函数用于SVM并完成情感分类任务。文献[20]提出了一种结合CNN、词性和注意力机制的目标情感分类方法,该方案基于输入序列的LSTM网络建模,建立针对给定目标的注意力机制,改进了文本情感分类方法,提高了其准确率。

由图6中可以看出,所提方法的准确率为93%,F1值为92%,精度为89%,召回率为97%,均优于其它对比方法。文献[11]利用SVM实现情感分析,但未充分考虑情感类型,因此整体分析性能不佳。文献[16]将半监督学习中的聚类核算法应用到情感分类问题中,虽然能够实现情感分析,但情感信息易丢失,因此召回率较低,仅为86%。文献[20]结合CNN、词性和注意力机制进行情感分类,取得了较好的分析效果,但是忽略了文本的字的信息,因此精度上有所欠缺。

为了进一步验证所提方法的有效性,随机从文本集中挑选5000条数据作为已标注数据集L,其余为测试集Test,将未标记的评教数据分类到未标注数据集。实验分4次随机挑选一些数据作为初始训练集,这些训练集分别有500条、1000条、2000条和5000条。最后的准确率结果如图7所示。

图7 准确率的对比

由图7结果可知,文献[16]的准确率优于文献[11],这是因为文献[11]利用SVM解决情感分析的模式分类问题,没有将较高置信度的预测结果加入到训练集中。文献[16]使用了半监督学习中的聚类核算法,将半监督学习与集成学习相结合,使得准确率较大提高。同样地,不难发现文献[20]结合CNN、词性和注意力机制,准确率较高,但相比于所提方法仍有所逊色。所提方法在Bi-LSTM网络的基础上,利用正则化约束,将语法加入到改进Bi-LSTM网络的每个隐藏层中,同时基于语法规则调节器对词向量进行准确、快速判断,其优点是能够更加客观全面的对词向量的特征加以描述。再利用对句中邻近位置输出得到非情感词、情感词以及程度词等,这样保证了评教文本情感分析的准确率,因此当L/U为5000/50000时,准确率可达到97%。

为了评估各方法的鲁棒性,对数据集L和U嵌入一定数量的无关的中文字符后(这些中文字符随机添加到一些教评文本中,以对训练产生扰乱和噪声效果),再比较各方法在多少步训练后达到稳定的准确度。最终结果如图8所示。从图8中可以看出,当加入扰乱中文字符后,所提方法基本上在2000个训练步骤后趋于稳定,准确率达到97%。由于所提方法采用Word2Vec词向量方式对文本特性进行表示,使用正则约束将文本语法的评价添加到改进Bi-LSTM网络所有隐藏层中,使得改进后的Bi-LSTM网络对扰乱特征具有一定的过滤作用,实现了对文本情感的鲁棒准确分析。文献[11]和文献[16]进行情感分析时,考虑的因素不够全面,对干扰的抵抗力较弱,因此整体准确率不佳。文献[20]结合CNN、词性和注意力机制进行情感分类,准确率达到96.5%,但由于缺乏文本特征的分析,因此情感分析的准确性受扰乱中文字符的干扰的较大。

图8 加入扰乱中文字符后的整体精度变化

此外,对于不同方法中,不同语义单元的情感分析准确率见表2。

表2 情感分类准确率的不同语义单元

从表2中可以看出,不论何种模型,词向量模型的整体准确性低于字符模型的整体准确性,所提方法与SVM、RNN、LSTM两种模型的准确率分别降低了0.9%,1.5%、1.6%和1.2%。由于使用字符嵌入模型时,关键组成元素更通用,可以减少过度拟合,与使用单词作为特征元素时相比,特征粒度更小,并且可以学习更多的特定特征。通过对比4种方法,以字符为特征元素的性能要优于使用单词的特征模型,并且所提方法由于采用Word2Vec模型训练词向量,通过求词向量相似度对短文本进行特征扩展,其性能优于其它方法,由此也论证了所提方法的有效性。

此外,若已标注数据集较小,则分析的准确率会变低;反之,准确率则会变高。由此可知,所有方法对于初始训练集的大小都会存在一定的依赖性,这也是以后需要深入研究的方面。

4.4 自采集数据的结果分析

为了保证研究的科学性、全面性,作者选择的语料包含了重庆工商大学2019级所有师生的评价数据,然后将它们分成了两种类型,一种用于训练,一种则用于测试,数据数量达到了9854条,这些数据中不仅包含了一些量化评分,还包含了主观评价。语料库中的Data(数据属性)是质性评语的集合,语料库中的Label(目标属性)值是由量化评分采用规则所组成,规则见表3。

表3 量化评分和质性评语的规则

由于文献[20]的分析性能与所提方法最为接近,因此进一步比较所提方法与文献[20]方法。从全体学生评价数据中选取不同数量组成大小不等的数据集,分别是1000条数据量组成的测试集,2000条数据量组成的测试集、3000条数据量组成的测试集以及4000条数据量组成的测试集,剩余则组成了训练集主要功能是作为对比用,结果见表4。

表4 情感分析性能的对比

从表4中可以看出,所提方法的分析效果有了一定的提高。所提方法通过Word2Vec转换和表示词向量,对于优化后的Bi-LSTM网络中全部的隐藏层均增加一些语法,然后再将其利用语法规则调节器做出相应的判断。最后,利用规范句子邻近处进行输出,对句中的非情感词、情感词、否定词和程度词的语言作用进行模拟。因此所提方法在4种语料情况下均高于文献[20]方法,以语料(4000)为例,其准确率、召回率和F1值分别为95.4%、96.9%和95.1%。

5 结束语

目前评教信息大多是人工标记,未被完全利用以发挥它们的价值,为此,提出了一种利用改进Bi-LSTM结合Word2Vec词向量的评教文本情感分析方法,通过机器学习相关方法提高评教信息的使用价值。该方法采用Word2Vec学习词向量的空间表示,利用恒等映射残差理论改进Bi-LSTM网络,将改进后的Bi-LSTM网络结合语法规则用于分析评教文本的情感。最后,基于Python开发环境对所提方法进行实验分析,结果表明,所提方法的准确率、精度、召回率和F1值分别达到93%、89%、97%和92%,分析性能均优于其它对比方法,并且已标注数据集的比例越大,情感分析准确率越高。因此所提方法是有效的,也为以后评教系统的构建奠定基础。

未来,本文将得到的评教情感结果与其它数据进行结合,使评教体系更为客观。能够更好帮助教师对教学活动进行优化、改善,从而保证教学质量,为社会培养更多高层次人才。

猜你喜欢

评教准确率卷积
基于3D-Winograd的快速卷积算法设计及FPGA实现
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
颈椎病患者使用X线平片和CT影像诊断的临床准确率比照观察
高校学生评教存在的问题及对策
——以川北医学院为例
卷积神经网络的分析与设计
从滤波器理解卷积
高职院校学生评教工作改进与实践总结
基于傅里叶域卷积表示的目标跟踪算法