基于BERT- HC 的教学评价情感分析模型研究

2022-12-07刘亚楠

科学技术创新 2022年34期

刘亚楠

（广州番禺职业技术学院财经学院，广东广州 511483）

引言

教学评价是评价主体对教学活动所作的价值认定和判断活动，具有强烈的目的性[1]。传统针对教学评价内容的分析方法依赖人工分析。然而，随着学生和课程数量的逐年增多，导致评价数据爆发式增长。教学管理部门难以对课程评价数据进行逐一分析，从而影响课程质量的真实反映，不利于提高教学质量。随着人工智能技术的发展，通过计算机程序自动地分析教学评价中的内容是解决上述问题的有效手段，其中情感分析是最具代表性的技术之一。

情感分析最早由Nasukawa 等人[2]提出，旨在从文本内容中提取出作者的情感或观点。其技术分为：基于情感词典的方法、基于统计机器学习的方法、基于深度学习的方法。其中，基于情感词典的方法[3]以情感词典为依据，通过构造匹配规则来计算情感。基于统计机器学习的方法[4]利用特征提取算法如词袋模型（Bag of Words, BOW）[5]从文本中提取统计学特征，再利用不同的分类算法判断情感倾向，这种方式依赖于特征提取的好坏。基于深度学习的方法是目前的主流方法。该类方法首先将文本进行词嵌入（Word Embedding）[6]，然后再利用不同的深度神经网络如卷积神经网络（CNN）[7]、长短时记忆网络（LSTM）[8]等从中自动地提取文本的隐含特征表示，其效果显著优于以往的情感分析算法。近年来，随着诸如BERT[9]、XLNet[10]、T5[11]等以Transformer[12]为基础的大型预训练模型的提出，在这些模型上进行下游任务的微调是目前情感分析最先进的技术[13]。

在BERT 等预训练模型的框架中，直接把文本作为一个整体建模，通过前置一个特殊的“[CLS]”字符来汇总整体的语义表示。这种方式能够很好的处理具有单一情感纯度的句子，如“老师讲的太棒了”。然而，在教学评价情感分析的实际中，更多的是包含多种情感倾向的复杂情感句，如“这是第一个拿到成绩的在线课程。对于毫无经济学和数学基础的人来说，有些知识还是有些吃力。但老师讲得深入浅出，非常受益”。在该例句中，既包含了情感无关句：“这是第一个拿到成绩的在线课程”。负向情感句：“对于毫无经济学和数学基础的人来说，有些知识还是有些吃力”。以及正向情感句：“但老师讲得深入浅出，非常受益”。总体而言，该例句的情感由最后的转折句决定，因此总体情感的正向的，如果直接对这种复杂情感句整体建模将增大模型学习的难度，从而导致模型在复杂情感判断上效果不佳。

为解决上述问题，本文提出一种层次语义建模的情感分析方法BERT-HC。首先将复杂情感句拆分为具有相对单一情感的子句；其次利用BERT 独立地提取各个子句的语义表征；最后为了过滤一些无关情感判断的子句信息，引入基于Hard Concrete 分布[14]的门控机制。融合后的语义表示通过softmax 实现情感分类。实验结果表明：BERT-HC 在两个数据集上的分类准确率和 F1 比 BERT、TextCNN、BiLSTM、BiLSTM+Att、HAN 等模型更优。

1 BERT 原理

1.1 Transformer 编码器结构

BERT[9]是文本预训练领域最具代表性的工作，其网络结构基于Transformer[12]编码器。其结构见图1。

如图1 (a) 所示，Transformer 编码器由N 个块（Block）堆叠而成，每个块由多头注意力层、残差归一化层、前馈网络层、残差归一化层按顺序构成。其中多头注意力层的内部结构如图1(b)所示。对于输入X，令X=Q=K=V，其中Q、K、V 分别表示查询矩阵、键矩阵和值矩阵。在多头注意力层中，先将Q、K、V 拆分为h 个部分，分别对应h 个抽头。对于第i 个抽头的输出headi有：

其中WO为线性层的权重矩阵。

1.2 BERT

BERT[9]利用多层Transformer 编码器来逐层提取输入文本的特征。在预训练时，BERT 首先对输入的文本进行了处理，分别在句子的开头和结尾添加了特殊的字符“[CLS]”和“[SEP]”，其中“[CLS]”通常用作输入文本的整体语义表示。其次输入序列在编码层中进行编码，BERT 的编码层包含三种类型的编码：词嵌入、段嵌入、位置嵌入。其中词嵌入即从词表中查询词的向量表示，段嵌入用于区分句子对；位置嵌入则为输入序列添加位置信息。最后通过多层Transformer 编码器来提取输入文本的语义信息。BERT 通过两种自监督任务进行学习：遮蔽语言建模（Masked Language Model, MLM）和下一句预测（Next Sentence Prediction, NSP）。前者在输入序列中随机的将一部分字符替换为“[MASK]”，模型的训练目标是要根据上下文语义来预测“[MASK]”位置的正确字符；后者则是要判断输入的句子对是否是连贯的，以挖掘句子间的逻辑关系。

2 BERT-HC

本文所设计的针对层次语义建模的情感分析模型BERT-HC 其结构见图2。

其中m 为子句的最大长度。将n 个子句输入BERT 中，并取每个子句最后一层中“[CLS]”位置对应的隐向量作为子句的特征表示，组成子句级语义特征X：

对于复杂情感句的情感分析而言，并不是所有子句都包含了情感信息，且最终的情感可能仅由部分子句决定。基于softmax 的注意力机制难以为不重要的信息分配精确的零权重，使得无法完全屏蔽不利于情感判断的干扰信息。为解决这一问题，本文引入基于Hard Concrete 分布的门控机制，来学习精确的二元门控值。具体而言，首先利用线性变换对X 进行降维：

其中Wγ为d×1 维的权重矩阵，bγ为偏置项。然后，利用Hard Concrete 分布估计每个子句对应的二元门控值：

式(8)-(9)中，σ 为sigmoid 激活函数；u 服从(0,1)之间的均匀分布；τ=0.2，l=0.2，r=1.0 均为固定的参数。得到二元门控向量z 后，对门控值为1 的子句表示进行平均池化操作，以产生最终的整体语义表示fmap：

最后，将fmap降维到分类维度上，并利用softmax预测其类别：

上式中T 为样本数量。最后利用L0正则化项来稀疏化所学习的门控向量z：

其中λ 为正则项的权重，将在实验中搜索。

3 实验与分析

3.1 数据集

首先本文构造了教学评价情感分析数据集MOOC Review。数据爬取自中国大学慕课在线学习平台，评价标注为分为正面、中性、负面三类，其中正面11085 条、中性6274 条、负面12561 条，总计数据量为29920 条。此外，为了验证所提模型在其他领域公开数据集上的性能，本文还选用了谭松波酒店评价数据集进行测试，该数据包含7000 条正向评论、3000 条负向评论，共计1 万条数据。数据划分则按照8:1:1 的比例划分成训练集、验证集、测试集，具体见表1。

表1 数据集划分

3.2 实验设置

本文在基于Pytorh 的深度学习框架中实现模型，所使用的BERT 预训练模型为bert-base-chinese。学习率设为2e-5，优化器采用Adam；丢弃率设置为0.2；子句最大长度设置为30，最大子句数量为10；训练步数为50，训练时采用早停策略，最大容忍步数为5。评估指标采用准确率和Macro-F1 值。

3.3 对比模型

本文将BERT-HC 与目前一些主流的文本分类模型进行比较，以下是所涉及模型的介绍。

(1) BiLSTM[8]：利用双向LSTM 来建模整句模型的上下文语义信息。

(2) BiLSTM+Att[15]：该模型同样利用双向LSTM来建模整句模型的上下文语义信息，然后利用注意力机制汇总各个位置的表示以产生整体语义表示。

(3) TextCNN[16]：该模型利用不同大小的一维卷积核提取文本上下文特征，将不同卷积核后的输出拼接作为整体表示。

(4) HAN[17]：层次语义表示模型，该模型利用双向GRU 建模低层级的信息，再通过注意力进行融合。

(5) BERT[9]：利用预训练模型的权重，在具体数据上进行微调，“[CLS]”位置的隐向量作为整体表示。

(6) BERT-HAN：层次表示模型，利用BERT 对子句进行编码后，利用HAN 的注意力机制进行融合。

3.4 对比结果与分析

BERT-HC 与对比模型在两个数据集上的准确率（Acc.）与F1 值见表2。

表2 模型对比结果（%）

由表2 的结果可知，BERT-HC 在两个数据集上均取得了最优的结果，证明了BERT-HC 的有效性，该模型不仅适用于教学评价也适用于其它领域，具备一定的通用性。具体分析如下：第一，与现有的模型中最好的BERT 相比，在教学评价数据集MOOC 上准确率提升了2.86%，F1 提升了2.27%；在酒店评价数据集HOTEL 上准确率提升了1.45%，F1 提升了1.72%。第二，与采用注意力软融合机制的模型BERT-HAN 相比，在MOOC 上准确率提升了2.17%，F1 提升了1.64%；在HOTEL 上准确率提升了0.95%，F1 提升了0.92%。第三，基于预训练的模型BERT、BERT-HAN、BERT-HC 比其它非预训练模型的效果要更好，说明了预训练有助于更准确的语义建模。

3.5 参数影响

在BERT-HC 模型中，由于引入了一个额外的L0正则化项来控制二元门控向量的稀疏化程度，因此需要探究其权重系数λ 对结果的影响。将λ 设置为[0,0.2]区间中的值，步长为0.04，其结果见图3。在搜索区间内，MOOC 数据集上λ=0.08 时结果最好，HOTEL数据集上λ=0.12 时结果最好。

4 结论

准确的教学评价分析，对优化教学理念、教学模式和教学方式、提高教学质量等具有重要意义。本文提出一种基于BERT 和Hard Concrete 门控机制的层次语义建模情感分析方法BERT-HC，该方法将评价文本层次化的建模，利用BERT 来捕捉更准确的子句语义表示，并引入Hard Concrete 门控机制来使模型自动地筛选与情感判断相关的子句。在MOOC 和HOTEL 数据集上的实验结果表明，该方法与其它对比模型相比能够更准确的判断教学评价的情感倾向。本文为复杂情感句的分析提供了一种新的研究思路。