基于自然语言处理的评教文本分类与分析

2021-10-14陈国心

西安航空学院学报 2021年3期

陈国心

(西安航空学院理学院，西安 710077)

0 引言

教育的本质就是一个教与学的过程，是将前人的知识、经验、思维与行为方式等进行传承的过程。显然，教育是一个巨大而复杂的系统，涉及到教学、管理、科研、服务等诸多行业[1]。教育与其他具有清晰、规范的业务流程的领域(如金融、制造业等)明显不同之处在于不同地区、不同学校、不同家庭环境、甚至不同学生和老师都具有差异性。

伴随着科技的发展，教育的方式呈现多样化。除了传统课堂的以教师为主导、统一教学进度和教学目标的面对面讲授方式外，包括MOOC、EDX等在内的台各式各样的教育学习平台也在不断涌现。这些教育学习平台的出现将接受教育的主体变为学习者，且学习者可以依据自身的理解力和兴趣爱好选择学习的内容，由被动式学习转化为主动式学习。

由于线上教学方式可以部分弥补传统教育的不足，很多高校都已建立自己的在线学习平台，并将部分传统教育环节转移到了线上。而与线上平台的建立应运而生的，是线上教学过程中所产生的海量教育数据，如何有效地利用这些数据改善教师教学质量是当下面对的挑战之一。

在以美、英、法等国为代表的发达国家都将大数据作为新型战略资源[2]。我国也在加速部署教育大数据战略计划[3-4]。教育大数据可将曾经不被重视或无法收集的数据进行收集、存储和分析[5]，这是实现教学方式改革的关键支撑，是实现教学过程量化的重要参考指标，也是实现个性化教育的有力保障，更是最终实现教学过程可量化、教学决策个性化、教学模式定制化、教学管理可视化的重大教学改革。

依靠大数据技术的发展和信息化技术的普及，达到通过量化教学过程来驱动教学的目的，一方面能够缓解当前教育资源分配不均衡的问题，另一方面，分析教学过程中产生的数据，能够不断提升教师的教学质量，并使学生的学习更具个性化，为教学发展起到重要推进作用，数据驱动教学结构框架如图1所示。

图1 数据驱动教学结构框架

目前，无论是线上还是线下教育，普遍采用的是一对多的模式，即一个老师对应多个学生。在这种模式下，不同性别、不同学科背景的学生在学习习惯上普遍存在差异，教师有限的精力无法一对一地了解每个学生的学习习惯和学习偏好。不过，在这种情况下学生对教师的教学评价(以下简称评教)数据是学生对教师教学过程给予反馈的重要方式，因此评教是了解学生状况、关注学生差异、获得学生反馈信息、提升教学效果的重要途径。

尽管如此，由于学生基数大，且水平参差不齐，因此学生评教内容存在主观性和随意性，导致对评教结果的判定多以统计评分为主而忽略了学生评教的文本内容。这会导致教师无法详细客观地了解学生的评教意见，无法及时改进教学方式，不利于提高教学质量。目前，国内对学生教学评价以评教系统设计或针对教学评价的情感分析为主，而对评教内容研究的还比较少。本文利用自然语言处理(NLP)的BERT模型，通过文本分类、机器学习、可视化分析等方法，对学生评教数据中的自然语言描述部分进行分类，分析学生学习过程中重点关注的教学环节，为教师改进教学过程提供参考依据。

1 自然语言处理

自然语言处理是计算机科学和人工智能的研究领域之一，通常将自然语言转换成计算机能够用于理解这个世界的数据或用于生成能够体现这种理解的自然语言文本[6]。

1.1 Transformer模型

Transformer模型是Google于2017年提出的用于机器翻译的经典NLP模型[7]，该模型由编码器(Encoder)和解码器(Decoder)两部分组成，每个编码器和解码器中都包含六个区块。

首先，由句子中每个单词的词嵌入值和位置嵌入值共同构成单词的表向量矩阵X(n×d)，其中：n是句子中单词个数；d表示向量维度。其次，将X传入编码器中，经过六个编码块得到句子所有单词的编码信息矩阵C。最后，编码器将输出的编码矩阵传递到解码器中，解码器会在翻译第i个单词时，掩盖住i+1之后的单词，根据已翻译的前i-1个单词翻译第i个单词。

与传统的机器翻译模型不同，Transformer模型在构建编码器和解码器的时候使用了多头自注意力机制，使得Transformer模型可以忽略两个词在句子中的距离关系，只进行常数计算即可[8]，并且Transformer模型在实现速度性能最优的情况下，也是效果最佳的模型。由于Transformer模型具有上述优点，使得其在细节化的语义推理方面取得了不错的成绩[9]，在情感分析方面任务上具备优势。

1.2 BERT模型

Google在2018年推出基于Transfomer结构的深度双向编码表征BERT模型，它通过联合调节所有层中的双向Transformer模型来训练预训练深度双向表示[10]。

由于NLP是以单个句子为输入单位，可能出现相同词语在不同语句表达不同含义的情况。BERT模型创新性地使用了标记语言模型(MLM)和后续内容预测(NSP)两种无监督预测任务模型，其中：MLM从输入中随机掩盖一些词语，目标是基于其下文预测被掩盖的单词的原始词汇；而NSP在MLM的基础上，随机将数据划分为等大小的两部分，分别是数据中上下文连续的语句对和上下文不连续的语句对，然后使用Transformer模型识别语句对是否连续。这可使BERT模型中的词向量表征融入到前后左右的上下文语义中，因此BERT训练后的词向量效果更好，具有更强的通用性。

2 数据预处理与预训练模型

为了对数据进行预处理和预训练模型，以某高校某门课程的学生评教文本数据为例进行分析。该文本数据共有评论数265条，主要针对教师教学过程中的优点及不足两方面进行评价，其中部分文本内容如图2所示。

图2 学生评教部分文本数据

2.1 数据预处理

数据预处理之前要进行数据质量分析，其主要目的就是检查原始数据中是否存在“脏数据”。“脏数据”主要包括缺失值、异常值、不一致的值和重复数据。由于数据分析的对象是文本数据，在数据质量分析方面的“脏数据”只有缺失值。经过数据质量分析后剩余246条无缺失值数据为有效数据。

由于评教文本数据完全由自然语言描述，格式比较随意，不具备严格的语法规范，因此需要对评教数据按照预训练模型的文本格式要求进行预处理。处理流程为：先将有效的评教数据以句为单位进行拆分，获取评论描述764条；接下来对每条评论描述创建归一化标签。归一化标签是将评教相似内容聚合为5个维度，包括语言、备课、互动、作业评讲、课堂管理，如表1所示。

表1 归一化标签及其对应的评教描述内容

通过上述处理所得部分最终数据预处理结果如图3所示。

图3 数据预处理效果图

2.2 预训练语言模型

预训练属于迁移学习的范畴，预训练语言模型是在大规模文本中训练出通用的语言表示[11]。此外，预训练语言模型可以提供更好的模型初始化，带来更好的泛化性并加快目标任务的收敛速度，避免对小数据的过度拟合[12]。

由于BERT的训练本身需要大量GPU资源和高质量数据[13]，因此可用第三方训练至收敛的BERT预训练模型。中文预训练语言模型包括BERT-wwm-base-qa、bert-base-chinese、chinese-bert-wwm-ext等。本文预训练语言模型利用的是HuggingFace项目中的bert-base-chinese预训练模型，该模型有Pytorch与TensorFlow两个版本，文中利用的是TensorFlow版。

2.3 模型微调

BERT训练分为二段式，先使用大量无监督文本训练基础模型，而后只需要在下有任务的特定数据集上微调，即可获得SOTA性能[14]。

设置随机种子对数据进行随机排列，将预处理后的评教数据集随机分为训练集与测试集，比例为8∶2。调用预训练模型，模型主要参数包括max_length(文本最大长度)、batch_size(单词训练选取样本数)、learning_rate(学习率)和样本训练次数(Epoch)。设置max_length=32，batch_size=46，learn_rate=5e-5及epochs=6，为避免单次预测中的随机值，对模型循环运行6次，获得每次运行的测试集分类正确率分布散点图，结果如图4所示。由图4可见，随着模型运行次数的增加，测试集正确率不断提高，且提高的幅度逐渐减弱并趋于收敛。

图4 测试集分类正确率分布散点图

3 分析与结论

通过前述将训练集与测试集分类正确率取均值可发现，测试集正确率会随着训练集正确率的提高而提高，最终二者都趋于收敛，如图5所示。分析所得的评教数据分类模型最终平均损失值与分类正确率平均值分别为0.543和0.857。由此可见，分析结果基本达到五个维度分类评价效果，验证了方法的有效性。

图5 正确率均值折线图

对五个维度分类评教结果生成统计直方图和饼状图，分别如图6和图7所示。由图6和图7可见，学生对备课环节的评论数达到382条，占总评论数的50%；对课堂管理相关的评论数为145条，占总评论数的19.0%；对语言与互动的评论数基本持平，各占总评论数的14.3%与13.2%；对作业评讲方面的评论数最少，只有27条占评论总数的3.5%。