基于CNN的课堂学生表情图像检索研究

2021-02-07重庆第二师范学院曾文韬张晓琴王小亚李宗剑

电子世界 2021年1期

重庆第二师范学院曾文韬张晓琴王小亚曾瑞李宗剑

随着人工智能技术在教育领域的迅速发展，传统的课堂教学评价已无法满足如今丰富多彩的课堂教学。通过对学生五类课堂表情（倾听、理解、疑惑、抗拒、不屑）的检索结果，可及时掌握学生在课堂中的情绪变化和参与情况，为改善教学质量提供帮助。

在“一对多”的教学模式下，老师和学生的互动大多是提问、讨论、作业的方式，这些方式不可避免带来传递的滞后性。多媒体相关技术的引入，使课堂变得丰富多彩，从一定程度上改善了课堂氛围，但教师获得学生反馈的滞后性依旧未能得到有效改善。人脸表情图像检索是通过图像传感器采集人的面部表情，通过表情分析进行分类的一项技术。本文将卷积神经网络（Convolutional Neural Networks，CNN）与课堂教学相结合，研究基于CNN的课堂表情图像检索技术。

1 课堂学生表情分析

心理学家Mehrabian指出，情感信息表达=7%语言+38%声音+55%面部表情。由此可见表情所表达的情感基本就反应了一个人的心理状态。在课堂教学中，学生的表情反应出自身的学习状态和课堂教学质量。目前针对课堂学生表情并没有统一的分类，经过多方面的资料查阅和信息收集，以及深入到课堂环境进行实地观测，本文采用五类课堂表情分类，分别为：倾听，理解，疑惑，厌倦和不屑。

倾听。当学生并不反感教师当前所讲内容，并且愿意继续听教师讲述。

理解。当学生理解并消化了教师当前的教学内容，产生了学习兴趣，并且对后续教学内容好奇，或是对教师当前的教学内容非常满意。

疑惑。当学生对教师所讲内容产生了不同意见，或是完全不能理解时，他们的心情会有几分奇怪和惊讶。

厌倦。当学生精神状态不佳，或对教师当前的教学内容没有兴趣，注意力已经完全没有集中在课堂，内心只是期待赶快下课。

不屑。由于未知的原因，学生对教师的教学内容和教学方式产生了反感，或是对教师当前的教学内容不屑一顾，此时学生还没有完全失去对于教学内容的兴趣，他们只是希望教师及时地做出针对性的改变。

2 卷积神经网络

2.1 卷积神经网络概述

CNN是多层感知机（Multilayer Perceptron，MLP）的变种，由生物学家休博尔和维瑟尔在早期关于猫视觉皮层的研究发展而来。CNN可以自动从(通常是大规模)数据中学习特征，并把结果向同类型未知数据泛化。CNN的结构包含卷积层，池化层，全连接层等。

2.2 特征提取

CNN中对图像的特征提取主要由卷积层和池化层完成。

一张输入图像，首先需经过卷积层卷积。所谓“卷积”就是在输入图像中对一个小区域的像素加权平均后让其成为输出图像中每个对应像素的过程。权值由一个函数定义，这个函数被称为卷积核。一个卷积核，可提取到一张图像中相同的特征，但每张图的特征多种多样，一个卷积核不可能提取到全部的特征。因此通常的做法是采用多重卷积核，即采用多个卷积核对同一张图像进行卷积，确保提取到尽可能多的特征。

通过卷积后的特征图不仅能在一定程度上保留尽可能多的特征，还能去掉图像中许多不必要的细节。但卷积后参数数量依然庞大，还需进一步去掉更多细节，同时最大程度保留特征，这一过程被称为池化。一般情况下，特征图中存在特征的区域相比于其它区域的计算值会相对较高，因此采用最大池化可保留更多的特征。

通过卷积和池化，在减少参数数量的同时保留了特征，但上述过程为线性过程，无法解决非线性问题，因此引入激活函数来为CNN添加非线性因素。

2.3 图片分类

图片分类由CNN的全连接层完成，全连接层根据提取的特征来确定图片所属类别。因为卷积操作所提取到的特征只是图片的局部特征，因此在进行分类之前，全连接层还需将提取到的特征进行重组，特征重组本质上是将一个特征空间线性变换到另一个特征空间。对于输入特征为二维的特征图，全连接层采用一个和特征图大小一致的卷积核对该特征图进行全局卷积，将局部特征整合到一起，输出结果。这种做法一定程度上减少了特征位置对于分类的影响，忽略了图片中特征本身的空间结构特性，极大的增强了神经网络的鲁棒性。

CNN将特征重组后的结果交给softmax分类器输出分类的结果。Softmax分类器在CNN的最后一层，本质上是一个函数，常用于多分类模型，返回每个类别的概率，概率最大项对应的结果就是最终结果。不管输出结果正确与否，都代表CNN完成图片的检索，也表示CNN完成前向传播，接下来就需要根据CNN对图片的检索结果和真实结果的差值，进行反向传播修改卷积核权重等相关超参数，使下一次的检索结果更加接近真实结果，这个差值即为损失函数。

3 基于CNN的课堂表情图像检索

3.1 总体思路

首先，经人工数据比对后的图片作为输入图片进入神经网络，特征提取由卷积层和池化层完成，经过两层卷积池化保留主要特征。接着采用全连接层将卷积层和池化层提取到的局部特征进行特征重组，并交给softmax分类器进行图片检索，然后根据损失函数值，反向传播对相关超参数进行修改，使预测结果更加接近真实结果。

课堂表情图像的检索是建立在良好的CNN模型基础上。表情检索流程的设计如图1所示。

图1 表情检索流程

3.2 实验设计

每个神经网络的训练都需要大量数据，考虑到目前并没有关于课堂表情的数据集，因此实验采用的数据以fer2013数据集为基础，按照五类课堂表情对该数据集进行筛选，筛选后的结果为训练集5364张图片，验证集662张图片，测试集1354张图片，每张图片均属于五类表情之一。

实验所采取的数据集所含的数据样本较少，针对该情况，我们在训练CNN之前对数据集的数据样本进行扩充，扩充方式包括但不限于旋转，翻转，颠倒，这些方式也是训练神经网络常规的数据样本扩充方式。

在CNN网络结构的设计上，用于训练的图片尺寸为48×48，相比于大尺寸图片所蕴含的信息相对较少，如果结构设计过于复杂可能丢失图片的显著特征从而影响训练结果，最终导致实验结果不理想。因此我们设计了9层神经网络的结构，其中3层卷积，2层池化，4层全连接的结构，如图2所示。

图2 CNN实验结构

在CNN的训练过程中，梯度下降方法是随机梯度下降方法，损失函数为交叉熵函数，初始学习率为0.01，每次学习率衰减为10-6，初始动量为0.9，应用内斯特罗夫动力。将所有的训练数据分为若干组，每组有128个图片样本，总共训练50个周期。

在定位人脸的过程中，我们采用的是OpenCV的脸部追踪器。定位到脸部后，将脸部图像截取下来进行预处理，然后将预处理后的图片提交给训练好的CNN模型，通过模型检索后输出结果，并实时反馈结果。

3.3 结果与分析

为了探究不同数量的样本集及其它超参数对CNN训练结果的影响，我们在数据集上进行了多次实验，相关结果如表1所示。

表1 CNN训练结果

卷积的次数和数量在很大程度上影响局部特征的提取效率与准确度，多次卷积确实对提取特征比较有利，但也会使神经网络变得复杂，需要训练的参数也会增加，进而导致模型训练的效率下降。经过多次的对比试验，我们选取其中表现最好的模型进行应用效果的测试，最终模型的实际应用效果如图3所示。

图3 CNN应用效果示例

结语：针对课堂教学的应用需求，结合神经网络技术，本文研究了基于CNN的课堂表情图像检索技术。本文采用的数据集原型来自fer2013数据集，而该数据集某种程度上并不是非常适合课堂表情检索。虽采用了数据样本扩充的方式，但相较于神经网络需要的大数据量依然不够，因此，解决课堂表情数据样本不足问题和进一步改进CNN网络结构以提高应用效果是接下来的研究方向。