APP下载

表情识别在课堂教学评价中的应用研究

2022-11-17唐强张璐平夏志远彭俊符子扬

现代信息科技 2022年20期
关键词:关键帧置信度评价

唐强,张璐平,夏志远,彭俊,符子扬

(湖南师范大学,湖南 长沙 410081)

0 引 言

在传统的教学评价中,教师通过分析学生的认知水平,量身定制对应的教学策略,从而提高教学效果[1]。这种通过教师教学的效果和学生的学习效果来评价课堂教学的方法其关注点主要是学科知识,而学生在这些教学中产生的情绪则常常会被忽略,所以此法进行教学评价时会有一定的局限性。

当初任教师,特别是实习教师在授课时,会因为教学经验不丰富或教法运用不熟练,导致难以及时地关注到每个学生的表情,很容易忽略学生在课堂上的情绪。在教学评价这一环节中,教师未能及时察觉到学生在课堂上的情绪变化[1],不能了解学生真正的需求,因此难以实现以学生为中心进行评价。这使得课堂教学策略无法随着学生的接受水平即时地调整。

针对上述问题,本文研究了在YOLOv5 技术的辅助下,利用教室内安装的摄像头、眼动仪等设备采集课堂图像与声音信息,通过面部识别、目标识别等技术对师范生实习教学过程中的师生表现信息进行采集、运算、分析的课堂教学评价系统。

1 深度学习框架YOLOv5

YOLOv5(You Only Look Once)是一种基于深度学习的图像识别、目标检测技术,课堂教学评价系统通过YOLOv5检测识别技术对师生的人脸、表情、身体姿态等数据进行识别分类与统计[2],为数字化课堂评价提供可靠的依据。如图1所示,YOLOv5 的整体框架分为四个部分:输入端、Backbone、Neck 和Prediction[3]。

图1 YOLOv5 框架图

输入端将对输入的图片进行网格划分,为每个网格进行特征向量识别,首先确定识别对象的中心点,然后将其中心点所在的网格赋予一组向量用于判断物体的种类,而判断的标准则是由使用者自行设定,也就是通过学习训练的方式来判断物体种类。

Backbone 是YOLOv5 网络中的卷积池化层,将输入的信息进行加工处理,其采用CSP 模块先将基础层的特征映射划分为两部分,通过跨阶段层次结构将它们合并,在减少了资源消耗的同时可以保证准确率。在目标检测中,为了获得更好地融合特征,在Backbone 与输出层通常会插入一些关键层,统称为Neck。

YOLOv5 的Neck 采用FPN+PAN 的结构,加强了网络特征融合的能力。它在FPN层的后面增加了一个特征金字塔,其中包含两个PAN 结构。FPN 层和特征金字塔从不同的主干层对不同的检测层进行参数聚合,进一步提高特征提取的能力。

Prediction 是输出预测端,算法需要对于检测出的物体输出对应的预测锚框,然后得到模型的输出结果,计算模型的输出与真实值的损失,计算损失值的梯度,最后用梯度下降算法更新模型参数。

2 视频切割与关键帧提取

设备采集了某一堂课的教学过程视频后,需要把该视频切分成多个图片帧,再识别这些图片内容的含义。随着摄像技术不断发展,视频切割技术已经得到了较为广泛的应用,如电影特效添加和短视频美化等。针对视频中帧含量大、重复高、有模糊性等问题,本文重点研究了如何从分割的图片集合中提取关键帧和准确定位帧中的人脸表情这两个问题,并提出了视频切割与基于聚类的关键帧提取的解决方案。

2.1 视频切割方案

为减少无效帧对目标识别效率降的影响,本文利用YOLOv5 网络模型对视频中的所有人脸进行检测,保留带有高识别性人脸的帧[4]。

首先把由视频采集设备拍摄的教学视频分割成帧,再对各个帧进行AI 智能分析,对图片重复性、有模糊性和有效性进行验证,从验证的结果集中选取一张权重最高的帧作为关键帧,由关键帧来代替某一小段时间(p)的课堂信息,最后通过目标识别算法识别关键帧中的人脸,以及表情识别算法识别图片中各学生情绪和状态,并将结果数据返回给评价系统,为教学评价提供数据支撑。流程如图2所示。

图2 视频切割流程图

2.2 基于聚类的关键帧提取

本文采用聚类算法管理分割出来的帧,通过分析图片的人脸数量和要素内容[5],把比较相近的图片归为一类,从而能够过滤掉大部分的无用帧,提取到足够关键的帧,进而满足系统的需求。

训练模型的过程大致如下,首先需要从网络中收集图像作为训练数据,利用开源工具LabelImg 对数据集进行标注,通过YOLO 算法识别出图像内容,标注格式为PASCAL VOC,将做好的数据集转为YOLO 格式后划分数据集和验证集并放到YOLOv5 上进行训练,构建模型[6]。管理员可以针对不同视频长度设置关键帧提取频率,每p秒(p由用户设置,且最低为0.1 s),通过基于聚类的关键帧提取算法来进一步缩小关键帧选择的范围,最后YOLO 从中提取学生人脸数量最多且易于识别的帧作为关键帧。

3 表情识别

对课堂中采集的视频进行关键帧提取后,系统先进行人脸识别,在人脸数据库中获取该同学的所有信息,再识别学生表情,同时记录学生情绪。通过axios 进行ajax 异步请求,快速完成人脸情绪统计的更新,整个过程可以分为人脸识别、表情数据集训练、表情识别、数据存储等步骤。

3.1 人脸识别

YOLO 算法是采用一个单独的CNN 模型实现端对端的目标检测,算法的原理是先将图片分为N×N个框,每个都预测出x个边界框,每个边界框有5 个量,分别是物体的中心位置和它的高和宽,以及这次预测的置信度,流程如图3所示。最后利用非极大值抑制Non-maximal suppression(NMS)的技术将置信度最高的边界框选定、识别并判断该物体的类别和位置[7]。

图3 YOLO 识别框图原理

3.2 表情数据集训练

为了使模型较好地满足系统表情识别功能需求,需要划分出各种表情明显且独立的特征,并且让模型进行表情数据集的训练,才能有较为准确的识别能力。系统将学生课堂基本情绪分为开心、惊喜、烦闷、思索、困倦、无表情共六种标签。各表情特征表1所示。

表1 表情定义

本次训练数据采用的CK 数据集是在实验室情景中获取的,包含大量的静态图片并赋有情绪标签,可靠性较高。在训练表情数据集的过程中,先采用LabelImg 软件包对jpg文件进行表情标定与相对应的xml 文件的写入。通过读取对应数据集内的jpg 文件,对其中的人脸表情进行标定,标明该表情所对应的标签,接着将所有的标定好的训练图片集合根据标签分为表1中的六类,使用YOLOv5S 训练模型进行训练,训练的轮次定在100 次。测试环境为CPU Intel Core i5-5 300U,内存为8 GB,显卡型号为Intel(R)HD Graphics 5 500,操作系统为 Ubuntu1 6.0。

通过分析三类损失函数(分损失函数cls_loss、定位损失函数box_loss 和置信度损失函数obj_loss),可以衡量所训练的模型其预测值与真实值不一样的程度。图4展示的是训练模型时的三种损失函数。

图4 模型训练的损失函数

cls_loss 表示计算锚框与对应的标定分类是否正确性,box_loss 表示预测框与标定框之间的误差,obj_loss 表示负责计算网络的置信度。训练的过程中所得到关模型训练的查全率、查准率与F1 分数,模型训练之后所得到的查全率与置信度、查准率与置信度、F1 分数与置信度之间的关系如图5所示。

图5 查准率与置信度曲线

3.3 表情识别

系统采用CK 表情识别数据集,该数据集约有几千张人脸图片,并且对开心、惊喜、烦闷、思索、困倦、无表情等几种表情进行了标注。算法经过大量数据的训练后,如图能够很好地对人物的表情进行识别。通过调用测试接口进行识别,如图6所示,说明系统识别结果为sleep,置信度为0.90(90%),识别结果符合表1中sleep 表情的定义。

图6 表情识别

4 数据分析与课堂评价

4.1 测试分析

本次测试视频采用师范生在某中职学校计算机专业教育实习过程中所授的“C 语言程序设计”课堂教学视频,该班级共有学生50人。图7为课堂上某同学在整堂课的表情分布情况[8]。

图7 某同学课堂表情分布情况

为了更直观地展现整堂课所有学生的情绪变化规律,系统在时间线上统计了所有同学的表情变化情况,真实有效地反映了同学们在课堂中的情绪变化。如图8所示为部分时间内所有同学的表情分布情况。

图8 部分时间内所有同学的表情分布情况

4.2 课堂评价

在分析结果的支撑下,可以为学生个人提供课堂评价和为教师提供课堂整体评价两个部分。

学生个人课堂评价方案为将分析结果输入到分类器,得到表情分类,再对学生的表情进行评分,最后进行综合评价。如开心、思索、惊喜等积极情绪作为加分项,分值计为10 分、8 分、7 分;无表情为中性项计为-1 分;烦闷、困倦作为减分项(消极情绪),计为-8 分、-10 分。根据学生在课堂上各表情时间占比计算学生上课所得分,对结果进行分析,评分越高,表明该学生在当前时刻听讲越认真,专注度越高[9]。

课堂整体评价方案是根据所有学生的个人课堂数据统计分析,通过计算全班整体上课的加权平均分进行课堂整体评价,为教学改进提供参考。同时,如果大部分学生的情绪突然发生了变化,系统将会根据变化情况将此时间点标记为上课的高潮或低谷;根据学生们上课时表情的不同及变化和持续时间,系统将课堂的时间轴分为前期、中期和后期。并给出不同时间段的课堂综合评价,评教者可以查看不同时间段的数据统计,进一步客观的对课堂教学进行评价。由于学生个人因素的影响,每个关键帧若有占85%的情绪则忽略剩下的百分之十五,某一阶段持续积极情绪为主则忽略其他情绪,不同情绪的评分标准与个人课堂评价评分标准一样[10]。

以“C 语言程序设计”课堂教学为例,在本文所研究的课堂评价方案基础上对数据进行分析,如图9所示。分析发现,本次课堂教学过程中,本堂课只有小部分学生对课堂比较感兴趣,26%的学生可能处于开小差的状态,建议本堂课授课实习教师调整课堂教学方案并与听课评委进行沟通交流。

图9 课堂评分数据分布

5 结 论

本研究基于YOLOv5 框架对课堂教学视频进行分割、提取、表情数据集训练、目标识别、表情识别等,为数字化课堂评价标准提供了依据。通过基于表情数据的课堂评价方案对课堂授课过程进行科学性评价、分析与可视化展示,为实习教师提供了明确的课堂反思路线,可有效地帮助实习教师提高课堂教学水平。

猜你喜欢

关键帧置信度评价
基于数据置信度衰减的多传感器区间估计融合方法
一种基于定位置信度预测的二阶段目标检测方法
基于图像熵和局部帧差分的关键帧提取方法
基于块分类的矿井视频图像DCVS重构算法
ORB-SLAM系统优化框架分析概述
基于误差预测模型的半自动2D转3D关键帧提取算法
校核、验证与确认在红外辐射特性测量中的应用
2006—2016年度C—NCAP评价结果
2006—2015年度C—NCAP评价结果(3)
保加利亚转轨20年评价