APP下载

学生表情识别研究综述*

2020-11-30魏艳涛雷芬胡美佳邓伟姚璜王志锋

中国教育信息化·高教职教 2020年11期
关键词:教学评价人工智能

魏艳涛 雷芬 胡美佳 邓伟 姚璜 王志锋

摘   要:学习情绪分析有助于理解学生学习状态、为实施有效学习干预提供重要依据。近年来,随着人工智能的快速发展,表情识别已成为感知学习情绪最直接和最有效的方式,备受教育技术领域关注。然而,由于表情与认知之间关联高度复杂、教育场景复杂多变等,学生表情识别依然是一个开放问题。文章采用文献分析法,对学生表情识别的研究现状及趋势进行深入探讨。文章首先归纳分析了面向学生表情识别的表情分类和数据库构建研究进展,重点分析了学生表情分类和数据库构建存在的系列问题;其次,详细梳理了学生表情识别方法的研究现状,并分析了表情识别方法未来的发展方向;第三,梳理了表情识别在教育领域的典型应用;最后,探讨了学生表情识别未来在表情分类、鲁棒识别算法构建以及隐私保护等方向上的发展趋势。

关键词:人工智能;学习情绪;学生表情识别;教学评价

中图分类号:G424;TP391.41 文献标志码:A 文章编号:1673-8454(2020)21-0048-08

一、引言

学习情绪是一种重要的内隐式学习特征。学习情绪分析不仅可以为教师理解学生的学习行为、动机、兴趣和注意力提供线索,而且还可以为教学评价和教学反思提供重要依据。如何有效精准识别学生学习过程中的情绪状态,一直是教育领域的研究重点和难点。心理学家Mehrabian通过研究发现:“情绪表达=7%的语言+38%的姿势表情+55%的面部表情”,面部表情包含丰富直观的情绪信息。研究表明,在学习环境下,面部表情不仅能直观反映学生的情绪状态,还能反映学生的心理状态。[1]因此,面部表情识别已成为感知学习情绪的主要途径。

早期学习情绪识别主要依靠人工观察和学生自我报告。然而,人工观察法效率低下,且不适用于师生分离的在线学习环境;而自我报告方法主观性强,易对学习过程产生干扰。随后Ekman等人开发的面部动作编码系统(Facial Action Coding System,FACS)受到广泛关注,FACS根据面部肌肉活动定义了46个动作单元来判断面部表情,但其实际应用中的使用效率并不高。因此,教育领域迫切需要探索适合大规模数据实时处理的学习情绪识别方法。

近年来,随着人工智能的迅速发展,表情识别技术在人机交互、安全、自动化、医疗、通信等领域取得了丰硕成果。表情识别因数据获取的便捷性和方法使用的高效性,而受到了教育领域的广泛关注。通过基于计算机视觉的表情识别方法准确识别学习情绪,既可以解决学习情绪状态难以自动感知的问题,也顺应了信息技术与教育教学深度融合的发展趋势。更为重要的,表情识别可为学生调整学习状态和教育者调整教学策略等提供有效支撑。

当前,表情识别在“人工智能+教育”领域已逐渐引起重视。本文在中国知网数据库中以关键词“学生表情识别OR学生情绪识别OR参与度识别OR参与度检测”为检索条件,同时在“Web of Science”、“Springer”、“Elsevier Science”等数据库中以关键词“expression recognition of students”、“expression classification of students”、“engagement detection”、“engagement recognition ” 为检索条件进行检索,人工剔除无关文献,迄今为止有关学生表情识别的有效中外文献分别为111篇和524篇,其中文献发表数量随年度变化情况如图1所示。

图1表明,从2008年开始,国内外发表的有关学生表情识别的文献数量总体呈上升趋势,尤其是近几年增长速度明显。可见,随着“人工智能+教育”的兴起,表情识别的相关研究和应用在教育领域逐渐成为新的研究热点。

二、学生表情分类及数据库构建

在教学环境下,识别学生表情有助于及时了解学生的学习状态。随着学生表情识别研究的不断深入,越来越多的研究者认识到高质量的表情数据库对训练有效的识别模型、准确理解学生的学习行为和状态具有重要作用。迄今为止,国内外学者建立了许多与学生表情相关的数据库,但其構建标准和方法并不统一。特别地,表情分类作为表情识别的核心问题和构建表情库的首要任务还未得到很好的解决。

1.学生表情分类

美国学者Paul Ekman将人类普遍情绪分为六种,即高兴、生气、惊讶、恐惧、厌恶和悲伤。目前大多数研究者均是在Ekman六类基本情绪理论基础上开展学生表情识别研究,如表1所示。然而,学习情绪不仅具有人类情绪的普遍性,而且还具有其独特性,例如学生表情大多时候处于中性状态,波动幅度不大,而类似于“悲伤”和“生气”这类强烈的负面情绪则需要较强的诱导因素才会出现。由此可见研究者应将关注点置于频率出现较高且能真实反映学生学习状态的表情,才能挖掘出学生在不同学习环境下的真实学习情绪。

2.学生表情数据库构建

学生表情数据库的质量将直接影响表情识别的效果。如何构建学生表情数据库一直是个开放性的问题。现有的学生面部表情数据库主要分为三种类型:一是基于Ekman的6种基本情绪而构建的学生表情数据库;二是采用面部运动编码系统(Facial Action Coding System, FACS)进行编码的学生表情数据库;三是根据特定研究需要构建的学生表情数据库。[12]在这三种类型的数据库中,收集有关学生表情数据的常用方法有两种:一种是在实验前对学生进行表情培训,要求学生按照指示扮演需要采集的表情;另一种是学生在诱导素材的引导下,采集他们自然而发的无意识的表情。比较有代表性的表情数据库如表2所示。

(1)学生扮演表情数据库

学生扮演的表情具有很强的针对性,适合做大规模的学生表情数据采集。如徐振国[12]建立了由70名研究生组成的包含常态、高兴、愤怒、悲伤、惊恐、专注、走神等7种学习情绪的73500张面部表情图像库。学生在扮演相应表情时面部肌肉运动幅度大、表情特征性强、持续时间久,采集起来比较容易。但是在真实情境下大多时候学生处于常态情绪,表情变化幅度并不会太大,因此通过学生扮演表情建立的数据库无法真实地反映出学生学习状态。

(2)学生自发表情数据库

近几年,研究者更倾向于研究学生无意识流露出的表情,其更贴近真实的学习状态。因此,自发的学生表情数据库数量较多。如Kappor等[14]采用电脑解谜的诱导方式,采集到了136名儿童高兴趣、中兴趣、低兴趣、乏味和休息五种状态下的自然表情。Whitehill等[3]提取了34名学生在认知实验过程中产生的快乐、悲伤、厌恶、恐惧、惊讶和中性六种表情数据。D'Mello等[9]借助摄像机和身体测试系统采集到了28名大学生在与AutoTutor互动过程中的自然表情。虽然学生在自然状态下流露的表情研究价值高,但是学生面部肌肉运动幅度小、表情特征性弱、持续时间短,所以采集过程较为困难。

(3)学生表情数据库的不足

基于以上探讨,本文发现目前学生表情数据库的构建存在以下不足:

①数据库的建立标准不统一

单从Ekman提出的六种基本表情对学生情绪进行归纳分类,并不能完全划分真实情绪的界限。例如学生在学习过程中出现的乏味、疲劳、厌倦等频率较高的表情,面部呈现的效果非常相似,但目前学术界并没有形成统一的区分标准。除此之外,由于学生表情变化十分丰富,研究者在构建相关数据库时,定义的类别各式各样,导致数据库的质量参差不齐。

②自发表情采集困难

目前大部分研究者都倾向于采集学生的自发表情,但是采集的过程也面临许多困难。首先要找到能够成功引发学生自发表情产生所需的诱导素材并不是一件易事。其次在教室环境下的采集过程中,摄像头与学生保持一定距离,由于摄像头需同时捕捉多位学生的面部表情,且摄像头在教室的安置问题,很可能使数据库视频质量不佳,单个人脸的分辨率不够高,数据处理过程困难。

③开源大规模数据库较少

目前在学生表情识别方面的研究并不多,而且对学生进行数据采集也涉及相关隐私问题,因此开源的学生表情数据库甚少。而且,不同国家的人脸的面部单元(眼间距、鼻翼宽、额宽)具有一定的差异性,开源数据库的适用性存在问题。未来需要建立我国学生表情的大规模开源数据库,以便开展学生表情识别的研究与应用。

三、表情识别方法概述

学生表情识别准确与否对后续开展学习分析有着直接影响。因此,教育应用对表情识别方法的性能提出了更高要求。目前,表情识别方法大致分为基于传统机器学习的方法和基于深度学习的方法,表情识别过程主要包括人脸检测、图像预处理、特征提取和表情分类等,如图2所示。

1.传统机器学习方法

(1)人脸检测

学生表情图像的背景对识别的效果有很大影响。因此在提取学生表情特征之前,首先要检测或定位人脸,然后去除背景和非人脸区域。当前,人脸检测方法又分为基于特征和基于统计学习的方法。

①基于特征的方法

早期基于特征的方法一般要提取灰度、颜色、纹理等特征。然而,这些底层特征难以表达图像的高层语义信息。为了克服底层特征的不足,研究者开始转向使用具有更高层次的中层特征。中层特征能获得更丰富的语义信息,具有更好的抽象表达能力,使分类器对其更易检测和判断。常用的基于中层特征的方法包括Object Bank、Distinctive Part、HoF等。为了弥补单一特征带来的特征信息不足,有研究者提出利用流行的特征获取方法获取不同的特征,如将肤色、人脸结构、纹理、运动信息等结合使用,通过不同特征的有效结合,以提高检测性能。[16]

②基于统计学习的方法

基于统计学习的方法包括神经网络、支持向量机(Support Vector Machine, SVM)、贝叶斯决策和AdaBoost等方法,其中AdaBoost方法因其快速度和高精度的特点被广泛应用于在线学习环境下的学生人脸检测。[12]21世纪初,Viola&Jone提出著名的V-J算法,通过将Harr-like特征分类器引入人脸检测中,并结合AdaBoost方法得到最能表示人脸的矩形特征,使人脸检测得到新的发展。与在线学习环境不同的是,传统课堂中学生的小幅度行为不受控制,容易出现脸部被遮挡等情况,且细小的行为都会导致识别效果产生偏差。[2][17]

(2)数据预处理

不相关的头部姿势、光照变化、噪声干扰等都是很常见的影响识别效果的干扰因素。因此在获取有意义的特征之前,通常需要进行预处理操作,帮助对齐和规范面部传达的视觉语义信息。常见的预处理方法包括人脸对齐、数据扩容、人脸归一化等。[16]

为了对齐人脸,研究者往往将多个检测器结合,相互补充,以此克服只使用一个检测器进行人脸比对的缺陷。当前,基于深度学习的人脸对齐算法得到了广泛应用,但由于深度学习浅层特征表征能力不强,鲁棒性差,且难以实现真正意义上的“端对端”,因此,Liu等[18]提出一种端到端的推理决策网络方法,将人脸对齐看成一种马尔可夫决策过程,通过策略梯度實现鲁棒人脸对齐。而训练算法性能需要足够多的数据样本,大多数研究者采取数据扩容方法解决样本容量不足问题。数据扩容方式包括随机扰动和变换,如翻转、平移、缩放、对比度、噪声及颜色抖动等。除此之外,研究者还采用人脸归一化的方法来减少光照和头部姿势的改变而导致的图像变化。[19]

(3)特征提取

特征提取是表情识别中的关键环节。学习环境下的学生表情具有一定的内隐性和复杂性,因此需要设计有效的特征提取方法。当前依据数据形态的不同及识别任务的特点,可将表情特征提取算法分为两大类——基于静态图像和基于视频的特征提取方法。

①基于静态图像的特征提取

由于静态图像获取及处理便捷的特性,已有大量研究不考虑数据的时序性问题,进行基于静态图像的表情识别任务。基于静态图像的特征提取算法可进一步细分为整体法和局部法。整体法包括主元分析法(Principal Component Analysis,PCA)、独立分量分析法(Independent Component Analysis,ICA)和线性判别分析法(Linear Discriminant Analysis,LDA)等。PCA算法作为一种无监督的方法,在最大化保留人脸信息的基础上,还能对数据特征进行降维。ICA算法作为一种无监督的方法,与PCA不同的是,除了能对数据降维,提取出的属性具备相互独立性,且因收敛速度快,被用于提取学生表情特征。[20]LDA算法是一种有监督的方法,能将高维数据投影到最佳辨别矢量空间并压缩数据,保留最相关的特征。该方法在表情识别任务中得到了广泛应用。比较经典的局部特征提取方法有Gabor小波和局部二值模式(Local Binary Patterns,LBP)等。利用Gabor小波系数编码学生脸部表情,可以获得良好的视觉效果。但是在计算不同尺度和方向的小波核函数时,Gabor产生的高维特征向量容易造成信息冗余。LBP能够对灰度图像进行有效处理,获取纹理信息进行表达,且对光照条件不敏感。由于学习环境下的学生表情幅度变化不大,研究者开始转向微表情的探究。微表情是一种短暂的面部动作,持续时间短且强度低。Mao等[21]利用微表情图像和中性表情图像中对应子块之间的投影误差,提出了一种将图像各子块提取的LBP特征进行分割的学生微表情识别方法。但LBP产生的二值数据易受到噪声的干扰,通过对LBP的改进,目前已经产生了旋转不变LBP算法、均匀LBP算法、多尺度LBP算法等。

②基于视频的特征提取

视频可呈现人脸形变和肌肉运动过程,对表情发生的过程和情绪的转变具有较好的解释性。基于视频的特征提取算法分為光流法、模型法和几何法。光流法指利用视频序列图像间像素强度的时域变化和相关性,获得人脸各个部分发生运动的信息,表征脸部形变和变化趋势。Liu等[22]为了提高视频序列中微表情的识别率,在微表情视频序列中抽取主方向,将面部区域划分为感兴趣区域,并计算感兴趣区域中的平均光流特征。目前研究者提出了改进的光流法,如金字塔光流法、差分光流法、区域光流法、特征光流法等,以克服传统光流法运算量大、处理困难、易受光线影响等问题。[17]模型法包括主动形状模型法(Active Shape Models,ASM)和主动外观模型法(Active Appearance Model,AAM)。在线学习系统中,魏刃佳等[23]基于ASM定位人脸特征点,获取眼部和嘴巴的形变特征识别学习者的疲劳情况。AAM是当前人脸特征点定位的主流研究方法,韩丽等[24]基于AAM对课堂环境下学生面部关键点进行标记,依据建立的形状模型提取多姿态人脸特征,有效解决了人脸姿态的多样性,取得了较好的识别效果。几何方法通过定位面部五官即眉毛、眼睛、鼻子、嘴巴和下巴来获取人脸表情的显著特征。

目前一些扩展的手工特征描述符(比如LBP-TOP、3D-HOG 、3D-SIFT等),也被用来提取图像的时域特征。[25]然而,单一的特征提取算法并不能获得学生较全面的表情信息,且光照、遮挡、肤色以及运动偏移等因素都会影响表情识别效果。为了提高识别的鲁棒性,多特征融合已成为研究者广泛使用的方式。

(4)表情分类

选择有效的分类器是进行学生表情识别的关键。当前,支持向量机(Support Vector Machine,SVM)、贝叶斯网络(Bayesian Network)和隐马尔科夫模型(Hidden Markov Model, HMM)等分类器在解决学生表情分类问题上取得了较好的效果。例如唐康[2]提出了一种基于朴素贝叶斯分类的表情识别和评分方法,对学生情绪进行正负面的分类和评分。郑子聪在获取学生表情特征的基础上,结合SVM线性分类法来识别学生的疲劳状态。Whitehill等[3]使用Gabor法提取学生面部特征,利用SVM法进行表情分类,该方法泛化能力强,识别准确率高。Grafsgaard等[26]在HMM基础上提出了一种学习混淆预测模型,该模型可以预测学习者的对话动作、任务表现和面部表情,解决学习中伴随的困惑障碍。事实上,分类器的选择很大程度取决于所使用的数据集的属性。

2.基于深度学习的方法

当面对大规模数据时,传统的机器学习分类方法效率低下,不能满足实际需求,特征描述符也只能从面部表情中提取低级特征。除此之外,传统的手工设计特征依赖于大量的先验知识和丰富的经验,并且大多为特定应用所设计,泛化性能不强,特征描述符在实验中还需要人工调整其参数,十分耗时。深度学习的出现为问题的解决提供了可能,深度学习试图通过多重非线性转换和表示的层次结构来捕获高级抽象的特征。[27]当前深度学习被划分为三类——无监督深度网络、有监督深度网络和半监督深度网络。无监督深度网络是指在学习过程中不需要利用标签信息,主要包括受限波尔兹曼机(Restricted Boltzmann Machine,RBM)、深度置信网络(Deep Belief Networks,DBN)等。有监督深度网络是指在学习中需要使用标签信息,它包括递归神经网络(Recursive Neural Network,RNN)、卷积神经网络(Convolutional Neural Networks,CNN)等。半监督深度学习网络只需要少量标记数据和大量未标记数据进行学习,在当前深度学习中受到广泛关注。

(1)基于静态图像的表情识别

目前在静态图像的表情识别中,常用的深度学习方法包括CNN、径向基神经网络(Radial Basis Neural Networks,RBNN)和深度信念网络(Deep Belief Network,DBN)等,[28]其中CNN被广泛应用于学生静态图像的面部表情识别。[20]例如徐振国[12]设计了一种7层CNN模型,该模型能快速且准确地识别学生表情并进一步判断学生情绪状态。Xu等[17]提出了一种基于情绪感知的学习框架,利用CNN模型对学生进行脸部检测和表情强度排序。由于深度挖掘方法会自动提取特征,一些无用的特征会干扰有用的特征,为了提高模型的识别性能,研究者开始不断对CNN进行简化和改进。[19]

许多现有的情感识别方法专注于单个任务,而情感表现形式丰富,情感识别与各种因素交织在一起,如眼睛状态、头部姿势、心率、脑电等。为了解决这一问题,当前已有学者充分考虑各个模态对情感识别的贡献度,建立多模态学生情感识别方法。[29]除此之外,目前研究大多基于某一种深度学习方法完成表情识别任务,然而,单一神经网络的适用范围有限,未来多种神经网络的组合使用是提高识别效率的研究热点。

(2)基于视频的表情识别

虽然基于静态图像的方法可以有效地提取图像的空间信息,但是在真实的学习环境中,学生表情具有低强度、时间短、持续性和时序性的特点,因此通过连续帧识别面部表情更自然,识别结果更为精准。由于RNN在各种序列分析任务上取得了不错的表现,人们尝试使用RNN对随时间演化的面部表情进行识别。Zhang等[30]基于RNN设计了一种时空递归神经网络模型,利用输入信号的时空依赖性学习隐藏特征,并在脑电波和面部表情数据集上证明了其有效性。然而,RNN用于提供一种简单的机制来解决爆炸和消失梯度问题,容易丧失学习序列时域特征的能力,为此,长短时记忆(Long Short-Term Memory,LSTM)网络应运而生。如王素琴等[31]建立了VGGNet-LSTM模型,首先通过VGGNet模型提取表情图像的视觉特征,然后使用LSTM提取图像序列的时序特征,通过特征融合后在此基础上进行分类,显著提高了表情识别的准确率。除了面部表情类信息外,Zhu等[32]还考虑了代表性的表情状态(表情的起始、顶点、偏移量)等影响因素,建立了一个深度的CNN-LSTM子网来学习图像的时空特征, 进一步识别在线学习中的面部表情。尽管深度学习具有强大的特征学习能力,但在表情识别任务中依然面临一些挑战。例如深度学习需要大量的样本进行训练,而已有的许多学生表情数据库规模达不到模型要求,同时,学生的年龄、身高等无关因素的差异也会影响识别结果。

当前,将传统机器学习方法与深度学习方法结合使用也成为一种常用策略。如在远程学习中,为了实时识别学生的学习状态,Yang等[33]采用Haar級联方法对人脸图像进行检测,然后通过Sobel边缘检测得到特征值,并送入神经网络进行识别。而为了自动检测学生学习走神情况,Bosch等[34]使用OpenFace实时提取面部图像特征和头部姿势特征,建立由SVM和深度神经网络组成的机器学习模型,但识别的准确率不高。

四、表情识别的典型教育应用

1.线下教学应用

学生在课堂上的情绪能够直观反映他们对知识的接受程度。然而,传统课堂学生人数较多,面对这种大规模表情识别的环境,依赖于教师观察学生学习情绪变化的方法效率低下。将表情识别技术引入课堂,可以自动化地连续监测、记录、识别、分析学生情绪变化,且不会对教学实践流程和学生学习过程产生干扰。

表情识别技术引入课堂,为了解学生课堂投入度、评价课堂效果、衡量教学质量和调整教学策略提供了有益帮助,同时为新入职的教师培训和学校异常事件检测开辟了新的途径。例如Gupta 等[11]通过最大边缘的人脸检测方法识别学生表情并计算学生的投入度,将情绪内容分析的结果反馈给教师进行课堂效果评价。学生的情绪演变可以帮助教师了解学生的学习状况,进一步提高教学质量,因此,Zeng等[35]设计了EmotionCues视觉分析系统,可以在课堂视频中支持从集体和个人的角度对学生情绪演变进行可视化分析。此外,Park等[36]借助Emotient软件,通过使用真实课堂行为仿真实时自动检测职前教师与虚拟学生互动情绪体验,为以后的虚拟教学仿真和教师培训提供经验。Alkabbany等[15]提出通过识别学生学习表情可开发早期预警系统来检测学生的焦虑和抑郁,以帮助教育者采取措施及早应对。

在复杂的课堂环境下,应结合学生的生理和心理等多重指标分析学生的学习状态。韩丽等[24]提出了一种课堂教学评价系统,将学生头部姿态与面部表情相结合,用来测量学生在课堂上的关注度、参与度、活跃时间分布,进一步进行教学调整和教学质量评价。为了克服当前教学评价的不足,唐康[2]结合课堂教学场景,提出了一种基于深度学习的人脸检测和表情识别技术,建立了“学生抬头率—学生表情—学生专注度—课堂教学质量”的教学质量评价轴。Monkaresi等[37]通过将表情识别技术与心率遥感技术结合,识别学生在学习过程中的参与度。

2.在线教育

随着计算机网络的发展,在线学习得到了广泛关注和大规模推广。教育游戏、智能辅导系统以及大型开放式网络课程(Massive Open Online Courses,MOOC)等众多教学形式的出现,为学生创造了丰富的学习环境。[3]然而,在线学习环境下的师生分离,容易造成师生情感交流缺失。

表情识别技术使计算机被赋予类人的情绪特征解释和生成能力,能够监测学生的学习状态,帮助平台调整教学流程,提高学生学习参与度,同时还能帮助教师及时了解学生的学习掌握情况,为实现学习者的个性化学习提供技术支撑。如为了检测学生在线学习参与度水平,Sharma等学者通过将学生眼睛、头部、面部表情等运动信息结合起来识别学生学习状态和投入程度,进一步对教学流程进行优化。[6][23][25]为了准确判断学生情感,张敬然[20]从多角度出发建立了在线学习行为深度感知分类模型,依据学生眼睛状态和表情获得学生情绪,以此了解学生的学习状态,帮助实现学生的个性化学习。

现有研究表明,若计算机能够根据学生的学习情绪及时提供干预措施,学生的学习效率将会得到很大幅度提升。[13]智能导师系统(Intelligent Tutoring Systems,ITS)因其可以模拟优秀教师的思维辅助学生学习而得到广泛应用。然而,已有研究表明目前的ITS普遍存在以下问题:一是不能和学生进行自适应性的情绪交互,容易让学生对所学内容产生厌烦情绪;二是认知诊断能力较差,不能很好地引导学生进行学习,无法达到实现促进学习效果的目的。表情识别技术为新一代ITS功能的完善提供了强有力的技术支持。例如孙波等[4]构建了基于学生表情识别的情绪分析框架,并将此框架应用在三维虚拟学习平台 Magic Learning的师生情绪交互子系统上,通过虚拟教师对学习者情绪进行干预。Joshi等[13]基于开发的模型,依据面部表情相关信号预测学生学习行为,ITS以此提供适当和有效的干预措施,可量化地改善学习体验,使学生保持最佳的情绪状态,并给出有益的辅导。除此之外,ITS还可以融入到特殊教育中,例如Rudovic等[38]制定了个性化的机器学习(ML)框架,用于自动感知儿童的情感状态并应用到自闭症的治疗当中,且通过实验证明了其可行性。

五、学生表情识别的发展趋势

表情识别为学生在学习过程中的情绪状态的感知提供了有效手段,但是该领域仍然存在一些问题亟待解决,未来该领域将会朝着更加智能、更加高效和更加人性化的方向发展。

1.提升复杂环境下学生表情识别性能

面对多样化的教育场所,光线变化、遮挡、学生动作幅度等潜在因素都会给表情识别算法带来巨大挑战,而学生的相貌、表情、肤色等差异也是影响识别率的重要因素。因此,在努力提升表情识别算法性能时,研究者应充分考虑环境因素和一些潜在因素的影响,使设计出的算法更具鲁棒性。除此之外,在分析学生学习状态时,单一的表情信息并不能完整传递学生的情绪内容。未来应从多模态融合的情绪识别出发,在完善相关技术理论的基础上,充分考虑语音、姿态、表情、眼球追踪、脑电波等数据之间的联系,通过模态间的信息互补获得更满意的识别效果。[39]

2.完善学生表情数据库

学生表情数据库是开展学生情绪状态分析相关工作的前提。然而,当前学生表情数据库的建立存在诸多问题,例如建库方法各式各样、表情分类标准不统一、样本质量参差不齐。同时,复杂的表情采集过程和耗时的人工标注环节也进一步制约了数据库中样本的规模。而学生表情数据库的完善对准确识别学生情绪有着现实意义。未来如何构建一个样本数量充足、表情分类合理、图像质量优良的数据库是研究者需要深思的问题。

3.加強学生隐私保护

随着大数据时代的到来,隐私和安全问题愈来愈突出。在数据的采集过程中,学生的一举一动都会被摄像头捕获。这些数据的流失可能会侵犯到学生的隐私,给学生带来不良影响。教育领域普遍认为,学生信息隐私化处理也是研究的一个重要环节,目前在学生表情识别相关研究和应用中对该问题的关注度不够,我们应积极采取措施加强学生隐私保护。

六、结语

人工智能的兴起将对教育发展产生深远影响,表情识别技术的快速发展将为“人工智能+教育”时代的教育应用提供有力支撑。将先进的表情识别技术融入教学系统,可自动分析学生的情绪状态,获得包括学习参与度、频度、活跃程度等在内的实时数据。教师可据此获得学生的学习状态,并做出客观的教学评价和及时的教学调整。学生也可以利用数据的反馈进一步调整学习,提高学习效率。可见,学生表情识别对智能时代的教与学具有十分重要的意义。然而,学生表情识别依然面临着许多挑战,研究者应该多角度、多维度去深刻分析学生情绪变化与学习状态之间的关联,并且强调在真实学习环境中注重长期实地研究,以便使人工智能技术更高效地应用于教育领域,服务于教学。

参考文献:

[1]Tonguc G,Ozkara B O.Automatic recognition of student emotions from facial expressions during a lecture[J].Computers in Education,2020(148):1-12.

[2]唐康.人脸检测和表情识别研究及其在课堂教学评价中的应用[D].重庆:重庆师范大学,2019.

[3]Whitehill J,Serpell Z,Lin Y C, et al.The faces of engagement: Automatic recognition of student engagement from facial expressions[J].IEEE Transactions on Affective Computing,2014,5(1): 86-98.

[4]孙波,刘永娜,陈玖冰,罗继鸿,张迪.智慧学习环境中基于面部表情的情感分析[J].现代远程教育研究,2015(2):96-103.

[5]徐振国,张冠文,孟祥增,党同桐,孔玺.基于深度学习的学习者情感识别与应用[J].电化教育研究,2019(2):87-94.

[6]Sharma P,Joshi S,Gautam S,et al.Student engagement detection using emotion analysis,eye tracking and head movement with machine learning[J].arXiv: Computer Vision and Pattern Recognition,2019.

[7]Graesser A,Chipman P,King B,et al.Emotions and learning with auto tutor[J]. Frontiers in Artificial Intelligence and Applications,2007(158):569-571.

[8]Lehman B A,Zapata-Rivera D.Student emotions in conversation-based assessments[J].IEEE Transactions on Learning Technologies,2018,11(1):41-53.

[9]D'Mello S,Picard R W,Graesser A.Toward an affect-sensitive Auto Tutor[J].IEEE Intelligent Systems,2007,22(4):53-61.

[10]Calvo R A,D'Mello S K.New perspectives on affect and learning technologies [M]. Springer Science & Business Media,2011.

[11]Gupta S K,Ashwin T S,Guddeti R M R.Students affective content analysis in smart classroom environment using deep learning techniques[J].Multimedia Tools and Applications,2019:1-28.

[12]徐振国.智慧学习环境中学习画面的情感识别及其应用[D].济南:山东师范大学,2019.

[13]Joshi A,Allessio D,Magee J,et al.Affect-driven learning outcomes prediction in intelligent tutoring systems[C].2019 14th IEEE International Conference on Automatic Face & Gesture Recognition.IEEE,2019:1-5.

[14]Kapoor A,Picard R W.Multimodal affect recognition in learning environments[C].Proceedings of the 13th annual ACM international conference on Multimedia.ACM,2005:677-682.

[15]Alkabbany I,Ali A,Farag A,et al.Measuring student engagement level using facial information[C].2019 IEEE International Conference on Image Processing. IEEE,2019:3337-3341.

[16]Li S,Deng W.Deep facial expression recognition:A Survey[J].arXiv: Computer Vision and Pattern Recognition,2018.

[17]Xu R,Chen J,Han J,et al.Towards emotion-sensitive learning cognitive state analysis of big data in education: deep learning-based facial expression analysis using ordinal information[J].Computing,2019:1-16.

[18]Liu H,Lu J,Guo M,et al.Learning reasoning-decision networks for robust face alignment.[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2020,42(3):679-693.

[19]Li S and Deng W.Deep facial expression recognition:A Survey[J].IEEE Transactions on Affective Computing,in press,2020.

[20]張敬然.基于面部识别技术的在线学习行为深度感知方法研究与应用[D].南京:南京师范大学,2018.

[21]Mao L,Wang N,Wang L,et al.Classroom micro-expression recognition algorithms based on multi-feature fusion[J].IEEE Access,2019(7):64978-64983.

[22]Liu Y,Zhang J,Yan W,et al.A main directional mean optical flow feature for spontaneous micro-expression recognition[J].IEEE Transactions on Affective Computing,2016,7(4):299-310.

[23]魏刃佳,丁亦喆,张莉,吴振强.在线学习系统中情感识别模块的设计与实现[J].现代教育技术,2014(3):115-122.

[24]韩丽,李洋,周子佳,宋沛轩.课堂环境中基于面部表情的教学效果分析[J].现代远程教育研究,2017(4):97-103,112.

[25]陈子健,朱晓亮.基于面部表情的学习者情绪自动识别研究——适切性、现状、现存问题和提升路径[J].远程教育杂志,2019(4):64-72.

[26]Grafsgaard J F,Boyer K E,Lester J C.Predicting facial indicators of confusion with hidden Markov models[C].International Conference on Affective computing and intelligent interaction.Springer,2011:97-106.

[27]Sariyanidi E,Gunes H,Cavallaro A,et al.Automatic analysis of facial affect: A survey of registration,representation,and recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(6):1113-1133.

[28]Li Y,Zeng J,Shan S,et al.Occlusion aware facial expression recognition using cnn with attention mechanism[J].IEEE Transactions on Image Processing,2018,28(5):2439-2450.

[29]Chaparro V,Gomez A,Salgado A,et al.Emotion recognition from EEG and facial expressions: a multimodal approach [C].The 40th Annual International Conference of the IEEE Engineering in Medicine and Biology Society,2018:530-533.

[30]Zhang T,Zheng W,Cui Z,et al.Spatial-temporal recurrent neural network for emotion recognition[J].IEEE Transactions on Systems,Man,and Cybernetics,2019,49(3):839-847.

[31]王素琴,张峰,高宇豆,石敏.基于图像序列的学习表情识别[J/OL].系统仿真学报,2020:1-7.https://doi.org/10.16182/j.issn1004731x.joss.19-VR0470.

[32]Zhu X,Chen Z.Dual-modality spatiotemporal feature learning for spontaneous facial expression recognition in e-learning using hybrid deep neural network [J].The Visual Computer,2020,36(4):743-755.

[33]Yang D,Alsadoon A,Prasad P W,et al.An emotion recognition model based on facial recognition in virtual learning environment[J].Procedia Computer Science,2018: 2-10.

[34]Bosch N,Dmello S.Automatic Detection of mind wandering from video in the lab and in the classroom[J].IEEE Transactions on Affective Computing,2019:1-16.

[35]Zeng H,Shu X,Wang Y,et al.EmotionCues: Emotion-oriented visual summarization of classroom videos[J].IEEE Transactions on Visualization and Computer Graphics,in press,2020.

[36]Park S,Ryu J. Exploring preservice teachers emotional experiences in an immersive virtual teaching simulation through facial expression recognition[J]. International Journal of Human-Computer Interaction,2019,35(6):521-533.

[37]Monkaresi H,Bosch N,Calvo R A,et al.Automated detection of engagement using video-based estimation of facial expressions and heart rate[J].IEEE Transactions on Affective Computing,2017,8(1):15-28.

[38]Rudovic O,Lee J,Dai M,et al.Personalized machine learning for robot perception of affect and engagement in autism therapy[J].Science Robotics,2018,3(19).

[39]Giannakos M N,Sharma K,Pappas I O,et al.Multimodal data as a means to understand the learning experience[J].International Journal of Information Management,2019(48):108-119.

(編辑:王天鹏)

猜你喜欢

教学评价人工智能
我校新增“人工智能”本科专业
人工智能与就业
试论通过评价促进学生的语言习得
对农村小学数学课堂教学评价的认识和看法
网络环境下高职英语课程多维度评价方式研究
小学数学“反思型” 教学的探索与实践