基于改进AlexNet模型的面部表情识别算法研究

2023-07-14孙歌王剑雄欧琪等

计算机应用文摘·触控 2023年12期

孙歌王剑雄欧琪等

摘要：面部表情是传递人类情感状态最直观的方式，通过分析面部表情，可以获得某人在某时剖的精神和身体状况。表情识别在人机通信、自动驾驶、医学等应用领域有着重要的应用价值，并且受到越来越多的关注。随着深度学习技术的发展，表情识别技术研究也从常规的图像处理方法转变为采用深度学习的方法，但是由于样本数量有限，以及硬件设备的限制，使得提高表情识别准确率的方法受到了一定的限制。文章主要对改进ALEXNET模型的表情识别算法进行研究，由于ALEXNET在人脸面部表情识别中准确率较低，因此在对ALEXNET网络进行深入研究的基础上，通过修改卷积核的大小以及卷积层的数量，增加注意力机制和残差块．以提高网络对人脸特征的提取能力，并将改进后的AlcxNct模型应用于CK+及jAFFE数据集，进而在该数据集上取得了较好的识别准确率。

关键词：表情识别；AlcxNct；深度学习；卷积层

中图法分类号：TP391 文献标识码：A

１引言

随着科学技术的进步，深度神经网络现已被应用于自动面部表情识别，从实验室控制到野外环境，其应用越来越广阔。面部表情是人类最直接、最容易感知的信号之一，可以帮助人们更好地理解、表达情感和意图。随着社会自动化机器人、医学、驾驶员疲劳检测等人机交互信息系统的发展，面部表情自动分析已成为一种重要的技术手段，并受到广泛的关注。机器可视化和机器学习方法也在发展，它们可以从面部表征中提取出有用的信息，从而实现对人脸的准确识别。２０世纪初，ＥＫＭＡＮ等［１］进行跨文化分析，提出了６种主要情感，这些情感可以被界定为愤慨、憎恨、惊恐、愉快、悲痛和震惊，表明不论文化背景如何，人们对这些情况的感知方式都是一致的。

在当今深度学习技术发展迅速的背景下，传统分析方法和深度学习分析方法已经是表情分析技术的２个重要方向。深度学习技术凭借自身强大的特征提取能力和自学习能力已在表情识别领域彰显出巨大潜力。因此，在表情识别中应用深度学习技术进行特征提取取代手工特征提取已逐渐成为主流，也是当今技术发展的必然要求。特别是在人脸表情识别方向，深度学习技术通过多层神经网络的组合，已能够从人脸图片中识别出当前人类情绪，并对情绪种类加以分类。当前较为流行的深度学习网络有卷积神经网络［２］（ＣｏｎＶｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ，ＣＮＮ）、深度置信网络［３］（ＤｅｅｐＢｅｌｉｅｆＮｅｔｗｏｒｋｓ，ＤＢＮ）、残差神经网络［４］（ＲｅｓｉｄｕａｌＮｅｔｗｏｒｋｓ，ＲｅｓＮｅｔ）和生成对抗网络［５］（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋｓ，ＧＡＮ）等。

２改进的ＡｌｅｘＮｅｔ网络结构

在ＩＳＶＲＣ２０１２上最为瞩目的当属ＡｌｅｘＮｅｔ神经网络模型。ＡｌｅｘＮｅｔ的整体结构总共分为８层，卷积层共５层和全连接层共３层，卷积核尺寸分别设定为１１×１１，５×５，３×３，３×３和３×３。ＡｌｅｘＮｅｔ网络虽然在图像识别领域中取得了一定成绩，但随着神经网络的迭代和发展，ＡｌｅｘＮｅｔ在应用于图像分析时也逐渐出现问题。尤其在表情分析领域中进行表情提取时，它仍存在提取表情不准确、表情种类分析准确率不高的情况，本文在ＡｌｅｘＮｅｔ网络的基础上提出了一种改进的ＡｌｅｘＮｅｔ网络模型。该模型应用ＣＮＮ网络的深层特征提取能力弥补了ＡｌｅｘＮｅｔ网络在某些情况下识别能力差、表情区分不清晰的短板，最终实现了更准确、更迅速的表情识别［６～１２］。改进前后的ＡｌｅｘＮｅｔ网络结构图如图１、图２所示。

图２改进后的网络模型中包含６个卷积层、２个全连接层和１个ｓｏｆｔｍａｘ输出层，并且引入了自注意力机制和避免了梯度消失问题的残差块，从图中可以看出，改进前后的ＡｌｅｘＮｅｔ网络的组织结构组成是相似的［１３～１４］。

首先，由于纯人脸图像是经过裁剪之后才输入网络模型中，图像尺寸较小且原有网络卷积核尺寸过大、步长过长，特征提取效果较差，因此将原始ＡｌｅｘＮｅｔ网络第一层的１ｌ×１１卷积核改变为２个３×３卷积核的堆叠，步长从４减小到２。因为较小的卷积核提取的局部特征更细致，能够提高网络模型的分类结果，而采用２个堆叠的较小卷积核还可以有效利用非线性激活函数，并有效提升网络的非线性表达能力，同时减少了网络中的参数量。其次，因输入图像尺寸小、数据集样本少且模型网络层数较多，为更好地提升该模型的识别准确率，故借鉴何凯明，张翔宇等在２０１５年提出的ＲｅｓＮｅｔ残差网络，在本模型中构建残差网络块，以尽量避免梯度消失的問题，在减少模型参数训练时间的同时，也提升了表情识别的准确率。ＳＥ注意力机制（Ｓｑｕｅｅｚｅ?ａｎｄ?ＥｘｃｉｔａｔｉｏｎＮｅｔｗｏｒｋｓ）在通道维度增加注意力机制，关键操作是ｓｑｕｅｅｚｅ和ｅｘｃｉｔａｔｉｏｎ。原始表情图像的数据被分割成多个像素块，每个像素块的权重相同，即在模型训练时的重要性是相同的，不仅影响训练时间，还影响模型参数的准确性。故在模型开始部分引入自注意力机制，通过自动学习的方式，使用另外一个新的神经网络，获取当前表情图像中每个像素块的重要程度，然后用这个重要程度去给每个像素特征赋予一个权重值，从而让后续的神经网络重点关注某些像素特征，提升对当前表情识别有用的特征图的像素块，并抑制对当前识别任务用处不大的像素块。表情类别差异微小的（如害怕、伤心、生气）表情特征通常聚集于局部区域，不仅需要关注有益于表情分类的特征形态，还需要关注具体的局部特征。引入通道注意力机制实现通道权重判断，进而实现不同区域的权重分配。权重分配机制有效挖掘对表情分类有意义的局部区域，学习强化实现局部特征的提取，引导网络利用聚合特征进行表情识别。通道注意力机制在通道上实现权重分配，特征图上每一个通道表示一个检测器，通道注意力机制关注最有意义的特征是什么形态。最后，为了将改进的ＡｌｅｘＮｅｔ模型应用于７类表情分类任务中，将全连接层和ｓｏｆｔｍａｘ层神经元的个数分别设置为５１２和７。

将预处理的脸部表情输入至改进后的模型中，进行模型训练和超参数调整，进而获得识别效果最好的模型结果。如图３所示，通过实现自注意力机制的人脸关键点定位技术，将其输入到训练好的模型中，输出该图像表情类别。

３混淆矩阵

优秀的数据集是进行实验的必要基础，算法识别效果直接受数据标注准确度的影响。为更准确地评估本文改进模型识别能力，选取了ＪＡＦＦＥ和ＣＫ＋数据集进行实验对照，可以更全面地了解改进模型的识别能力和短板。通过在ＪＡＦＦＥ和ＣＫ＋上构建混淆矩阵，观察二者对角线部分数值的高低，并将其作为模型准确率的评判标准，而矩阵中的其余部分则是模型的错误率，即表情被误分类为其他类别的可能性。ＪＡＦＦＥ上识别的混淆矩阵如表１所列。

ＪＡＦＦＥ数据集中的图像为日本女性面部表情，共含有２１３张表情图片，每张图片共有７０个不同表情，均由１０位女性各自７种不同表情构成。ＣＫ＋数据集包含１２３个不同主题的５９３个序列，这些主题的年龄从１８岁到５０岁不等，具有各种性别和传统。ＣＫ＋数据库被认为是最广泛使用于实验室控制的面部表情分类数据库，并用于大多数面部表情分类的方法。

ＣＫ＋上识别的混淆矩阵如表２所列。

在表１、表２的混淆矩阵对角线上可以明显看到，高兴表情的识别正确率均是最高的，因为此种表情的表现方式大多是嘴角上扬，在人类进行日常交流时嘴角变化通常是他人的注意点，所以更容易被察觉到。

同时，在ＣＫ＋数据集中，识别率最高的是惊讶表情，同理，在人类日常交流中，他人睁大眼睛或者嘴巴张大容易被人察觉。

４结束语

本文主要使用深度学习中的卷积神经网络对面部关键点进行定位，同时将面部关键点信息和ＡｌｅｘＮｅｔ网络模型相结合，以达到获取表情信息目的。

由表１、表２可知，在２个数据集上高兴表情的准确率最高，因为高兴表情的表现是嘴角上扬，可以看出对于其他几类动作不明显的表情还有待研究。本实验虽然成功获取关键点并同时估计出面部表情，但在具体不可控场景中（如超３０％图像遮挡、图像前后帧发生巨大变动或背景干扰因素过多），会发生一定程度的误判。由于采用ＣＮＮ层次较多，同时涉及２次信息的输入输出，因此本实验实时性表现一般，但估计的精确性较高，如何综合性平衡系统实时性和精确性是下一个研究的重中之重。

参考文献：

［１］ＥＫＭＡＮＰ，ＦｒｉｅｓｅｎＷＶ．Ｃｏｎｓｔａｎｔｓａｃｒｏｓｓｃｕｌｔｕｒｅｓｉｎｔｈｅｆａｃｅａｎｄｅｍｏｔｉｏｎ［Ｊ］．Ｊｏｕｒｎａｌｏｆｐｅｒｓｏｎａｌｉｔｙａｎｄｓｏｃｉａｌｐｓｙｃｈｏｌｏｇｙ，１９７１，１７（２）：１２４．

［２］张珂，冯晓晗，郭玉荣，等．图像分类的深度卷积神经网络模型综述［Ｊ］．中国图像图形学报，２０２１，２６（１０）：２３０５?２３２５．

［３］章新志．基于深度置信网络的人脸识别算法研究［Ｄ］．南昌：华东交通大学，２０１９．

［４］韩玉．基于残差模块神经网络的人体行为检测与识别研究［Ｄ］．包头：内蒙古科技大学，２０２２．

［５］范黎．基于生成对抗网络的图像数据增强技术研究及应用［Ｄ］．杭州：浙江大学，２０２２．

［６］ＹＵＪＸ，ＬＩＭＫＭ，ＬＥＥＣＰ．ＭｏＶＥ?ＣＮＮｓ：ＭｏｄｅｌａＶｅｒａｇｉｎｇＥｎｓｅｍｂｌｅｏｆＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓｆｏｒＦａｃｉａｌＥｘｐｒｅｓｓｉｏｎＲｅｃｏｇｎｉｔｉｏｎ［Ｊ］．ＩＡＥＮＧＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ，２０２１，４８（３）：２２?３３．

［７］ＷＯＯＳ，ＰＡＲＫＪ，ＬＥＥＪＹ，ｅｔａｌ．ＣＢＡＭ：ＣｏｎｖｏｌｕｔｉｏｎａｌＢｌｏｃｋＡｔｔｅｎｔｉｏｎＭｏｄｕｌｅ［Ｊ］．ＩＡＥＮＧＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ，２０１８：６?１６．

［８］于方军，焦玉杰，孫丽君．人体关键点检测及教学应用之人脸表情识别［Ｊ］．中国信息技术教育，２０２３（１）：９６?９８．

［９］叶继华，祝锦泰，江爱文，等．人脸表情识别综述［Ｊ］．数据采集与处理，２０２０，３５（１）：２１?３４．

［１０］何俊，刘跃，李倡洪，等．基于改进的深度残差网络的表情识别研究［Ｊ］．计算机应用研究，２０２０，３７（５）：１５７８?１５８１．

［１１］吕方惠．基于双流卷积神经网络的动态表情识别研究［Ｄ］．南京：南京邮电大学，２０２１．

［１２］杨旭，尚振宏．基于改进ＡｌｅｘＮｅｔ的人脸表情识别［Ｊ］．激光与光电子学进展，２０２０，５７（１４）：２４３＋２５０．

［１３］李珊．基于深度学习的真实世界人脸表情识别研究［Ｄ］．北京：北京邮电大学，２０２１．

［１４］吕鹏，单剑锋．基于多特征融合的人脸表情识别算法［Ｊ］．计算机技术与发展，２０２２，３２（１０）：１５１?１５５＋１８１．

作者简介：

孙歌（１９９９—），硕士，研究方向：人工智能。

王剑雄（１９７５—），硕士，教授，研究方向：人工智能（通信作者）。