基于深度残差网络的人脸表情识别研究

2021-12-30

科学与信息化 2021年7期

南宁学院广西南宁 530000

引言

人脸表情识别是计算机视觉领域的一个研究热点。当前深度学习方法的研究在提升表情识别性能上取得了重大进展。然而，训练数据的缺乏以及大量表情无关因素(例如身份信息、光照、头部姿态、面部遮挡等)的影响影响了深度模型的特征学习能力，容易出现过拟合现象，限制了模型的泛化性能。为了缓解过拟合问题，有些研究使用经过充分预训练的人脸识别模型，然后在目标表情数据集上进行微调。预训练的人脸识别网络具有更强的特征提取能力，另外，人脸识别和表情识别两个领域的相似性使得面部特征易于迁移，从而提升了表情识别性能。尽管如此，网络内部仍然保留大量身份主导的信息，极可能削弱其表示不同表情变化的能力。实际上，识别效果既想保留人脸识别网络强大的感知面部特征的能力，又希望网络尽可能地学习表情特有的信息。

1 图像预处理

1.1 直方图均衡化

直方图均衡化的主要目的是将原始图像的灰度级均匀地映射到整个灰度级范围内，得到一个灰度级分布均匀的图像。主要包括两个步骤：计算累计直方图和对累计直方图进行区间转换。首先计算图像有多少个灰度级，然后计算每个像素在图像内出现的概率，得到归一化统计直方图，接下来计算所有灰度级的累计概率，然后用累计概率乘以当前范围内的最大灰度级得到均衡化后的像素值[1]。

1.2 LBP特征

LBP是一种纹理描述算子，是在1996年由Ojala等研究人员提出的，由于LBP特征计算简单的同时能取得较好的效果，且具有旋转不变性和灰度不变性等优点。因此在图像识别和图像分类中得到了广泛的应用，并取得了很好的效果。原始的LBP算子定义在3*3邻域内，以邻域中心为阈值，中心像素值依次与其8个邻域像素值进行比较，若邻域像素大于或者等于中心像素值时则编码为1，小于中心像素值则编码为0，最终会产生一个8位二进制数，这个二进制数值就是中心像素的LBP值，它反映了邻域内纹理信息[2]。

2 深度残差网络的人脸表情识别研究

2.1 真实世界人脸表情数据库

考虑到人脸表情识别是一个依靠数据驱动的任务，训练一个足够深的网络来捕捉与表情相关的细微形变需要大量的相关数据。因此，在数量和质量上均较为匮乏的数据库是当今深度人脸表情识别系统面临的主要挑战。由于不同年龄段、不同种族和不同性别的人表达和解析面部表情的方式也不同，一个理想的表情数据集应该包含除了表情标签之外，各种丰富且精确的其他面部属性标签，例如年龄、性别和种族。除此之外，虽然面部遮挡和多姿态问题在深度人脸识别领域得到了广泛的研究，但其在深度人脸表情识别中受到的关注仍较少。主要原因是缺乏具有遮挡类型和头部姿态标注的大型面部表情数据集。另外，对大量携带复杂自然场景变化的数据进行精确标注的难度很大。一个可靠的解决方式是在专家的指导下对数据进行多人的众包标注[3]。

2.2 重要性计算

人脸识别和表情识别两个任务存在很强的关联性。持续学习希望在持续增长的任务中都能保持良好的性能，而本文研究仅希望提升后者即表情识别的性能。持续学习的方法通过限制对以往任务具有更强重要性的参数变化来保留其学习能力，这种重要性通过每个参数对总体损失值变化的贡献来衡量。对于人脸识别任务来说，由于类别众多，“重要”参数，即对损失值的变化贡献更大的参数，倾向于与感知面部一般特征相关而不是某一具体类别。因此，通过限制重要参数的变化可以更加有效地利用网络感知面部公共特征的能力，避免表情网络的过拟合[4]。

2.3 多模态表情识别

在现实应用中人们有着多种情感表达方式，面部表情只是其中的一种模态。尽管基于可视人脸图像的表情识别能够取得不错的效果，但与其他模态结合到一个高层框架中能够提供互补信息，从而进一步增强模型的鲁棒性。例如，可将音频模态作为次重要的因素与图像信息相融合来进行多模态的情感识别。此外，红外图像、三维人脸模型的深度信息、人体生理信息以及手势姿态也可以作为面部表情的互补数据来辅助情感识别。在脸部远程光电容积脉搏波(remote photo plethysmo graphy，rPPG)信号分析上的最新进展RhythmNet，也可能为表情分析带来新的模态[5]。

3 结束语

本文分析了人脸识别与表情识别之间的区别与联系，应用持续学习的思想进行表情识别，避免由于缺乏足够的训练数据导致的模型过拟合问题。主要通过参数重要性正则保留人脸识别模型强大的特征提取能力，同时通过重要性参数的变化能够学习表情相关的信息，避免大量身份信息的保留对表情识别的不利影响。本文方法在RAF-DB数据集上达到了88.04%的测试精度，由于基本保留了提取面部特征的能力，模型对于真实世界环境下表情图像多样性的处理能力增强，性能提升更为明显。但由于实验室环境下收集的表情图像基本为正面无遮挡的规范人脸，图像质量更高，特征更加易于学习和识别，因此本文方法对于这类数据集的识别性能提升不明显。