基于深度卷积神经网络的面部表情自动识别检测

2019-09-21李升辉李虹静

科技与创新 2019年17期

李升辉，李虹静

李升辉，李虹静

（华中科技大学工程实训中心，湖北武汉 430074）

在人机交互领域中，对人脸的表情进行自动识别是一项有趣且十分具有挑战性的工作，尤其是对视频及图像中的人脸进行表情识别。提出一种能够自动从图像或者视频中找到人脸，进而对其表情进行识别的网络模型。在包含人脸图像的数据集中训练模型，使其自动检测图像中的人脸，并根据人脸识别其表情。最后在测试的数据集上验证该模型的表现。

表情识别；深度学习；图像处理；视频分析

1 引言

由于面部表情在人类情绪分析中占有重要地位，因此面部表情识别在人机交互、认知心理学、医疗保健系统、动画等领域有着重要的应用。面部表情识别的目标是根据给定的面部图像对情绪状态进行分类（由EKMAN和FRIESEN[1]所定义的基本情绪，包括平静、愤怒、厌恶、恐惧、快乐、悲伤和惊讶）。近年来，表情识别成为计算机视觉研究的热点之一，全世界有大量的研究者研究出了效果不错的表情识别系统。

利用传统的机器学习来进行表情识别的研究在过去十年中取得了不错成果。但是，这些检测结果抗噪声能力较差，并且易受其他因素如光照、头部姿态、不同肤色等影响。此外，传统方法通常需要手工设计描述子，这对于表情识别的海量视频和图像数据来说是极其不稳定的。

众所周知，深度卷积神经网络（CNN）在计算机视觉等人工智能相关领域都取得了非常好的效果[2]。顾名思义，深度卷积网络主要由多个卷积层叠加而成，同时卷积层之间还有池化层、激活层和全连接层等其他网络单元。这些基础单元组合而成的网络能够很好处理输送进来的图像或者语言等数据。与传统方法或其他浅层的网络模型相比，深度卷积网络在效果上远远领先。当然，深度卷积神经网络的训练方法通常也是使用反向传播的方法训练，相比机器学习或者其他网络模型而言，它处理相同数据所需要的参数更少，效果也更好，因此它逐渐成为一个热门且广泛使用的网络结构。

本文提出了一个融合数据集，并将该数据集划分为训练集和测试集两个部分。同时，设计了一个针对表情识别的网络模型，它使用数据集中的训练部分进行有监督的训练。最后利用测试集对训练好的模型进行测试，评价模型对表情识别的性能。

2 自动面部表情识别和卷积神经网络相关工作

1872年，达尔文在论文《The Expression of the Emotions in Animals and Man》中最先提出了面部表情识别研究的概念，并解释说明了人类和动物面部表情研究的基本概念[3]。1971年，EKMAN和FRIESEN对现代人脸表情识别做了开创性的工作，他们研究了人类的6种基本表情（即高兴、悲伤、惊讶、恐惧、愤怒、厌恶），系统地收集并且分类各种表情图像上千幅，对人的五官（眼睛、鼻子、嘴巴、眉毛、脸部）进行详细描述和变化分析。1978年，有学者提出在人物动画帧中进行分析，对表情序列进行首次自动识别的尝试[4]。后来进入90年代，有学者通过识别面部肌肉的运动方向来确定表情[5]。之后，关于表示识别的研究层出不穷。

卷积神经网络（CNN）是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习的代表算法之一。卷积神经网络具有表征学习能力，能够按其阶层结构对输入信息进行平移不变分类，因此也被称为“平移不变人工神经网络”。

20世纪八九十年代，卷积神经网络的研究被提出并且被证明有效。卷积神经网络中出现最早的是时间延迟网络和LeNet-5[6]；21世纪后，随着深度学习理论的丰富和计算机运算能力的突飞猛进，深度卷积神经网络的研究变得更加快速，在计算机视觉、语音文本处理等领域等都被大量使用。

3 人脸表情数据集

该数据集供设计的模型进行训练和测试使用。该数据集融合了学术界广泛使用的几个数据集和部分网络图片，其中包括被采集志愿者的照片、电影中的截图、网络上下载的图片。数据集由高清和低清分辨率的图片组成，所有图片进行统一的裁剪处理。数据集中每张图片都被标记为7种不同的表情表情类别，在实验中，融合的数据集被采用7折交叉验证，即融合数据集被打乱顺序后平均分为7份，6份作为训练集，一份作为验证集，重复实验7次，最终实验结果取这7次的平均值。数据集中部分图片如图1所示。

4 深度卷积神经网络模型

与传统方法特征提取不同，之所以采用深度学习的方法，是因为深度学习中的网络（尤其是CNN）对图像具有较好的提取特征的能力，从而避免了人工提取特征的烦琐。网络的原理如图2所示。首先将图片中的人脸识别并裁剪出来，再将这些人脸图片作为训练数据输入到设计的卷积神经网络中，并且利用了一个传统特征描述子LBP的单元进行补充训练。网络模型的训练也分步骤进行。只需要对最后全连接层的网络进行训练，特征提取网络（前六层）中的权值是固定的。然后再对整个网络进行训练微调，以达到整个网络识别的更高精度。训练平台为携带因特尔 Core i7 3.4GHz CPU和英伟达 GeForce GTX 1080 GPU的台式电脑，训练软件为Tensorflow 1.4.0。网络训练中使用Adam optimizer进行训练（动量项beta为0.5），学习率为常数0.000 2。

图1 数据集中部分图片

图2 训练网络的原理图

设计的网络模型总体结果如图3所示，横轴表示迭代次数，纵轴表示测试的准确值。这个结果可以证明本文的网络模型对表情识别有非常不错的识别率。

图3 测试结果曲线

为了更好地评价网络模型，随机抽取融合数据集中几张图片输入网络模型进行测试。其表情识别的效果如图4所示。由此可见，本文所设计的网络模型对于各种情况下人脸的表情识别都具有很好的鲁棒性，并且对于不同人物的年龄、光照影响、头部姿势、肤色等问题都能有效避免干扰，实现较高精度的识别。

5 结论

本文引入了一个融合了的表情数据集，包括训练样本和测试样本，使用该数据集训练、测试设计模型。实验结果表明，在该表情数据集下，设计的深度卷积神经网络模型对图像中的人脸表情有很好的识别能力。

［1］EKMAN P，FRIESEN W V.Constants across cultures in the face and emotion［J］.Journal of Personality and Social Psychology，1971，17（2）：124.

［2］卢宏涛，张秦川.深度卷积神经网络在计算机视觉中的应用研究综述［J］.数据采集与处理，2016，31（1）：1-17.

［3］DARWIN C，PRODGER P.The expression of the emotions in man and animals［M］.USA：Oxford University Press，1998.

［4］SUWA M.A preliminary note on pattern recognition of human emotional expression［C］//Proc. of The 4th International Joint Conference on Pattern Recognition，1978.

［5］MASE K，PENTLAND A.Automatic lipreading by optical- flow analysis［J］.Systems and Computers in Japan，1991，22（6）：67-76.

［6］于之训，蒋平.具有传输延迟的网络控制系统中状态观测器的设计［J］.信息与控制，2000，29（2）：125-130.

TP391.41

10.15913/j.cnki.kjycx.2019.17.060

2095－6835（2019）17－0129－02

李升辉（1982—），男，硕士，工程师，主要研究方向为电工电子、PLC、光电技术和人工智能。

李虹静（1989—），女，助理工程师，主要研究方向为电工电子和PLC。

〔编辑：严丽琴〕