面部图像安全特征的多属性融合分析

2019-09-30张赛男李千目桑笑楠吕超贤董潇

网络空间安全 2019年4期

张赛男李千目桑笑楠吕超贤董潇

摘要：以道路交通场景下的监控图像为研究对象，提出了基于深度学习的面部图像安全特征的多属性融合分析方法。将人脸检测模块与属性分析融合，实现了端到端的人脸检测和年龄、性别属性分析。经過改进和完善，最终实现了对一组图片进行自动地人脸区域检测、年龄预测、性别预测的功能，并将结果反映在图片上，更具可观性。针对该场景下机动车驾驶人员进行面部图像安全特征的多属性融合分析，在突发违章违法事件时自动获取驾驶人员的身份信息，有助于维护社会公共安全。

关键词：道路交通;深度学习;安全特征;面部属性分析;公共安全

中图分类号：TP391.4 文献标识码：B

1 引言

近年来，深度学习这一利器[1，2]在自然语言处理、计算机视觉等领域表现突出，特别是在本文研究的面部属性分析领域。区别于传统的机器学习，深度学习“深度”挖掘复杂数据的内在关联持续训练，让机器能够实现人工智能。

人脸检测作为目标检测下的一个子任务，通常可以利用两种类型的方法来完成：目标检测（可以检测多种目标包括人脸）、人脸检测（针对人脸唯一目标进行检测）。目标检测下的Faster-RCNN[3]系列人脸检测准确率高，但是受限于速度;SSD[4]系列、YOLO[5]系列速度满足要求，但是在人脸这种尺寸较小的目标上检测性能不够优秀。Zhang等人[6]利用人脸姿态估计和人脸关键点检测这两个辅助任务来提高人脸检测性能。Tang X等人[7]提出了一种借助上下文（头部、肩膀）来检测人脸的深度卷积模型PyramidBox，从而提高了网络对模糊人脸、被遮挡人脸的识别率。

人脸属性识别是分析人脸中隐含的特有身份信息，例如通过人脸可以分析出此人的性别、年龄等。Yi D等人[8]通过卷积神经网络（CNN）对多尺度的图像提取特征，同时进行年龄估计、性别预测和种族分类。Liu Z等人[9]提出了级联两个CNN（人脸检测LNet和属性预测ANet）进行人脸定位和属性预测，还提供了两个著名的面部数据集（CelebA和LFWA）。Wang等人[10]提出利用CNN提取多级特征进行融合并用于人脸年龄估计。在提出的方案中，结合了流形学习算法来改善性能，并使用深度学习老化模式DLA评估不同的分类和回归方案来估计年龄。Gil Levi等人[11]使用CNN分别进行人脸年龄段和人脸性别的分类，提高了人脸性别和年龄预测的准确率。Uricar M等人[12]利用VGG-16[13]网络提取特征，通过SVM分类器对年龄、性别和微笑进行分析。Routhe等人[14]提出了一种Deep EXpectation （DEX）算法，使用卷积神经网络和在ImageNet上预训练的VGG-16[13]架构进行人脸年龄估计，还提供了IMDB-WIKI数据集。

虽然已经有许多学者利用深度学习这一有力工具来进行人脸检测和人脸属性分析，但很少有人将这两个任务结合在一起，即输入一张未经任何处理的图片，网络输出该图片下人脸的属性预测结果。由于上述大部分的网络结构都十分复杂，参数众多，处理速度较慢，针对实际场景下低分辨率图片进行的面部区域检测和人脸属性分析的研究仍然较少，尤其是针对年龄、性别这两个属性的深度学习研究，还有极大的挖掘和提升空间。

受限于目前的拍摄条件，道路交通场景下的一些图片存在着分辨率低、人脸尺寸小、人脸模糊、遮挡人脸等问题，如何对这样的图片进行人脸属性分析，仍是计算机视觉领域中的难题。对该场景下的人脸检测、多属性分析进行优化和研究，在突发违章违法事件时可以自动获取驾驶人员的身份信息，这样有助于维护社会公共安全。

针对上述人脸检测和属性分析的研究现状，本文提出将人脸检测和面部属性分析相融合，实现仅需输入一组未经任何处理图片，网络将输出这一组图片下每张图片中的人脸区域及相应的年龄、性别预测，实现面部图像安全特征的多属性融合分析。本文中应用的网络要比同研究领域内的大部分网络的结构简单、参数少，更加具备实用性。

2 数据集

深度学习的模型训练离不开海量且高质量的标注数据，针对本次研究的重点，人脸检测和面部属性（性别、年龄）分析，选择了几种数据集。

WIDER FACE数据集[15]由香港中文大学提供，作为人脸检测的基准数据集，其中包含32，203张图像和393，703张人脸，每张人脸都提供了人脸框。考虑到人脸大小、头部姿势、遮挡、表情、化妆、光照等因素，数据集中的人脸图像覆盖范围广，背景环境复杂，适用于自然环境下的人脸检测研究。

《Deep Convolutional Network Cascade for Facial Point Detection》[16]的训练数据集包含5，590张Labeled Faces in the Wild （LFW[17]是一个用于研究自然环境下人脸识别的数据库）图像和7，876个从网上下载的包含人脸图像，每张人脸都提供了人脸框和五个关键点定位，可用于人脸检测和人脸关键点检测研究。

Adience数据集[11]图像来源是Flickr专辑，由用户使用iPhone等智能手机拍摄。这些图片都是取自现实世界，而且分辨率低、有遮挡，表情十分丰富。其中，包含26，580张照片，每张人脸都提供了年龄和性别标签，年龄标签有8个。表1是该数据集中按年龄、性别分类情况的详细说明，主要用于自然环境下人脸年龄和性别估计的研究。

3 面部图像安全特征的多属性融合网络

本文提出了一种面部检测与面部属性分析融合的方法，直接输入原始图像，就可进行面部区域检测，再将检测到的面部区域送入属性分析网络，得到面部图像安全特征的多属性分析结果。

3.1 面部检测网络

面部区域检测模型借鉴了MTCNN[18]的网络结构。MTCNN是一种级联架构，整合多个CNN学习的三个任务，在同一类型不同复杂度的三个网络中，实现了人脸区域检测和面部五个关键点定位。MTCNN将复杂度递增的三个网络P-Net、R-Net、O-Net级联在一起，逐步筛选出正确答案。

第一阶段，为了检测出不同尺度的人脸，对测试图像进行尺度变换，生成该图像不同尺度下的集合，也就是图像金字塔。将图像集合交由P-Net产生初步的人脸候选区域。第二阶段，通过R-Net减少重复的候选窗口。第三阶段，由O-Net进一步筛选候选窗口，并输出面部区域边界框和五个关键点定位。期间，每一阶段都利用非极大值抑制（NMS）来精简重叠面积大于一定阈值的候选窗口。

如图1所示为面部区域检测模块的第一层级网络结构。（1）在第一阶段使用了全卷积神经网络（FCN）[19]，由于没有全连接层，FCN只利用卷积操作提供候选窗口，极大地提升了面部区域检测的效率。（2）为了减少计算，大都采用3×3的卷积核，同时通过增加网络深度的方法来提高模型整体性能。（3）网络中将PReLU[20]作为默认的激励函数。PReLU激励函数是ReLU激励函数的改进，如图2所示，在ReLU基础上增加了参数a，在输入小于0时仍具备一定的响应能力。

第二和第三层级的网络结构和第一层级大体相似，加入了全连接层，复杂度随着筛选精度的要求递增。三个层级的网络输入大小依次为12×12、24×24、48×48。

本章节模型的训练有三个任务：面部或非面部区域分类、人脸边界框回归、人脸关键点定位。面部或非面部区域分类时，对每一个样本，损失函数采用交叉熵函数：（1）

其中，为模型判断样本是否为人脸的概率，是样本真实的标签。

人脸边界框回归、人脸关键点定位都是连续数值型的输出，所以采用欧氏距离损失函数，对每一个样本：（2）

其中，表示网络对人脸边界框或人脸关键点定位的预测值，表示真实标注数据。

由于网络中存在不同的任务，在训练时，需要融合损失函数，如下：（3）

其中，、和为融合系数。考虑到不同网络实现的功能，对每个任务的侧重不同，设计相应的损失函数融合系数。

本次实验使用WIDER FACE数据集[15]来训练面部区域分类和边界框回归，利用[16]论文中的训练数据集来训练人脸五个关键点定位。为了充分训练人脸检测任务，将WIDER FACE数据集[15]中的数据分成三类：正样本、部分样本、负样本。这三类训练数据的比例是1：1：3。选择的图像大小均大于最小的网络输入，保证模型可以学习到足够清晰的特征。

在训练网络的过程中，为充分挖掘数据的价值，利用在线难例挖掘（OHEM）选出本批样本中损失较大的一些样本，再将这些关键样本提取出来组成小批样本，进行训练。这样，增加了难例样本的比重，模型得以强化对难例的特征提取学习。

采用级联的方式对这三层网络进行训练。首先，生成样本数据，用于P-Net网络的训练。接着，利用前一层级的网络生成R-Net训练人脸检测的三类样本数据，输入给R-Net，采用同样的办法进行O-net的训练。其中，每一阶段采用相同的人脸关键点样本数据，不过需要依据各阶段输入大小进行尺寸调整。P-Net和R-Net的融合系数为1：0.5：0.5，最后的O-Net融合系数使用1：0.5：1。

如图3所示是O-Net在训练过程中总Loss的下降曲线，图4是O-Net在训练集上的面部区域分类的精确度曲线，可以看到O-Net的面部检测精确度在训练过程中逐步上升，最终达到0.98。

3.2 面部属性分析网络

考虑到文中人脸属性分析是针对道路交通监控场景，所以选取了Adience数据集[11]作为本章节网络的训练集。本次研究的面部屬性分析网络是对人脸的年龄、性别进行分析分类，主要参考了论文[11]，在AlexNet[21]的基础上加以改进，采用卷积神经网络来实现课题所需的功能。本次实验利用的深度学习网络主要包含了三个卷积层、两个全连接层。可以看到，使用的卷积神经网络的结构较为简单、参数较少，有效地降低了模型过拟合风险。

如图5所示，网络中三个卷积层的卷积核大小分别是7×7、5×5、3×3，每一个卷积层之后经过一次最大池化。两个全连接层接受输入，采用丢失数据（Dropout）技术进一步减少过度拟合的可能性。最后输出年龄或性别预测的类别，其中利用Batch Normalization[22]缩短训练时间，增强模型泛化能力，提高模型精度。

考虑到该模型下是年龄八分类、性别二分类的问题，损失函数都采用交叉熵函数：（4）

其中，为模型判断样本是否为人脸的概率，是样本真实的标签。

在训练过程中，该模型所有层的权重都是以标准差0.01零均值高斯分布下的随机值初始化的。没有初载预训练的模型，网络训练是直接从零开始的。训练数据也只利用Adience数据集[11]，没有利用额外的数据库。这是一个相对于其他CNN来说，参数较少、结构较为简单的深度卷积神经网络，训练所用的数据也远远少于其他模型。

在此过程中，也发现在该网络中，不采用Dropout比采用Dropout的效果要好。（1）因为该网络结构和参数还没有复杂到需要使用Dropout来减少过拟合。（2）Batch Normalization[22]已经帮助降低了模型过度拟合风险，无需再使用Dropout。图6和图7分别是采用Dropout和不采用Dropout的两个网络的训练过程中Loss下降曲线。采用Dropout的网络初载了预训练40k Steps的网络，未采用Dropout的模型是从零开始的。

[3] Ren S， He K， Girshick R， et al. Faster R-CNN： towards real-time object detection with region proposal networks[C].International Conference on Neural Information Processing Systems. 2015.

[4] Liu W， Anguelov D， Erhan D， et al. SSD：Single Shot MultiBox Detector[C].European Conference on Computer Vision. Springer International Publishing， 2016：21-37.

[5] Redmon J， Divvala S， Girshick R， et al. You Only Look Once：Unified， Real-Time Object Detection[C].Computer Vision and Pattern Recognition. IEEE， 2016：779-788.

[6] Zhang C， Zhang Z. Improving multiview face detection with multi-task deep convolutional neural networks[C]. Applications of Computer Vision. 2014.

[7] Tang X， Du D K， He Z， et al. PyramidBox：A Context-assisted Single Shot Face Detector[J]. arXiv preprint arXiv：1803.07737， 2018.

[8] Yi D， Lei Z， Li S Z. Age Estimation by Multi-scale Convolutional Network[C].Asian Conference on Computer Vision. 2014.

[9] Liu Z， Luo P， Wang X， et al. Deep Learning Face Attributes in the Wild[C].IEEE International Conference on Computer Vision. 2016.

[10] Wang X， Rui G， Kambhamettu C. Deeply-Learned Feature for Age Estimation[C]. IEEE Winter Conference on Applications of Computer Vision. 2015.

[11] Gil Levi and Tal Hassner.Age and Gender Classification Using Convolutional Neural Networks[C]. IEEE Workshop on Analysis and Modeling of Faces and Gestures （AMFG）， at the IEEE Conf. on Computer Vision and Pattern Recognition （CVPR）， Boston， 2015.

[12] Uricar M， Timofte R， Rothe R， et al. Structured Output SVM Prediction of Apparent Age， Gender and Smile from Deep Features[C].Computer Vision & Pattern Recognition Workshops. 2016.

[13] Simonyan， Karen， Zisserman A. Very deep convolutional networks for large-scale image recognition[C]. arXiv preprint arXiv：1409.1556， 2014.

[14] Rothe R， Timofte R， Gool L V. DEX： Deep EXpectation of Apparent Age from a Single Image[C]. IEEE International Conference on Computer Vision Workshop. 2016.

[15] Yang S ， Luo P ， Loy C C ， et al. WIDER FACE： A Face Detection Benchmark[J] . 2016 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）， 2016：5525-5533.

[16] Sun Y ， Wang X ， Tang X . Deep Convolutional Network Cascade for Facial Point Detection[C]. Computer Vision and Pattern Recognition （CVPR）， 2013 IEEE Conference on. IEEE， 2013.

[17] Learned-Miller E， Huang G B， Roychowdhury A， et al. Labeled Faces in the Wild： A Survey[M]. Advances in Face Detection and Facial Image Analysis. 2016.

[18] Zhang K， Zhang Z， Li Z， et al. Joint Face Detection and Alignment Using Multitask Cascaded Convolutional Networks[J]. IEEE Signal Processing Letters， 2016， 23（10）：1499-1503.

[19] Long J， Shelhamer E， Darrell T. Fully convolutional networks for semantic segmentation[C].IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society， 2015：3431-3440.

[20] He K， Zhang X， Ren S， et al. Delving deep into rectifiers：surpassing human level performance on ImageNet classification[C]. Proceedings of the IEEE International Conference on Computer Vision. Washington DC：IEEE， 2015：1026-1034.

[21] Krizhevsky A， Sutskever I， Hinton G. ImageNet classification with deep convolutional neural networks[C].Advances in Neural Information Processing Systems. Lake Tahoe：NIPS， 2012：1097-1110.

[22] Ioffe S， Szegedy C. Batch normalization： accelerating deep network training by reducing internal covariate shift[C].International Conference on International Conference on Machine Learning. JMLR.org， 2015.