基于混合训练的深度学习人脸特征提取方法

2018-03-29宋一龙汪栋洋钟钦瀚

新技术新工艺 2018年3期

宋一龙，汪栋洋，钟钦瀚，林董

(中国人民解放军陆军步兵学院(石家庄校区)，河北石家庄 050000)

随着现代管理技术的不断发展，在军事管理中采用现代化手段越来越普及，其中人脸识别技术在军事管理中得到广泛应用。人脸识别的关键是准确、有效地进行特征提取。与传统特征识别过程中的定义特征、寻找特征不同，深度学习具有自主学习、最适匹配等优点[1-3]。卢宏涛等对基于深度学习的神经网络模型进行了阐述及总结，分析了其在图像分类、物体检测等方面的应用[4]。孙艳丰等提出了基于Fisher准则的深度学习算法,该方法能有效降低模型的复杂程度，并在样本较少的情况下得到了较好的应用[5]。郭晓洁等提出了一种自适应深度卷积神经网络算法,并在人脸识别中得到了良好的应用，该方法有效地解决了大数据量下深度学习梯度消失的问题[6]。李亚等提出了一种基于深度卷积神经网络的跨年龄人脸识别的联合学习方法，该方法实现了特征学习和最优测度函数的同步学习，试验效果好[7]。

由于人脸特征的复杂性，一般的深度学习方法往往在图像识别时会造成图像结构的丢失。在现有的基于深度学习的人脸特征提取方法中，根据特征提取方法过程中涉及的学习目标函数，可以分为基于Softmax函数训练、基于Siamese函数训练和基于Triplet函数训练，每种训练方法都有其优缺点[8-10]。基于Softmax函数训练的人脸特征提取方法具有训练速度较快的优点，但其学习到的特征判别性一般，存在泛化性能较差的问题；基于Triplet函数训练的人脸特征提取方法具有较好的判别性能；但其人脸特征提取方法存在训练速度较慢的缺点。综合考虑各方法的特性，本文提出了基于混合训练的深度学习人脸特征提取方法，即采用了混合Softmax和Triplet函数训练的人脸特征提取方法，并对该方法的识别特性进行了实验分析，取得了良好的效果。

1 基于混合训练的深度学习人脸特征提取方法

基于混合训练的深度学习人脸特征提取方法的流程图如图1所示。

图1 基于混合训练的深度学习人脸特征提取流程图

基于混合训练的深度学习人脸特征提取方法具体步骤如下。

1)利用Softmax函数训练一个多类人脸身份分类器。利用Softmax函数进行训练，直到收敛为止。

2)基于步骤1)中训练好的网络模型，进行三元组人脸对的构造。对于训练数据中的每张人脸图像a，选择出与a同类的所有人脸图像中特征距离最大的图像P，以及所有和a不同的人脸图像中特征距离最小的图像n，构成三元组〈a，P，n〉。

3)对于生成的三元组人脸对，在利用步骤1)训练好了的网络模型构造训练Triplet网络(见图2)，A、B、C部分的网络权重直接从步骤1)中学习到的权重拷贝，作为训练Triplet网络的初始值，并用Triplet函数进行微调(fine-tuning)训练，直到收敛为止。采用的函数如下：

图2 基于Triplet函数训练的网络结构示意图

4)在测试数据上进行测试。如果模型满足预期的精度要求或者达到预设的迭代次数，则停止训练；否则，利用上一步中学习到的Triplet模型再次进行三元组构造，并重复步骤3)、4)。在基于混合训练的方法中，由于基于Softmax训练的方法已经给了Triplet网络一个比较好的权重初始值，并且可以基于该初始值来挑选三元组训练数据，因而采用本文提出的方法可以大大加快Triplet网络的训练收敛速度。基于深度学习的人脸识别方法主要困难在于特征的获取。当人脸特征获取到之后，就可以采用传统的方法来进行验证(1∶1)和识别(I∶N)。本文采用基于L2的距离进行特征比对：

式中，xi和yi分别是待比较的2个人脸的特征向量在第i维上的特征值；d是特征的维度。如果距离distance大于阈值T，则判断2个人为不同的人；反之，为相同的人。

2 实验设置及分析

2.1 人脸数据库

相关常用训练人脸识别模型的数据库统计见表1。由表1可知，LFW提供的训练数据库包含了13 233张人脸图像，这些数据不足以训练一个大规模的深层网络模型，而且人脸的数据量呈现越来越大的趋势，现有的大规模人脸图像数据已经达到了百万级别。考虑数据处理量及运算时间，本文选择利用公开的CASIA-WebFace数据库进行训练网络模型。

表1 现有的大规模非限制场景下的人脸图像数据比较

2.2 数据预处理

原始的CASIA-WebFace人脸数据库提供了检测和对齐等预处理后的人脸图像。然而，由于该数据库没有提供该预处理方法的相关参数说明，导致无法对测试图像进行同样的预处理操作，为此直接对CASIA-WebFace提供的原始图像进行预处理，使训练图像和测试图像所采用的人脸图像预处理方法相同。所采用的人脸预处理具体步骤如下。

1)人脸检测。采用的人脸检测器为基于HOG特征的线性人脸分类器，并在图像金字塔上利用滑动窗口的方法进行检测。CASIA-WebFace原始数据库经过人脸检测步骤后，得到约35万张人脸图像数据。

2)人脸对齐。本文没有采用与DeepFace中一样的基于3D人脸模型的对齐方法，而是简单地使用基于2D的人脸对齐方法。对于人脸检测步骤中检测到的人脸窗口进行人脸68个关键点检测，并基于这68个人脸关键点与标准人脸关键点之间的匹配关系，利用最小二乘法求得最佳仿射变换矩阵，再将人脸图像利用该仿射变换矩阵进行变换，得到对齐过后的人脸图像。数据预处理示意图如图3所示。

图3 人脸数据预处理方法示意图

3)图像归一化。如果直接利用原图像作为网络模型训练的输入不利于网络的学习，因此需要对数据做预处理工作使其满足零均值。首先，将像素值归一化到0～l，并计算所有训练人脸图像的均值图像，即计算每个归一化到相同大小的人脸图像集每个像素位置的算术平均值；然后，将每一个训练和测试的人脸图像都减去该均值人脸图像，得到一个零均值人脸图像。

2.3 基于混合训练的深度学习人脸特征提取方法有效性验证

2.3.1 人脸验证

本文比较了所训练网络提取特征在人脸验证任务中的性能。LFW人脸验证测试数据包括了10组测试集，每组包含300对的人脸图像测试对，正负测试对的比例为1∶1。不同的人脸验证方法的ROC曲线图结果如图4所示。从图4中可以看出，基于混合训练的方法获得的人脸验证性能显著好于基于Softmax函数的训练方法。

图4 LFW评测数据库中不同算法的ROC曲线

在LFW测试数据库中产生错误人脸验证结果的部分图片如图5所示。从图5中可以看出，错误的拒绝验证(即同一个人被分类器判断为不同的人)主要由人脸图像出现严重的遮挡，如墨镜、姿态变化较大的人脸图像以及错误的人脸对齐导致。而错误的识别(即非同一个人被分类器判断为同一个人)主要是由待比较的2张人脸图像具有相似的姿态和表情所导致。这些错误的发生，主要原因在于人脸特征提取模型还没能充分挖掘出针对人脸身份相关的判别性特征；因此，为进一步提高人脸验证的性能，拥有海量的人脸数据显得特别的重要，特别是包含多样性较好的人脸数据。而对于遮挡和墨镜等造成的错误，可以采用多区域特征提取融合的方法进一步提高人脸验证的准确性。

图5 判断错误的部分图片

2.3.2 人脸识别

将训练好的人脸特征提取模型用于人脸识别任务中，以进行泛化性分析，即验证在一个图像库中训练好的特征能否迁移到另外一个图像库中。泛化性能是对一个人脸特征进行判断的重要依据。本文分别比对了在Feret、MultiPIE、EFI以及Carmeral2人脸数据库中进行人脸识别，其中，MultiPIE数据库包含了在不同姿态、表情和光照下的共337个不同的人脸图像，使用后137人中的7个姿态下的人脸图像用于测试，共包含了1 879张人脸图像；Feret数据库包含了200个人在9个不同姿态下的人脸图像，使用后100个人的人脸图像用于测试，共包含900张图像；EFI人脸数据库包含了100个人在10个不同姿态下的人脸图像，将其该数据库所有的图像用于做测试；Cameral2人脸数据库包含了100个人，每个人包含了16张不同姿态下的人脸图像，将所有的图像用于测试。对这些测试人脸数据库中的人脸图像进行特征提取，并根据提取的特征，计算其两两之间的距离。根据距离是否超过给定的阈值作为识别的结果。性能比较结果见表2。

表2 不同的人脸识别算法在不同的数据库上的性能比较

从表2中可以看出，虽然本文提出的方法没有传统人脸识别方法一样的训练过程，但是在各个数据库中分别取得了非常好的准确率。

2.3 人脸检索

人脸检索就是在海量数据库中寻找给定特征的人脸图像。为了进行量化比较分析，独立制作了一个非名人人脸数据库，其包含了100个人共超过2万张人脸图像。分别利用Softmax函数和混合训练好的网络进行人脸特征提取，并用于人脸检索中。随机选择5 000张图片作为测试数据，计算比较在不同的返回图像数目下的准确率，结果见表3。从表3可以看出，2种方法在检索返回的最相似人脸数目较小时，准确率都比较高；而随着返回相似人脸数目的增大，准确率都随之逐步下降；此外，在返回相同的图片数目时，基于混合训练网络模型提取到的人脸特征的平均检索准确率要好于基于Softmax函数训练模型提取的人脸特征的检索准确率。

表3 人脸检索准确率比较 (%)

3 结语

本文针对不同的特征学习方法的优缺点，提出了一种基于混合训练的深度学习人脸识别的方法。该方法可以加快网络训练的速度，改进特征提取的鉴别能力，并在人脸验证、人脸识别和人脸检索任务中，验证了其有效性。

[1] Sarikaya R,Hinton G E,Deoras A. Application of deep belief networks for natural language understanding[J].IEEE Transactions on Audio Speech and Language Processing，2014，22(4)：778-784.

[2] Mnih A，Kavukcuoglu K．Learning word embeddings efficiently with noise-contrastive estimation[C]．Advances in Neural Information Processing Systems,2013.

[3] 万经勇.基于深度卷积神经网络的人脸识别的研究与应用[D].厦门：厦门大学,2016.

[4] 卢宏涛,张秦川.深度卷积神经网络在计算机视觉中的应用研究综述[J].数据采集与处理,2016,31(1):1-17.

[5] 孙艳丰,齐光磊,胡永利，等.基于改进Fisher准则的深度卷积神经网络识别算法[J].北京工业大学学报,2015(6):835-841.

[6] 郭晓洁,陈良,沈长青，等.自适应深度卷积神经网络在人脸识别上的应用[J].自动化技术与应用,2017,36(7):72-77.

[7] 李亚,王广润,王青，等.基于深度卷积神经网络的跨年龄人脸识别[J].北京邮电大学学报,2017,40(1):84-88.

[8] Graves A，Jaitly N．Towards end-to-end speech recognition with recurrent neural networks[C]//Proceedings of the 3 1st International Conference on Machine Learning(ICML14).2014.

[9] Srivastava N，Hinton G，Krizhevsky A，et al．Dropout：A simple way to prevent neural networks from overfitting[J]．The Journal of Machine Learning Research，2014，15(1)：1929-1958.

[10] 严严,陈日伟,王菡子，等.基于深度学习的人脸分析研究进展[J].厦门大学学报：自然科学版,2017,56(1):13-24.