人脸识别：从传统到深度学习方法

2019-02-28李奇龙

科学与财富 2019年2期

李奇龙

摘要：从70年代开始，人脸识别就成为计算机视觉和生物识别领域研究最多的课题之一。基于手工制作的特征和传统机器学习技术的传统方法，最近已经被使用非常大的数据集训练的深度神经网络所取代。在这篇文章中，我们提供了一个全面的和最新的文献综述的流行的人脸识别方法，包括传统的（基于几何的，整体的，基于特征的和混合的方法）和深度学习方法。

一、传统方法介绍

人脸识别是指能够识别或验证图像或物体的身份的技术视频。第一个人脸识别算法被开发出来70年代早期。从那时起，他们的准确性现在的人脸识别技术有什么进步吗通常比其他生物识别方式更受青睐传统上被认为更健壮，如指纹或虹膜识别。其中一个微分因子使人脸识别比其他生物识别更有吸引力模式是非侵入性的。例如，指纹识别需要用户将手指放入传感器虹膜中识别需要用户非常靠近摄像机，而扬声器识别则需要用户大声说话。相比之下，现代人脸识别系统只需要用户在照相机的视场范围内（前提是它们在视场范围内）在距离相机合理的范围内）。这使得人脸识别是用户最友好的生物识别方式。它也意味着人脸的潜在应用范围识别范围更广，因为它可以部署在环境中不希望用户与系统合作的，比如在监控系统中。其他常见的应用程序人脸识别包括访问控制、欺诈检测、身份验证和社交媒体。人脸识别是最具挑战性的生物识别技术之一在不受约束的环境中部署时的模式面部图像在现实中呈现的高度可变性世界（这些类型的人脸图像通常被称为world）面临在野外）。其中一些变体包括head姿势，老化，遮挡，光照条件，面部表达式。

近年来，人脸识别技术发生了重大变化。传统的方法依赖于手工制作的特征，如边缘和纹理描述符，学习技术，如主成分分析，线性判别分析或支持向量机。工程特性的难易程度在无约束环境中所遇到的不同变化，使得研究者关注于每一类变化的专门方法，如年龄不变方法、定常方法、光照不变方法等。近年来，基于卷积神经网络的深度学习方法已经取代了传统的人脸识别方法。深度学习方法的主要优点是可以用非常大的数据集对其进行训练，以学习表示数据的最佳特性。网络上的人脸可用性允许收集包含真实世界变化的大规模人脸数据集。使用這些数据集训练的基于cnn的人脸识别方法获得了非常高的准确性，因为它们能够学习对训练中使用的人脸图像的真实变化具有鲁棒性的特征。的流行深学习计算机视觉方法加速了人脸识别的研究，作为cnn被用于解决其他许多计算机视觉任务，例如对象检测与识别、分割、光学字符识别、acial表达分析，年龄估计等。

二、人脸识别系统通常由以下构建块：

（1）人脸检测。人脸检测器查找图像中人脸的位置，并（如果有）返回每个人脸的边框坐标。这是说明

（2）人脸对齐。人脸对齐的目标是使用位于图像中固定位置的一组参考点以相同的方式缩放和裁剪人脸图像。这个过程通常需要使用地标检测器找到一组面部地标，在简单的2D对齐情况下，需要找到适合参考点的最佳仿射变换。图3b和3c显示了使用同一组参考点对齐的两张人脸图像。更复杂的三维对齐算法也可以实现人脸正面化，即将人脸的姿态改变为正面。

（3）人脸表征。在人脸表示阶段，将人脸图像的像素值转化为一个紧凑的判别特征向量，即模板。理想情况下，同一主题的所有面应该映射到相似的特征向量。

（4）人脸匹配。在人脸匹配构建块中，对两个模板进行比较，生成一个相似性评分，该评分指示它们属于同一主题的可能性。

早期对人脸识别的研究主要集中在使用图像处理技术匹配描述人脸几何形状的简单特征的方法上。尽管这些方法只能在非常有限的环境下工作，但它们表明，使用计算机自动识别人脸是可能的。此后，主成分分析（PCA）、线性判别分析（LDA）等统计子空间方法得到了广泛的应用。这些方法被称为整体方法，因为它们使用整个面部区域作为输入。与此同时，其他计算机视觉领域的进展导致了能够描述不同位置图像纹理的局部特征提取器的开发。基于特征的人脸识别方法包括在人脸图像中匹配这些局部特征。进一步发展了基于整体和特征的方法，并将其结合为混合方法。基于混合方法的人脸识别系统一直是最先进的，直到最近，深度学习成为大多数计算机视觉应用的主要方法，包括人脸识别。

三、深度学习的方法

卷积神经网络是人脸识别中最常见的深度学习方法。深度学习方法的主要优势在于，它们可以通过大量的数据进行训练，以学习对训练数据中出现的变化具有鲁棒性的人脸表示。通过这种方式，CNNs可以从训练数据中学习，而不是设计针对不同类型的类内变化（如光照、姿势、面部表情、年龄等）的健壮的专门特性。深度学习方法的主要缺点是，它们需要使用非常大的数据集进行训练，这些数据集包含足够多的变化，可以泛化为不可见的样本。幸运的是，最近有几个包含野外人脸图像的大型人脸数据集被发布到公共领域来训练CNN模型。神经网络除了学习判别特征外，还可以减少维数，可以作为分类器进行训练，也可以使用度量学习方法进行训练。CNN被认为是端到端可培训的系统，不需要与任何其他特定方法相结合。CNN人脸识别模型可以使用不同的方法进行训练。其中一种方法是将问题视为分类问题，其中训练集中的每个主题对应一个类。经过训练后，该模型可以通过丢弃分类层，利用前一层的特征作为人脸表示来识别训练集中不存在的对象。

在深度学习文献中，这些特征通常被称为瓶颈特征。在第一个训练阶段之后，可以使用其他技术对模型进行进一步的训练，以优化目标应用程序的瓶颈特性（例如使用联合贝叶斯或使用不同的损失函数微调CNN模型）。学习人脸表示的另一种常见方法是通过优化人脸对之间的距离度量来直接学习瓶颈特征或三联面利用神经网络进行人脸识别的想法并不新鲜。1997年提出了一种基于概率决策的神经网络（PBDNN），用于人脸检测、眼睛定位和人脸识别。将人脸识别的PDBNN划分为每个训练对象一个完全连通的子网，以减少隐藏单元的数量，避免过拟合。利用强度特征和边缘特征分别对两个PBDNNs进行训练，并结合输出结果进行最终分类决策。早期的另一种方法提出使用自组织映射（SOM）和卷积神经网络相结合的方法。一个自组织映射是一种经过无监督方式训练的神经网络，它将输入数据投影到保留输入空间拓扑性质的较低维度空间（即原始空间中邻近的输入也在输出空间中邻近）。注意，这两种早期的方法都没有经过端到端的训练（使用了边缘特征，使用了SOM），并且所提出的神经网络架构是浅层的。提出了端到端人脸识别CNN。该方法使用的siamese体系结构训练具有对比损失函数。对比损失实现了一种度量学习过程，其目标是最小化同一主题对应的特征向量对之间的距离，同时最大化不同主题对应的特征向量对之间的距离。该方法使用的CNN体系结构也是浅层的，采用小数据集进行训练。上述方法均未取得突破性成果，主要原因是当时使用的网络容量较低，可供培训的数据集相对较小。直到这些模型被放大并接受大量数据的训练，第一个人脸识别的深度学习方法才成为最先进的技术。尤其是Facebook的DeepFace，它是最早使用高容量模型的基于cnn的人脸识别方法之一，在LFW基准上的准确率达到了97.35%，比之前最先进的方法降低了27%。作者使用包含4030名受试者440万张脸的数据集训练了一个具有softmax loss2的CNN。

四、結论

我们已经看到人脸识别是如何遵循同样的规律的转换为许多其他计算机视觉应用程序。仅仅在几年前，传统的基于人工工程特性的方法还能提供最先进的精确度，现在已经被基于CNN的深度学习方法所取代。事实上，基于CNN的人脸识别系统已经成为标准，因为它比其他类型的方法在准确率上有了显著的提高。此外，通过增加训练集的大小和/或网络的容量来扩大这些系统以实现更高的准确性是很容易的。然而，收集大量贴有标签的人脸图像是非常昂贵的，而且深度CNN架构的训练和部署非常缓慢。生成对抗网络（GANs）是解决第一个问题的一个有希望的方法。最近关于人脸图像的GANs的研究包括面部属性操纵、面部表情编辑、新身份生成、人脸正面化和人脸老化。预计这些改进将用于生成额外的训练图像，而不需要对数百万张人脸图像进行标记。为了解决第二个问题，正在开发更高效的架构，如MobileNets和，用于有限设备上的实时人脸识别.

参考文献：

[1] M. D. Kelly， “Visual identification of people by computer.，” tech. rep.， STANFORD UNIV CALIF DEPT OF COMPUTER SCIENCE， 1970.

[2] T. KANADE， “Picture processing by computer complex and recogni- tion of human faces，” PhD Thesis， Kyoto University， 1973.

[3] U. Park， Y. Tong， and A. K. Jain， “Age-invariant face recognition，” IEEE transactions on pattern analysis and machine intelligence，？vol. 32， no. 5， pp. 947–954， 2010.

[4] Z. Li， U. Park， and A. K. Jain， “A discriminative model for age invariant face recognition，” IEEE transactions on information forensics and security， vol. 6， no. 3， pp. 1028–1037， 2011.

[5] C. Ding and D. Tao， “A comprehensive survey on pose-invariant face ？recognition，” ACM Transactions on intelligent systems and technology （TIST）， vol. 7， no. 3， p. 37， 2016.

[6] D.-H. Liu， K.-M. Lam， and L.-S. Shen， “Illumination invariant face recognition，” Pattern Recognition， vol. 38， no. 10， pp. 1705–1716， 2005.

[7] X. Tan and B. Triggs， “Enhanced local texture feature sets for face recognition under difficult lighting conditions，” IEEE transactions on image processing， vol. 19， no. 6， pp. 1635–1650， 2010.

[8] Y. Sun， X. Wang， and X. Tang， “Deep learning face representation from predicting 10，000 classes，” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition， pp. 1891–1898， 2014.

[9] D. Yi， Z. Lei， S. Liao， and S. Z. Li， “Learning face representation from scratch，” arXiv preprint arXiv：1411.7923， 2014.

[10]A. B. L. Larsen， S. K. S nderby， H. Larochelle， and O. Winther， “Autoencoding beyond pixels using a learned similarity metric，” arXiv preprint arXiv：1512.09300， 2015. G. Perarnau， J. van de Weijer， B. Raducanu， and J. M. A lvarez， “Invertible conditional gans for image editing，” arXiv preprint arXiv：1611.06355， 2016.

[11]A. Brock， T. Lim， J. M. Ritchie， and N. Weston， “Neural photo editing with introspective adversarial networks，” arXiv preprint arXiv：1609.07093， 2016.W. Shen and R. Liu，

[12]Y. Lu， Y.-W. Tai， and C.-K. Tang， “Conditional cyclegan for attribute guided face image generation，” arXiv preprint arXiv：1705.09966， 2017. Y. Choi， M. Choi， M. Kim， J.-W.