基于群正则化相似性度量的人脸识别方法

2016-09-13曾青松广州番禺职业技术学院信息工程学院广州511483

现代计算机 2016年20期

曾青松（广州番禺职业技术学院信息工程学院，广州　511483）

基于群正则化相似性度量的人脸识别方法

曾青松
（广州番禺职业技术学院信息工程学院，广州511483）

安全监控应用中，受光照、阴影和运动模糊等影响，通过人脸检测算子检测到的图像可能包含不完整的人像信息，严重影响到识别的精度。提出一种人脸选择算法，从给定的候选人像集合中选择一个高质量人像的子集，然后应用基于集合的人像识别算法进行识别，有效地提高识别的精度。在公开的人脸识别数据库Honda/UCSD和ChokePoint的实验结果显示，使用子集选择的算法能明显提高现有基于集合的人像识别算法的精度。

人脸识别；局部二值模式；集合匹配；子集选择

广东省自然科学基金（No.2015A030313807）

0　引言

传统的人脸识别方法主要基于少量高质量的正面人脸图像，随着技术的发展，我们可以方便地获取大量的人脸样本。最近研究人员逐渐从基于单一图像方法向多图像的研究转变，已经取得初步的研究成果。在非限制条件下，如监控环境、光照、姿态、表情等变化严重，这些变化导致不同实例的特征差异可能比不同身份的个体之间的特征差异更大，严重影响到识别结果。基于多图像的方法，可以利通多张图像提供的特征信息来消除因为某一特定因素变化而导致的差异。多图像的方法能够提供比传统单一图像的方法更多的鉴别信息，因此基于集合的方法可以有效地提升人脸识别的精确度。

高质量的人脸图像更有助于识别人的身份，尤其是正面的人脸图像，但是在监控环境中，摄像机获取到视频中人脸图像不一定是连续的，并且质量一般都不是非常理想，因此需要从这些视频帧中挑选适合识别的图像以提高识别的精度。

在基于图像集合的人脸识别系统中，为解决光照、姿态、阴影等变化导致的识别率下降，通常可以把那些差的图像作为异常的图像排除在外［1］，或者对图像进行质量评估，考虑对比度、尺度、信噪比等，把这些因子综合融合成一个质量分数，根据这个评分，选择一个子集［2］。但是，如何量化一张图像的对比度、尺度、信噪比等因子对图像质量的影响，很难有一个统一的标准。

本文提出了一种图像子集选择方法，该方法利用一个预先选择、特征良好的参考集合对查询集合中的每一张图像进行质量评估，得到基于查询命中概率的积分用于度量查询集合中图像的质量。通过计算查询集合中的每一张图片与参考集合的距离得到查询集合中每一张图像的查询命中概率。通过该概率来度量查询集合中每一张图像的质量。在得到图像子集之后，进一步提出一种对现有集合匹配方法正则化的技术，通过正则化操作，最小化因为光照、姿态、表情等变化导致的人脸特征的不稳定性。

1　图像子集选择

一般来说，一个基于集合的人脸匹配系统包含人脸检测与跟踪、特征提取和分类器设计几个模块组成。首先，当被匹配人脸从视频图像中提取之后，通过几何变换与查询集中的人脸对齐，然后，通过重采样人脸图像被投影到一个子空间中，在这个子空间中与查询集中的所有图像进行比较，最后根据与最近邻的距离来判断是否匹配。

检测到人脸之后，我们应用特征提取算子获取人脸图像的特征值；然后获得图像的统计信息，利用这些统计信息，对获取到的图像集进行筛选，去除噪声图像的影响；最后定义一种基于参考集模型的相似性度量算法，采用最近邻算法进行分类。

1.1特征选择

在身份验证系统中，LBP（Local Binary Pattern，LBP）［3］特征是表达和分析人脸表情非常有用的工具。基于局部差分变化的方向模式编码（Local Derivative Pattern，LDP）［4］扩展了LBP，第n阶LDP编码了第n-1阶的局部方向变化，它比只使用1阶局部模式的LBP能抓住更多的细节。本文测试了基于密度网格模型的MBLBP（Multi-Block Local Binary Pattern，MBLBP）［5］和MBLDP（Multi-Block Local Derivative Pattern，MBLDP）［4］两种特征。

1.2图像子集选择

对在各种物理条件（例如，变化的姿态、光照等）下得到的图像集合，可以用低维的特征子集来逼近。人脸匹配的关键技术可以理解为寻找能够匹配查询图像的最佳低维模型。样本与模型直方图的不相似性可以看做一次检验的拟合优度［6］，这可以通过非参数统计检验来度量。本文使用直方图模型来描述人脸图像特征，并使用Chi-square距离［7］来度量样本与群之间的相似性。点x到参考集合Z中的某个样本z之间的距离d（x，z，Z）定义为：

其中Z^=kNN（z，Z）表示样本z在集合Z中的k近邻子集。公式（1）定义的距离度量刻画了两个及两个以上样本以及两个分类变量的关联性，刻画了多分类变量数据的拟合情况。如果仅仅采用最近邻导致结果集中的帧的数量小于预定义的大小，我们继续考虑第2近邻，…，第k近邻，…，直到图像集合的大小达到预先设定的值［8］。

对于一般的人脸识别系统来说，高质量的正面人脸图像有助于提高系统的识别率。给定一张从摄像机中截取的画面，通过人脸检测算子检测到的人脸图像x，如何评估它有多像一张正脸，或者说这张人脸图像的质量如何？本文提出一个子集选择模型［9］，这个模型利用一个预先选择的称为背景约束集的参考集合［8］，该集合包含多种条件下获取的经过选择的具有正脸特征的人脸图像构成。通过计算这个参考集合中的每一张图片与测试图片集合之间的距离，来计算查询集合被背景图像查询击中的次数来度量该查询集合中图像的质量。

给定测试集合X=［x1，x2，…，xm］和参考集合Z=［z1，z2，…，zn］。如果xi落在zj的X-集合k近邻中，即xi∈knn（X，zj），我们称元素xi被背景zj查询命中。为得到最具有正脸特征的M张最好的图像，提出一种简单但是鲁棒有效的方法：首先计算参考集合中每一张图像在查询集合中的K近邻集合（查询命中），然后将所有的被背景查询命中的元素集中并计数统计，这样得到一个被参考集合查询击中的次数统计，按照这个数据从大到小排序，得到一个候选子集。因为不是每一张图像都会被参考集合查询命中，因此一般来说该集合不会包含全部的图像。最后，选取排在最前的M张图像就是作为最终的子集。

2　相似性度量

决定两张图像x和y是表示同一个人还是两个不同的人，简单的，我们可以计算这两张图像之间的L1距离d（x，y）=‖x-y‖1，然后与一个经验阈值比较来作出决策。然而固定的阈值不能适应于每一个人，为进一步的提高鲁棒性，我们可以对这个距离进行正则化操作。群正则化［10］和群选择［11］最初用于说话人身份验证被提出来。最近，这个方法被用于人脸验证［12］，它使用查询图像和图像集之间的匹配积分来自适应调节最终的得分，提高多变化的图像应用中的鲁棒性。

公式中的z是参考人脸集合A的图像，这个集合通过人工选定的方法构建一个全部都是人脸的图像构成，在使用过程中不断的更新。这里假设参考集合A不会包含测试人的人脸图像实例［13］。原始的正则化积分没有充分利用标签信息，因此它可以用于那些收集无标签数据比较容易而收集有标签信息非常困难的应用场景。然而，当我们可以利用有标签的信息时候，却不能从这些标签信息中受益。

考虑使用这些有标签的信息［14］，将集合A划分为多个子集，Ai⊂A，i=1，2，…，n，j。每一个子集中的样本具有相同的标签信息，这个标签信息可以是按照身份、光照、姿态变化等来划分的。然后积分被重复计算多次，每一次只使用一个子集。定义的两个图像集合之间的距离为：

其中，距离set_dist（X，Y）可以是任何一个基于集合的距离函数，如子空间之间的距离（Mutual Subspace Methods，MSM）［15］，仿射子空间方法（Affine Hull based Image Set Distance，AHISD）［16］。set_dist（X，Ai）与setdist （Y，Ai）估计在平均意义上两个集合X，Y与参考集合Ai有多远。如果外界条件的变化导致两个集合之间的距离增加，那么它们到参考集合的距离也会跟着增加，目标函数试图找到受外界环境影响最小的参考集合Ai。

3　实验设置与结果分析

本节我们讨论在 HondaUCSD视频数据库和ChokePoint视频数据库上进行基于集合的人脸识别实验，实验环境：Intel Xeon E7-4807双1.87GHz CPU（2× 6核）、64GB内存、Windows Server 2008、64位MATLAB 2013a。

3.1数据集

Honda/UCSD数据集是用于做人脸识别和跟踪的基准数据集，共包含19个人共59段视频［17］。每个视频包含人的不同姿态、表情变化，所有视频均在室内录制，视频的清晰度和光照条件都比较好，每个视频包含300-500帧，并且被分割成多个视频片段。本文使用P. Viola［18］静态人脸检测方法，逐帧检测出人脸区域，每帧只包含一个人，从图2给出了检测结果可以看出检测的人脸图像的头接近正面人像。

ChokePoint数据集主要为研究基于视频的人脸匹配识别任务开发的数据库［9］。该数据集包含入口1录制的25个人的视频和入口2录制的29个人的视频，录制的时候进入入口和离开入口的动作分别录制。每一个入口录制的时候有3台摄像机在不同的角度同时录制，每个动作重复4次得到4个不同的视频序列。

图1　Honda/UCSD数据库人脸示意图

3.2比较的方法和设置

实验中所有的视频分成3组（G0，G1与 G2），其中G0用于构建参考集合，G1与G2分别用于训练和测试，实验使用最近邻分类器，并报告10次实验的平均结果。使用Voila&Jones［18］人脸检测算子检测视频中的人脸图像，然后所有图像转换为灰度图并被归一到像素大小。

在Honda/UCSD数据集上，选择16个人的视频用于构建训练集合（G1）和测试集合（G2），并使用剩余的18个人的视频构建参考集合（G0），这个集合在计算相似度积分的时候同时也当作参考集合。在ChokePoint数据库上，所有的视频被划分为2组，分别用于训练和测试（G1和G2），并使用Honda/UCSD数据库上构建的参考集合G0，这个实验中我们只选择了入口1的进入和离开的视频作为测试。

互子空间方法（Mutual Subspace Method，MSM）［15］中，首先使用PCA保留95%的数据能量得到子空间的基，并使用最大的相关作为相似性。对于Multi-Block Local Binary Pattern和 Multi-Block Local Derivative Pattern，尺度参数设置为2，补丁的大小设置为16；计算LBP时，映射表大小选择59个入口。在仿射子空间方法［16］，我们使用其线性版本，参数C设置为0.98。

3.3实验结果与分析

实验测试了人脸识别问题在ChokePoint和Honda/ UCSD数据库上的分类识别率和标准差。由于Honda/ UCSD数据库大部分对象只有2段视频因此只报告了识别率。根据本文提出的子集选择算法，对每一段视频选择10张质量最好的图像作为最终的子集进行识别，同时与采用从原始视频序列中随机选择10张图像进行比较。

实验对比结果在表1列出。横向看表1，我们发现，采用本章提出的子集选择算法选择子集比采用随机算法选择子集识别率要高10-20%，这也说明了本文提出的子集选择算法能够获得更具鉴别能力的图像子集。同时发现，采用子集选择算法得到的子集的识别实验的标准差小于随机实验，这也说明了本文提出的选择算法是稳定的。

表1　人脸识别正确率（标准差）

4　结语

本文设计了一个子集选择算法并应用于人脸识别问题，提高人脸识别的精度。这个算法基于一个大的参考集合，目前该算法工作良好，能够自动从图像集合中选择一组高质量的图像子集，在公开的数据库上的实验结果表明，该方法可以用于自动构建大规模的人脸数据库，或者监控环境下的人脸识别。目前的研究，我们通过手工选择的方法构建初始的参考集合，接下来，将从如何增量方式构建参考集合，从一个初始集合中如何动态的更新参考集合，提高参考集合的鉴别能力，并在构建大规模人脸数据库的应用角度做进一步的研究。

［1］Shan C.Face Recognition and Retrieval in Video［J］.Video Search and Mining，Springer，2010∶235-260.doi∶10.1007/978-3-642-

12900-19.

［2］Nasrollahi K，Moeslund T B.Face Quality Assessment System in Video Sequences［J］.Biometrics and Identity Management，Springer，2008∶10-18.doi∶10.1007/978-3-540-89991-42.

［3］Ojala T，Pietikäinen M，Harwood D.A Comparative Study of Texture Measures with Cassification Based on Featured Distributions［J］. Pattern Recognition，1996，29（1）∶51-59.doi∶10.1016/0031-3203（95）00067-4.

［4］Zhang B，Gao Y，Zhao S，et al.Local Derivative Pattern Versus Local Binary Pattern∶Face Recognition with High-Order Local Pattern Descriptor［J］.IEEE Transactions on Image Processing，IEEE，2010，19（2）∶533-544.

［5］Liao S，Zhu X，Lei Z，et al.Learning Multi-scale Block Local Binary Patterns for Face Recognition［G］.Advances in Biometrics，International Conference.Seoul，Korea∶Springer，2007，4642∶828-837.

［6］Guo Z，Zhang L，Zhang D，et al.Hierarchical Multiscale LBP for Face and Palmprint Recognition［C］.Proceedings of the International Conference on Image Processing.Hong Kong，China∶IEEE，2010∶4521-4524.doi∶10.1109/ICIP.2010.5653119.

［7］Jin R，Wang S，Zhou Z.Learning a Distance Metric from Multi-Instance Multi-Label Data［C］.Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.2009∶896–902.doi∶10.1109/CVPRW.2009.5206684.

［8］Wolf L，Hassner T，Maoz I.Face Recognition in Unconstrained Videos with Matched Background Similarity［C］.Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Colorado Springs，CO，USA∶IEEE，2011∶529-534.doi∶10.1109/CVPR. 2011.5995566.

［9］Wong Y，Chen S，Mau S，et al.Patch-Based Probabilistic Image Quality Assessment for Face Selection and Improved Video-Based face Recognition［C］.Proceedings of IEEE Conference on Computer Vision and Pattern Recognition Workshop.Colorado Springs，CO，USA∶IEEE，2011∶74-81.

［10］Finan R A，Sapeluk A T，Damper R I.Impostor Cohort Selection for Score Normalisation in Speaker Verification［J］.Pattern Recognition Letters，1997，18（9）∶881-888.

［11］Zigel Y，Cohen A.On Cohort Selection for Speaker Verification［C］.Eighth European Conference on Speech Communication andTechnology.Geneva，Switzerland∶ISCA，2003∶2977-2980.

［12］Sanderson C，Lovell B C.Multi-Region Probabilistic Histograms for Robust and Scalable Identity Inference［C］.Advances in Biomet rics，Third International Conference，ICB 2009.Alghero，Italy∶Springer，2009.

［13］Wu Z，Ke Q，Sun J，et al.Scalable Face Image Retrieval with Identity-Based Quantization and Multi-Reference Re-ranking［C］.Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.San Francisco，CA，USA∶IEEE，2010∶3469–3476.doi∶10.1109/CVPR.2010.5539976.

［14］Taigman Y，Wolf L，Hassner T.Multiple One-Shots for Utilizing Class Label Information［C］.Proceedings of the British Machine Vision Conference.London，UK∶British Machine Vision Association，2009∶1-12.

［15］Yamaguchi O，Fukui K，Maeda K.Face Recognition Using Temporal Image Sequence［C］.3rd International Conference on Face& Gesture Recognition.Nara，Japan∶IEEE Computer Society，1998∶318-323.

［16］Cevikalp H，Triggs B，Triggs W.Face Recognition Based on Image Sets［C］.Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.San Francisco，CA，USA∶IEEE Computer Society，2010，365（2）∶2567-2573.doi∶10.1109/CVPR. 2010.5539965.

［17］Lee K-C，Ho J，Yang M-H，et al.Visual Tracking and Recognition Using Probabilistic Appearance Manifolds［J］.Computer Vision and Image Understanding，Elsevier，2005，99（3）∶303-331.

［18］Viola P，Jones M J.Robust Real-Time Face Detection［J］.International Journal of Computer Vision，Springer，2004，57（2）∶137-154.

Face Recognition；Local Binary Pattern；Image Set Matching；Subset Selection

Face Recognition Based on Cohort Normalization Similarity

ZENG Qing-song
（School of Information and Technology，Guangzhou Panyu Polytechnic，Guangzhou 511483）

In surveillance applications，face images captured with different illumination，shadowing，and motion blur over the sequence，the snapshot may contain non-face or incomplete face component.Addresses the problem of face recognition with an image set-based approach. The proposed method is more robust.It doesn't need an alignment of the face.It automatically selects high-quality images for face recognition during testing and training.Experimental results on the shared video database Honda/UCSD and ChokePoint show that the proposed framework method has been promising potential for use in the image set-based automatic face recognition applications.

1007-1423（2016）20-0054-05

10.3969/j.issn.1007-1423.2016.20.011

曾青松（1976-），男，湖南邵东人，副教授，博士，研究方向为模式识别与数据挖掘

2016-04-27

2016-07-10