稀疏综合字典学习的小样本人脸识别

2021-07-05狄岚矫慧文梁久祯

智能系统学报 2021年2期

狄岚，矫慧文，梁久祯

（1. 江南大学人工智能与计算机学院，江苏无锡 214122; 2. 道路交通安全公安部重点实验室，江苏无锡 214151; 3. 常州大学信息科学与工程学院，江苏常州 213164）

近年来，深度学习进入蓬勃发展时代，以深度学习为基础的图像识别[1-3]虽然识别准确率高，但往往对硬件设备要求严格，具有训练时间长达数周、样本量需求过大等不足之处。与之相比，基于稀疏表示的图像识别训练简单、对噪声有强鲁棒性，逐渐应用在社会安全、经济工程等领域。

字典学习的目的是通过训练样本图片，习得可以表示给定信号的字典和编码，共分为有监督和无监督两种情况。经典的无监督字典学习如KSVD[4]算法，可以有效解决高维矩阵求解问题，广泛应用于图像重建及图像压缩领域。而有监督字典学习多应用于图像识别领域，如人脸识别、表情识别等。根据字典原子和训练标签之间的相关性，有监督字典学习可分为类共享字典学习、类别特色字典学习、混合字典学习3类。

类共享字典学习如文献[5-7]等，字典和稀疏编码由所有训练样本共同构造，单个字典原子可表示全体数据类别。Zhang等[8]以KSVD算法为基础，在保证字典识别能力的基础上引入分类误差，提高线性分类器的分类能力。Jiang等[9]在其基础上，增加标签一致性术语，提出标签一致性KSVD (LCKSVD)算法。Mairal等[10]提出了任务驱动的字典学习框架。类共享字典在保留表示数据共性的同时丢失字典原子和类标签之间的关系，忽视了类别之间的差异性。

类别特色字典学习如文献[11-13]等，每个字典原子对应一类标签信息，通过类特定误差进行分类。Wright等[14]提出基于稀疏表示的分类框架(sparse representation based classification，SRC)，自此，类别特色字典广泛应用于人脸分类器设计中。Sprechmann等[15]为每一类分别学习稀疏表示字典，Ramirez等[16]提出了一种结构非相干字典学习模型，通过最小化字典的相干项来提高字典的学习效率。Yang等[17]提出了Fisher判别字典学习(fisher discrimination dictionary learning,FDDL)，其中表示残差和表示系数都实现了判别信息。2018年，Wang等[18]结合字典学习和局部约束思想，提出FDDLLCSRC方法。同年，Li等[19]在FDDL基础上提出IKCFDDL算法，在字典学习基础上增添K均值聚类思想，提升算法运行效率。

混合字典即结合类共享字典与类别特色字典。Deng等[20]提出了基于扩展稀疏表示的分类方法(extended SRC: undersampled face recognition via intraclass variant dictionary，ESRC)，在学习类别特色字典的同时构造类内差异字典，即共享字典。受ESRC算法启发，2015年Li等[21]提出SCSDL算法，2017年提出CSICVDL算法[22]，提取不同类别样本中数据共性提升字典辨别力。这些混合字典学习方法在人脸识别方面表现良好，然而，在对于噪声、异常值和遮挡等干扰情况时处理能力较差。

除上述问题以外，由于样本数量受限，传统字典学习习得的字典鲁棒性差，不能完全表示数据组成的共性、特殊性、干扰性。针对此种情况，本文提出一种新的稀疏综合字典学习的小样本人脸识别模型(SCDL)。SCDL模型包括混合特色字典、扩充干扰字典以及低秩字典3项。将类共享字典与类别特色字典以及Fisher准则整合至混合特色字典模型中，在提取不同数据特殊性的同时捕捉数据之间的共性，利用扩充干扰字典和低秩字典增强模型对异常情况(如遮挡、噪声等)的处理能力。最后，本文针对模型提出一种新的分类策略，并在受限AR人脸数据库、YaleB人脸数据库和非受限LFW人脸数据库进行实验，结果表明本文算法不仅可以取得较高分类率，并且在面对遮挡、噪声等异常情况时较其余算法有更好的识别力和鲁棒性。

1 相关工作

设定训练数据集 A：

测试数据集合 Y ：

式中：A 的每列表示一个 m 维向量；Ai∈Rm×ni为第i 类训练数据；为训练数据集样本总数；y表示单个测试样本。

1.1 扩展稀疏表示

稀疏表示(SRC)针对测试集 Y，以学习合适的字典 D 为手段，寻找能表达 Y 的稀疏编码 X，ESRC算法在此基础上另学习一个类内差异字典表示训练集 A 和测试集 Y 之间的变化，算法模型如下：

ESRC模型分为重构误差项与正则项两部分，正则化参数 λ ＞0 。稀疏编码 a ,b 的快速求解可参考贪婪算法(如压缩感知匹配追踪[23]、稀疏自适应匹配追踪[24])或凸松弛算法(如最小绝对值收缩选择算法[25]、最小角度回归算法[26])。

1.2 类别特色字典学习

类别字典学习为每类数据单独学习一个子字典，即习得的字典 D ={D1,D2,···,DK} 由 K 个子字典组成，算法模型如下：

对于单个测试样本y，求得的稀疏系数为x={x1,x2,···,xK}。其中，Di表示第i类训练样本的子字典，xi由Di重构得到，重构误差为ei=‖y-Dixi‖2。

1.3 Fisher判别准则

Fisher判别准则以投影思想为核心，目的是使同类样本尽可能集中的同时，异类样本尽可能疏散。

假定u0为稀疏编码X的中心，ui表示各类稀疏编码均值向量：

可定义类内散度矩阵Sw(X)、类间散度矩阵SB(X)：

2 稀疏综合字典学习的小样本人脸识别算法

稀疏综合字典学习分类方法包括训练和测试两大步骤，分为扩充干扰字典、混合特色字典、低秩字典三大部分，采用分步优化方法求解，充分提取数据之间的共性、特殊性、干扰性。

2 .1 扩充干扰特色字典

2.1.1 扩充干扰字典模型

对于一张图片a，以图片中线为轴，如图1所示，分别得出左镜像图片a1、右镜像图片a2、全镜像图片a3。

图 1 镜像图片Fig. 1 Mirror image

以a为例，对于训练集A，求出左镜像集A1，右镜像集A2，全镜像集A3，以Fisher准则为基础，分别计算出3个集合的类间散布系数与类内散布系数之比作为权重w=[w1,w2,w3]。

集合A′=w1A1+w2A2+w3A3。以A′为训练集，提出扩充干扰字典模型如下：

模型分为重构误差项、稀疏保证项和判别系数项3部分，其中，λ1＞0 为正则项参数，λ2＞0 为判别系数项参数。下面依次论述模型每一项原理。

2.1.2 扩充干扰字典优化

式(1)为非凸函数，其优化过程如下所示：

1) 初始化字典Db。

2) 保证字典Db固定，更新稀疏编码B。

目标函数转化为

使用文献[27]中的方法求解稀疏编码Bi∈RN×ni，γ =λ1/2。

3) 保证稀疏编码B固定，更新字典Db。

本文逐个更新Db中的子字典，即当更新第j个子字典时，保证其他子字典Dj(i≠j) 不动，默认更新完成。

4)重复2)和3)，直到前后两次的函数 Q 的值满足判断条件为止。

扩充干扰字典算法总体实现步骤如下：

输入训练样本 A′，规范化参数 γ；

输出字典Db和稀疏编码 B 及相应的标签。

1)初始化字典Db。

2)固定字典Db，更新稀疏编码 B。初始化字典后，利用式(2)依次求解。

3)固定稀疏编码 B，更新字典Db。利用式(3)依次更新。

4)重复2)和3)，直到前后两次的函数的值满足判断条件为止。

2 .2 混合特色字典

2.2.1 混合特色字典模型

对于训练集 A 和测试集 Y，习得类共享字典Dc和由 K 个子字典组成的类别特色字典 D：D={D1,D2,···,DK}。根据Fisher判别准则，混合特色字典模型如式(4)：

2.2.2 混合特色字典优化

式(4)为非凸函数，其优化过程如下所示：

1) 初始化字典D和Dc。

将训练数据 A={A1,A2,···,AK} 的特征向量初始化为字典的原子，对字典 Dc归一化，使其 l2范数为1；分别对字典 D 的每一类归一化，使其 l2范数为1。

2) 保证字典 D 固定，更新稀疏编码 X；保证字典 Dc固定，更新稀疏编码 C。

3) 以章节2.1.2为例，固定稀疏编码 X，更新字典 D；固定稀疏编码 C ，更新字典 Dc。

4) 重复2)和3)，直到前后两次的函数 Q 的值满足判断条件为止。

混合特色字典算法总体实现步骤如下：

输入训练样本 A，规范化参数 γ；

输出字典D和稀疏编码 X，字典 Dc和稀疏编码 C 及相应的标签。

1)初始化字典D和Dc。

2)固定字典D，更新稀疏编码 X；固定字典Dc，更新稀疏编码 C；初始化字典后，利用式(5)、(6)依次求解。

3)固定稀疏编码 X，更新字典 D；固定稀疏编码 C，更新字典 Dc。

4)重复2)和3)，直到前后两次的函数的值满足判断条件为止。

2 .3 低秩字典

2.3.1 低秩字典模型

在人脸识别中，假设扰动分量只占图像特征的一小部分，即图像的稀疏分量，使用矩阵低秩分解[28]方法从图像中提取干扰成分(如噪声、孤立点和遮挡)。

以如图2所示，取图片低秩分量 Ej作为训练集。其中，λ1＞0 为正则项参数，提出低秩字典模型如下：

2.3.2 低秩字典优化

图 2 原图及低秩分量Fig. 2 Original graph and low rank components

3)以章节2.1.2为例，固定稀疏编码P，更新字典Dp。

4)重复2)和3)，直到前后两次的函数的值满足判断条件为止。

低秩字典优化算法总体实现步骤如下：

输入训练样本E，规范化参数 γ；

输出字典和稀疏系数P，及相应的标签。

1)初始化字典Dp；

2)固定字典Dp，更新稀疏编码P；

3)固定稀疏编码P，更新字典Dp；

4)重复2)和3)，直到前后两次的函数的值满足判断条件为止。

2.4 分类策略

2.5 本文整体算法步骤及流程

稀疏综合字典学习的小样本人脸识别算法分为3个子算法，利用训练数据A、辅助数据C构造扩充干扰字典、混合特色字典、低秩字典。算法流程图如图3所示。

图 3 算法流程Fig. 3 Algorithm flowchart

稀疏综合字典学习的小样本人脸识别算法总体实现步骤如下：

输入训练样本A，辅助数据C，测试数据Y，参数λ1,λ2。

输出分类标签。

1)利用训练数据A构造数据集A′，算法1习得扩充干扰字典Db；

2)利用训练数据A及算法2习得混合特色字典D,Dc；

3)利用辅助数据C及算法3习得混合特色字典Dp；

4)利用式(8)、(9)得到样本标签。

3 实验结果及分析

3.1 实验平台和参数设置

本文实验环境为64位Window 10操作系统，内存32 GB，Intel(R) Xeon(R) CPU E5-2 620 v4 @2.10 GHz，并用MatlabR2016b软件编程实现。

实验选取AR人脸数据库、YaleB人脸数据库、LFW人脸数据库进行实验，多次实验取平均值。图像都经过标准化处理，比较算法包括SRC、FDDL、CRC、ESRC、SVGDL和CSICVDL、SCSDL、FDDLLCSRC、LKCFDDL。

3.2 AR数据库实验

本文在AR人脸数据库上设计两个实验方案，实验1随机选取100人，每人26张图片分为5个集合，训练集合选取两张标准人脸，其余按特点分为4个集合，作为不同的测试集。如图4所示，集合S1为样本内所有表情变化图片；集合S2为所有光照变化图片；集合S3为所有眼镜遮挡图片；集合S4为所有围巾遮挡图片。

图 4 AR人脸数据库样本(1)Fig. 4 Cropped face samples of AR database (1)

在具体实现过程中，随机选取80人用于训练扩充干扰字典和混合特色字典，其余20个人用于训练低秩字典。首先将数据集下采样为 6 0×80，并采用PCA降至100维。各算法在AR数据库的识别率如表1所示。

表 1 算法在AR 库上的实验结果 Table 1 Accuracy of different methods on Experiment1 of AR database

从表1可知，FDDL算法识别率高于SRC、CRC算法，说明提取数据特殊性的重要性，FDDLLCSRC、IKCFDDL算法在面对光照、表情变化时实验效果良好，然而对数据存在遮挡异常时处理效果欠缺。而CSICVDL、SCSDL、本文算法识别率高于FDDL、LKCFDDL等，说明了在提取特殊性之外，捕捉数据共性的必要性。本文算法性能较稳定，混合特色字典提取了数据共性和特殊性，低秩字典、扩充干扰字典增强算法鲁棒性和容错能力，在所有集合都能达到最高识别率。

为探究本文算法对遮挡、光照、异常等情况的综合处理能力，如图5所示，实验2选取每人两张正常状态下的人脸图片作为训练集，将围巾遮挡、墨镜遮挡作为测试集合。

图 5 AR人脸数据库样本(2)Fig. 5 Cropped face samples of AR database(2)

将数据集下采样为 6 0×80，采用PCA将数据降为 {50,150,250,350,450} 维。如图6所示，本文算法在不同维度下皆取得最高识别率，在面对遮挡等异常情况时表现最佳。

图 6 AR人脸数据库识别率Fig. 6 Accuracy of different methods on Experiment1 of AR database

3.3 YaleB数据库实验

本文在The extended Yale B 人脸数据库上设计两个实验。实验1中，每人随机选取5图片训练，其余图片进行测试。图7表示其中一个训练样本和部分测试样本。

图 7 YaleB人脸数据库样本Fig. 7 Cropped face samples of YaleB database

在具体实验时，选取30个人训练扩充干扰字典和混合特色字典，其余8个人用于训练低秩字典。将数据分别降维至 { 150,250,350,450,550} 维，各算法在各维度上的识别率如表2所示。

表 2 算法在Yale B database库上的实验结果Table 2 Accuracy of different methods on Experiment1 of Yale B database %

从表2可以看出，本文算法识别率高于其他算法，并随着维数增多而增高。

为探究各算法鲁棒性，实验2赋予算法不同的参数值，参数1与参数2 分别取值{0.001, 0.005,0.01, 0.05}，参数1限制正则化项对识别率的影响，参数2限制稀疏编码对识别率的影响，实验结果如图8所示，本文算法与FDDL算法识别率随参数1、2的取值增大而增大，并最终达到稳定，本文算法识别率随参数改变的波动小，趋于平缓，鲁棒性强。

图 8 参数对YaleB人脸数据库识别率的影响Fig. 8 The parameter analysis on the YaleB database

3.4 LFW数据库实验

本文在非受限人脸数据库LFW设计两次实验，如图9所示，利用3d校正补齐因转向、遮挡而缺失的特征信息。

实验一，选取单人图片数量大于10张的158人作为实验数据。在具体实验时，选取148个人训练扩充干扰字典和混合特色字典，其余10个人用于训练低秩字典。如图10所示，随机选取每人10张图片，5张图片作为训练集，其余为测试集。将数据分别将至{50, 100, 150, 200,250}维，各算法在各维度上的识别率如表3所示。

图 9 校正 LFW人脸数据库Fig. 9 Correction of LFW Face Database

图 10 LFW人脸数据库样本Fig. 10 Cropped face samples of LFW database

表 3 算法在LFW database 库上的实验结果 Table 3 Accuracy of different methods on Experiment1 of LFW database

如表3所示，多数情况下算法的识别率随维数增多而升高，本文算法优于其他算法，但识别率整体不高，这可能是因为前期校正造成的信息损失。

为验证低秩字典对算法影响，实验2随机挑选19、39、59、79个人作为低秩字典训练数据及CSSVDL类内差异字典辅助数据，与基础FDDL算法、包含辅助字典的CSSVDL算法进行对比，各算法在各集合上的识别率如图11所示。

图 11 LFW人脸数据库识别率Fig. 11 Accuracy of different methods on experiment1 of LFW database

从图11可知，随着构筑类内差异字典的辅助数据增加，CSSVDL算法的识别率大致增加。随着构筑低秩字典训练数据增加，本文算法识别率大致增加。本文算法、CSSVDL算法、FDDL算法在59人实验中识别率均受个别样本选择影响下降，本文算法和CSSVDL由于辅助数据捕捉数据共性，较FDDL算法有更好的鲁棒性。在非受限人脸数据库LFW上，本文算法分类效果最优。

3 .5 算法评价

3.5.1 复杂度分析

本文算法复杂度分为扩充干扰字典、混合特色字典、低秩字典3个部分计算，每部分又分为更新稀疏编码和更新字典两步骤。

以扩充干扰字典为例，设训练样本个数为n，样本特征维数为q，更新稀疏系数的时间复杂度为nO(q2nr)，其中，r≥1.2 为常数。更新字典的时间复杂度为∑jnjO(2nq)，其中，nj表示Di的原子个数。

扩充干扰字典总复杂度为

3.5.2 运行效率分析

为探究算法运行效率，本文设计实验。如图12所示，实验1取AR数据库80人，每人前13张图片训练，其余图片进行测试。

图 12 AR实验Fig. 12 Experiment on AR

实验2选取YALE数据库，如图13所示，每人前2张人脸图像为训练集，剩余9张为测试图像。随机选取5人作为辅助数据，数据库其余人数作为训练和测试数据，算法运行时间及实验结果如表4所示。

图 13 YALE实验Fig. 13 Experiment on YALE

表 4 AR及YALE库实验Table 4 Experiment on AR and YALE

综合表4可以看出，本文算法、CSSVDL算法、SCSDL算法由于辅助数据的构建，虽然算法识别率提高，但算法运行时间也随之增加。两实验中本文算法识别率最高，且运行时间小于CSSVDL算法、SCSDL算法，证明本文算法具有更高的性价比。

4 结束语

本文提出稀疏综合字典模型，加入Fisher判别准则，学习混合特色字典提取数据共性和特殊性，学习扩充干扰字典与低秩字典提取数据异常、干扰性，分别在AR、YaleB、LFW等人脸库上进行实验。实验表明，在小样本训练情境下，即使测试样本与训练样本存在较大差异如表情变化、遮挡等，本文仍能保持较好的性能。在实际应用中还需进一步探讨算法对训练样本的依赖性以及算法的稳定性。