联合多模态表示的人脸识别方法研究

2022-01-06张杜娟

电子设计工程 2021年24期

张杜娟，陈飞，丁莉

（西安医学院卫生管理学院，陕西西安 710021）

人脸识别技术在日常生活中运用广泛，成为现代社会管理的有力手段[1-3]。人脸识别技术自提出以来，长期成为模式识别和人工智能领域的热点问题。基于人脸图像的识别算法主要从特征提取和分类决策两个角度入手。前者是从高维度图像中抽取与人脸特性直接相关的描述方式；后者根据提取特征进行未知样本所属类别的判断。当前，应用于人脸识别的特征种类多样，具有代表性的是像素分布类和图像分析类。像素分布类主要考察人脸图像的灰度分布规律，通过注入主成分分析（Principal Component Analysis，PCA）等手段获得有效的低维度特征矢量[4-5]。图像分析类则通过图像细节的处理获得人脸的点、线、面以及局部问题特征[6-8]。对比而言，前一类特征具有提取效率高、特征形式规则的优势；后一类特征则具有物理意义清晰、解译性更强的优势。根据获取的特征，分类决策阶段针对性选取或设计判断机制。人脸识别算法的决策机制见证了模式识别领域分类器的发展进步。早期的分类器主要有近邻分类器、支持向量机（Support Vector Machine，SVM）[9]、神经网络等。后续，基于压缩感知的稀疏表示分类器（Sparse Representation-based Classification，SRC）在人脸识别中得到了验证[10-11]。近年来，以卷积神经网络（Convolutional Neural Network，CNN）为代表的深度模型成为人脸识别最为常用的工具[12-13]，并取得了较好的研究成果。

文中着眼人脸识别中的特征提取和分类决策问题，提出联合多模态表示的新方法。采用二维经验模态分解（Bidimensional Empirical Mode Decomposition，BEMD）对人脸图像进行分解[14-15]，获得多层次二维内蕴模函数（Bidimensional Intrinsic Mode Function，BIMF）。相比单一的原始图像，多层次的BIMF 可梯次化描述人脸的全局、局部、细节等特性，因此区分不同类别的能力更强。对于分解得到的多层次BIMF，文中选用多任务压缩感知模型（Multi-Task Compressive Sensing，MTCS）[15-16]对其进行表征。MTCS 在贝叶斯理论框架下求解多任务稀疏表示问题，在考察不同任务之间关联的条件下获得概率意义上的最优解。因此，通过结合BEMD 和MTCS 在特征提取和分类决策方面的优势，所提方法可以取得更为稳健的人脸识别性能。基于ORL 和Yale-B 数据集开展实验分析，结果验证了方法的可靠性。

1 多模态表示

BEMD 是EMD 在二维领域的扩展，可直接用于图像分解[14-15]。对于输入图像I(x,y)，经过BEMD 分解后得到如下形式：

其中，cj(x,y),j=1,2,…,L表示分解得到的多层次BIMF；rL(x,y)为分解残差，多为图像中的噪声杂波分量等。

文献[15]详细论证了BEMD 的实施流程和分解结果。现有研究成果表明了BEMD 在图像分析解译中的有效性。经过分解得到的多模态表示，即多层次BIMF，可更为有效地反映其中被描述对象的多角度性质。文中将BEMD 用于人脸图像分解，将其获得的BIMF 用于后续的分类决策过程，获得更具鉴别力的特征描述。

2 多任务压缩感知分类决策

多任务压缩感知是压缩感知理论的拓展运用，主要用于解决多个关联稀疏表示问题的联合求解。其基本思想是在贝叶斯框架下通过对不同成分进行有效统计建模获得具有最大后验的结果。对于Y={yi}i=1,…,L共有L个不同的稀疏表示任务，它们独立描述的情况如下：

其中，Ai∈RNi×N表示第i稀疏表示问题的字典；xi为待求解的稀疏系数矢量；ni为噪声分量，采用均值为零、方差为ξ0的高斯分布进行建模。

在此基础上，yi的概率密度函数可表达如下：

在利用这L个稀疏表示问题存在内在关联的条件下，进一步转化为如下形式：

其中，xi,j是xi中的第j个元素；ξ=[ξj,…,ξN]T。

MTCS 通过最大化边缘概率密度可获得ξ的最佳估计，形式如下：

MTCS 采用迭代更新的策略不断获得概率意义上的近似解，求得不同稀疏表示问题的表示系数的均值和方差。最终结果在概率意义上具有最优性，对于后续的分类决策具有重要的意义。

在MTCS 求解得到各个稀疏表示问题的系数矢量的前提下，可分别利用不同类别训练样本对测试样本进行重构，通过比较重构误差进行类别决策：

其中，为第i个稀疏表示问题中与第k类关联的局部字典；为对应的系数矢量。

文中采用MTCS 对人脸图像分解得到的多模态表示进行表征。从MTCS 的原理可以看出，其在概率框架下获得具有最大后验的最优估计结果。因此，其可充分考察不同BIMF 的独立性和关联性，获得最佳的重构结果。图1 给出了所提方法的具体实施流程。训练集在BEMD 的分解下构建多层次的BIMF 字典，测试样本相应分解得到对应层次的BIMF。在MTCS 的表征下，各个训练类别均会对测试样本产生一个重构误差，最终通过比较不同类别的误差大小即可判定测试样本的所属人脸类别。具体地，文中根据重复实验结果，选取分解结果中的前四层（即图1 中M=4）BIMF 代入识别算法，MTCS 的最佳参数通过自寻优获得。

图1 联合多模态表示的人脸识别流程

3 实验与分析

3.1 实验数据集

ORL 和Yale-B 人脸图像数据集是当前开展人脸识别算法验证的权威数据集，具有很强的代表性。其中，ORL 数据集收集了40 张的人脸图像，每人包含10 个样本。Yale-B 数据集收集了10 张的人脸图像，每人45 张。图2 给出了两个数据集的部分人脸样本示意。具体开展实验时，在ORL 数据集中，随机选取每人5 个样本作为训练集，其余5 个样本用于测试。在Yale-B 数据集中随机选取每人20 个样本作为训练集，其余25 个样本用于测试。

图2 人脸图像样本示意

实验过程选择已有的一些人脸识别方法与文中方法作对比研究，主要包括文献[9]中提出的基于灰狼算法优化的SVM（记为优化SVM）、文献[3]设计的改进SRC（记为改进SRC）以及文献[13]采用的多模态深度特征（记为DeepFace）。实验共分为3 个部分，分别为原始样本、噪声样本和遮挡样本，可据此全面测试所提方法的综合识别性能。

3.2 结果与分析

3.2.1 原始样本

该实验基于ORL 和Yale-B 原始样本开展测试，按照3.1 节中的实验对比设置，分别测试各类方法的性能，统计如表1 所示。横向对比ORL 和Yale-B 两个数据集，明显发现ORL 的整体识别难度更大，所有方法的平均识别率均相对较低，主要由于图像样本的获取条件相对苛刻。纵向对比各类方法，所提方法在两个数据集上均保持最佳性能，体现了其有效性。相比优化SVM 和改进SRC 方法，该文除了选用合适的分类机制，还在特征提取方面作了充分考虑。多层次BIMF 相比单纯利用原始人脸图像可提供更为充分的识别信息。和DeepFace相比，文中通过结合BEMD 和MTCS 两者的优势进一步提升了最终性能。

表1 原始样本识别结果对比

3.2.2 噪声样本

上述实验中的原始样本多在合作条件下获取，总体噪声水平较低，不能很好地检验各方法在噪声干扰条件下的性能。而实际情况下，人脸图像获取可能会有各种干扰存在，为此，实验首先通过模拟噪声条件的方式获得不同信噪比（SNR）下的测试集，进而考核各类方法的噪声稳健性。图3 给出了全部四类方法在不同信噪比条件下的平均识别率，从中可以看出噪声干扰对于人脸识别性能的显著影响。所提方法通过结合BEMD 分解的多模态表示和MTCS 的优势，在各个噪声水平均保持了最佳性能。BEMD 分解过程实际也在进行噪声残差的优化剔除，MTCS 在贝叶斯框架下进行稀疏表示问题求解，充分考虑了噪声分布的影响。因此，两者的有效结合可以提升识别算法对于噪声干扰的稳健性。

图3 噪声样本识别结果对比

3.2.3 遮挡样本

如文献[17]所述，现实中采集得到的人脸图像往往伴随遮挡的情形。为此，下面开展遮挡样本的测试。首先，按照文献[17]的思路采用局部遮挡的方式构造不同遮挡比例条件下的测试样本。然后，分别在不同的遮挡比例下对各类方法进行测试，统计识别结果如图4 所示。遮挡情形的出现直接影响了所有4 类方法的性能，其中DeepFace 最为剧烈。所提方法在各个遮挡比例下均保持最佳性能，体现其遮挡稳健性。基于BEMD 分解的多模态表示通过互补关联描述可在遮挡情形下保持高鉴别力。MTCS则可以利用多模态表示的优势获得最终的稳健决策结果。

图4 遮挡样本识别结果对比

4 结论

文中将BEMD 和MTCS 联合运用于人脸识别问题，通过MTCS 对多模态表示的有效处理获得更为稳健的人脸识别结果。特征提取和分类决策有效性的提升使得文中方法具有性能优势。实验依托ORL和Yale-B 数据集在原始样本、噪声样本和遮挡样本上开展，通过与现有几类方法的对比分析，可以证实所提方法的性能优势。