基于边缘先验的人脸去手势遮挡修复方法研究

2023-08-01欧静文志诚

现代信息科技 2023年11期

欧静　文志诚

摘要：针对当下人脸去手势遮挡任务中常出现的结构缺失和纹理模糊等问题，文章提出一种基于边缘条件和注意力机制的两阶段修复网络——EmmNet。第一阶段网络为第二阶段细节修复提供边缘指导信息，以避免出现过度平滑等问题。第二阶段网络中的并行多扩张卷积模块可在有效扩大网络感受野的同时提高对有效像素的利用率。此外，注意力模块可促使网络生成具有全局一致性，使研究者获得符合原图特征的修复图像。实验结果表明，EmmNet在去手势遮挡任务中可以生成轮廓结构更加完整流畅，细节纹理更加清晰自然的人脸图像。

关键词：卷积神经网络；生成对抗网络；人脸修复；注意力机制

中图分类号：TP18；TP391.4 文献标识码：A 文章编号：2096-4706（2023）11-0097-05

Research on Face Removal and Removing Gesture Occlusion Restoration Method

Based on Edge Prior

OU Jing， WEN Zhicheng

（Hunan University of Technology， Zhuzhou 412007， China）

Abstract： Aiming at the problems of lack of structure and blurred texture that often appear in the current face removing gesture occlusion task， this paper proposes a two-stage inpainting network based on edge conditions and attention mechanism—EmmNet. The one-stage network provides edge guidance information for the second-stage detail restoration to avoid problems such as over-smoothing. The parallel multi-expansion convolution module in the second-stage network can effectively expand the network receptive field and improve the utilization of effective pixels. In addition， the attention module can promote global consistency in network generation， enabling researchers to obtain repaired images that match the original image features. The experimental results show that EmmNet can generate a face image with a more complete and smooth outline structure and clear and natural detail texture in the removing gesture occlusion task.

Keywords： Convolutional Neural Network; Generative Adversarial Network; face restoration; attention mechanism

0 引言

人臉图像去遮挡及修复作为图像修复领域的重要研究课题，具有广阔的应用空间。在安保监控领域，监控图像中的人脸信息因受帽子、口罩、手势等遮挡物影响而造成人脸识别[1]失败的情况屡见不鲜。通过人脸修复技术对被遮挡的人脸图像进行恢复可以有效提高人脸识别系统在处理被遮挡人脸图像时的准确率，因此，人脸修复结果更需要尊重原始图像中人脸的五官特征、肤色发色以及皮肤生长状态和纹理。这就要求所生成的人脸图像要更加贴合原图的五官结构和纹理特征，要尽可能地减少色彩误差和纹理扭曲，提高生成结果的准确度。

为此，在图像生成过程中如何引入必要的先验知识或特定的假设，以帮助网络生成完整合理的人脸面部结构信息成为亟需解决的问题之一。鉴于此，本文提出一种基于边缘条件和注意力机制的人脸图像修复方法——EmmNet。

整体而言，EmmNet是一个两阶段修复网络，第一阶段主要完成的任务是引入修补的边缘图像为修复任务提供先验信息以避免结构缺失以及生成图像过渡平滑的问题，第二阶段则进行细节和纹理层面的修复。在网络的设计中，我们在第二阶段增加了门控卷积以减少修复过程中无效像素对特征提取的影响。与此同时，我们使用在不同扩张率下并行工作的多扩张卷积结构来代替传统的残差卷积块，这样可以在有效扩大感受野的同时进一步提高网络对有效像素的利用率。在判别器的选择上，我们采用可在两个尺度下同时工作的马尔可夫判别器，该设计结构可以保证生成图像结构的一致性，有利于实现稳定训练。

经过试验训练，EmmNet在实现手势遮挡方面取得了较好的效果，在PSNR、SSIM等指标上都取得了优良的实验结果，且在不规则遮挡实验测试中也表现出优秀的修复能力。

1 近期相关工作

图像修复方法一般分为基于传统数学推理思想的方法和基于深度学习的方法。就修复原理而言，修复网络需要充分挖掘和利用不完整图像中显式存在的像素信息从而进一步推理丢失的图像内容[2]。对于生成的图像则要求语义连贯，结构完整且局部纹理信息清晰明确。传统方法在大面积修复效果上具有较大的局限性且修复结构中往往存在明显的结构缺失和纹理模糊等问题，因此，相较于传统修复方法，编解码器结构[3]和生成对抗网络[4]的提出为图像修复工作提供了全新的思路和方法。

一方面，深度学习方法中的各种编码器—解码器变体结构等建模方法可以在无监督模式下通过对高维数据进行压缩编码来提取图像中的有效特征信息，进而从海量数据库语料中不断学习以拟合训练数据集中图像数据在潜在空间中的真实分布。同时，凭借自身优秀的“泛化”能力，这些网络结构可以以此重构出与原始图像具有相似特征分布的图像数据。然而，基于自编码器变体的方法本质上是一种可以生成新样本的概率框架，但其生成的图像结果往往较为模糊，质量较低。另一方面，基于生成对抗网络思想而生的网络变体结构设计一系列损失函数，采用对抗博弈的方式对生成器和鉴别器进行联合训练，使生成器可以改写噪声分布并使其可以无限接近于目标分布。

2 提出方法

2.1 网络结构

如图1所示，EmmNet网络由两阶段组成，包括边缘生成网络和纹理生成网络。两个网络生成器的两层下采样层及两层上采样层结构一致，边缘生成网络的特征提取部分由8个堆叠排放的残差卷积块组成，纹理生成网络的特征提取部分则由8个多扩张卷积块[5]和1个注意力模块堆叠排列而成。注意力模块可对经过特征提取和推理的特征图像进行进一步的特征匹配，促进生成图像的全局一致性。在鉴别器的设计上，边缘生成网络的鉴别器选用传统的谱归一化马尔可夫鉴别器。纹理生成网络则由两层鉴别器构成，第一层鉴别器在原图尺寸上进行判定，第二层鉴别器则在下采样后的输出图像上进行判定。多扩张卷积块由四个并行工作扩张率分别为（1、2、4、8）的子内核构成，四个子内核的通过数均为64。随后将来自四个子内核的输出特征在通道维度上进行拼接及特征融合，最后还需与门控值相乘，以此减轻mask中无效元素对特征提取过程的影响。值得注意的是，实验在确定扩张率的组合值时发现扩张率别为（1、3、6、9）的扩张卷积在处理256×256的原始图像时输出效果略低于（1、2、4、8）。细节生成网络的鉴别器由于在两个尺度的输出图像中进行判定并传递损失值，因此可将其看作一个多任务学习过程，可由式（1）来表示：

2.2 注意力模块

在细节纹理生成网络中具有多种扩张率融合的局部卷积核逐层处理图像特征，虽然可以在一定程度上扩大局部空间的感受野，但是对于从较远空间位置借用特征仍存在局限性。因此引入了注意力机制，在网络特征提取后引入一个新的上下文注意层对经过修复的特征图谱进行注意力计算，使之能够利用全局信息进一步帮助解码器结构提高图像的视觉质量，特别是在进行大结构和长距离纹理模式图像计算时，效果尤为明显。注意力的计算原理为从已知的背景图块中找寻与当前位置关联度较高的图像特征信息以帮助生成缺失面片。并使用归一化内积（即余弦相似度）来度量二者（可表示为Fi和Fj）之间的相似关系，假设表示以（ix， iy）和（jx， jy）为中心的特征块相似性，用于计算二者之间的亲和度。随后通过矩阵乘法计算F的加权平均形式为。最后，将F和进行拼接并应用1×1卷积层保持F的原始通道数。计算过程如式（2）所示：

经实验验证，该注意力层可以放置在任何一层特征图输出层之后并对其进行匹配。然而，注意力计算量与输入特征图的尺寸关系密切且对GPU显存占用较大，因此本文只在编码器和特征提取的最后阶段使用注意力模块进行处理，该层的特征输出大小为64×64。我们在试验中也尝试在各解码层后对输出进行特征提取，但均发生GPU显存溢出的现象。

2.3 损失函数设置

EmmNet网络中边缘网络的联合损失函数由平均绝对误差、特征匹配损失及对抗损失组成，如式（3）所示。纹理生成网络的联合损失函数则由平均绝对误差、风格损失、感知损失及对抗重建损失构成，如式（4）所示，其中λx表示损失函数对应的权重超参数。

其中，特征匹配损失通过对比修复结果的特征图与原图特征图之间的差异返回损失值，以此提升边缘生成的准确度。感知损失的作用原理是对于生成的图像不仅要关注像素层级上的重建效果，更要立足于图像的高层语义特征。风格损失函数计算生成圖像和原图二者在预训练网络中第i层特征图谱对应的风格矩阵间（Gram矩阵）的l1距离，并以此为依据约束生成图像的风格特征使之获得向原图靠近的效果。联合损失函数的设计既保证了生成内容的像素级精度，也在结构语义层级上给予约束。经过实验验证，超参数设置为λadv= 0.1，λfm = 10，λl1 = 1，λperc = 0.1，λstyle = 250。

3 实验设置

为了更有针对性地处理人脸去手势遮挡任务，我们在训练时采用了由Voo等人[6]提出的手势遮挡合成方法，用于生成符合日常生活场景下的手势遮挡效果。CelebA-HQ[7]数据集中包含3×104张高清人脸图像，也是实验训练中主要使用的人脸数据，11K Hands数据集由Afifi等人[8]提出，其中包含11 076张取自不同性别、不同年龄采集者的正反面手部照片，该数据集也是本文实验中的主要遮挡来源。在测试网络性能时我们进一步采用了由Liu等人[9]贡献的不规则掩码数据集。该数据集中包含1.2×104张不规则掩码图像，其掩码区域占比从10%扩大到60%，以10%的增量递增。

为了实现数据增强，所有图像在进入网络参与训练前在垂直或水平方向进行随机翻转。本文实验均在大小为256×256的图像上进行。硬件设施为一块RTX 3090显卡及12核CPU，实验环境为Ubuntu操作系统，Python 3.8.10，搭配PyTorch 1.8.1深度学习框架及11.7版本CUDA。网络初始训练学习率为10-4趋于收敛后调整为10-5，批处理大小为4，Adam优化动量分别设置为0和0.9。

4 结果与分析

4.1 定量分析

为了更加公平地评价对比网络与本文网络的修复性能，我们采用普及面最广的PSNR（峰值信噪比）、SSIM（结构相似性指数）、L1误差以及LPIPS（图像感知相似度）对各网络的生成结果进行测试。测试图像尺寸均为256×256，为了保证测试的公平性，实验使用在Celeba_HQ测试集中随机抽样的1 000张图片在手势遮挡的情况下进行修复测试，且对不同的算法在测试时均使用相同的图像掩码对，最后对修复结果评价指标取平均值进行比较。

實验将EdgeConnect[10]、上下文注意力[11]（CA）和本文算法EmmNet进行对比测试。同时，为了验证本文方法中各环节的有效性提出对比实验：A组（EdgeConnect + 多扩张卷积结构）；B组（EdgeConnect + Attention结构）。本章将就以上五种修复网络各自的输出结果进行定量和定性分析比较，评价结果如表1所示。

从表1中可以看出，EmmNet网络及其两个对照组实验结果在四个评价指标上都获得了较好的数值结果。具体而言，与原网络模型相比，EmmNet在结构相似度指标上提高了5‰，在峰值信噪比指标上提高了0.57，且其图像感知相似度和L1误差指标均有所降低，这说明网络在去手势遮挡修复中的生成内容更符合人类视觉感知，且与原图更加接近，失真更少，精度更高。通过观察对照组实验指标可以发现，相较于原模型，A组（Edge+GM）在PSNR指标上增加了0.45，B组（Edge+Att）在PSNR指标上增加了0.40。在SSIM指标上A组和B组均有所增加，说明多扩张卷积块与注意力结构可以帮助提高整体网络的生成性能。

为了更近一步探索EmmNet在不规则遮挡方面的表现力，我们将其与原EdgeConnect和两组对照模型在5组不规则遮挡图像中进行测试，五组掩膜的遮挡面积占比以10%～50%递增。测试数据如表2所示，测试结果如图2、图3所示。与EdgeConnect相比，当缺损面积在0%～10%之间时参数增量最大，达到4.2，这说明多扩张率的卷积结构在关注较远上下文的同时还可以关注到局部的修复效果。当缺损比达到50%时，PSNR值分别增加2.35和0.55。LPIPS值缩小0.621，进一步说明模型在扩大感受野以获取相似结构以及生成更符合人类视觉特征的纹理信息上具有明显的优势。

4.2 定性分析

图2中列举了包含原Edgeconnect修复网络、上下文注意力网络、本文提出方法以及两项对照组实验的部分修复结果，图中红框标识位置为重点对比区域。从图中第一行对比结果中可以看出，即使输入图像中已经缺失完整的眼、鼻、唇结构，EmmNet依旧可以对其进行修复，且相比较而言，唇、鼻轮廓完整清晰，眼部结构也十分贴合原图特征，整体效果流畅自然。从图中第二三行对比结果中可以看出，修复后的图片虽然与原图特征略有不同，但眼部结构及细节真实自然，难以发现修复痕迹。图中第四行展示了网络对面部轮廓的修复效果，EmmNet的轮廓过度更加自然且没有出现模糊的现象。相较而言，上下文注意力修复会引入明显的伪影和略显突兀的纹理信息。原EdgeConnect网络由于受边缘输出的限制会出现结构缺失和弱化的现象，而经过改进的EmmNet网络则完美地结合了二者的优势，生成的面部图像结构更加完整合理，细节纹理也更为清晰，符合人类的视觉感知。

5 结论

本文针对人脸去手势遮挡任务提出一种基于边缘条件和注意力机制的两阶段修复网络——EmmNet。由于人脸图像具有鲜明的结构特征，因此加深对其结构的把握可以有效提升图像的修复效果。针对这一特征我们采用边缘这一辅助的预测信息指导修复过程，促进网络对人脸五官结构的重塑。为了加强对有效像素的利用，网络放弃了直接堆叠的单扩张率空洞卷积而采用具有不同扩张率的卷积并行结构，以此提高对真实像素点的利用率。此外，注意力模块的使用也可以帮助缺失区域匹配相似的信息，提高图像的全局和局部一致性。

参考文献：

[1] 刘晓磊.基于生成对抗网络的口罩遮挡人脸修复与识别的研究 [D].成都：电子科技大学，2022.

[2] 罗海银，郑钰辉.图像修复方法研究综述 [J].计算机科学与探索，2022，16（10）：2193-2218.

[3] RUMELHART D E，HINTON G E，WILLIAMS R J. Learning internal representations by error propagation [EB/OL].[2023-03-12].https：//dl.acm.org/doi/10.5555/65669.104449.

[4] GOODFELLOW I J，POUGET-ABADIE J，MIRZA M，et al. Generative adversarial nets [J/OL].arXiv：1406.2661v1 [stat.ML].[2023-03-15].https：//arxiv.org/pdf/1406.2661v1.pdf.

[5] ZENG Y，FU J，CHAO H，et al. Aggregated contextual transformations for high-resolution image inpainting [J/OL].arXiv：2104.01431 [cs.CV].[2023-03-05].https：//arxiv.org/abs/2104.01431.

[6] VOO K T R，JIANG L M，LOY C C. Delving into high-quality synthetic face occlusion segmentation datasets [C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops （CVPRW）. New Orleans：IEEE，2022：4711-4720.

[7] LEE C H，LIU Z W，WU L Y，et al. Maskgan： Towards diverse and interactive facial image manipulation [EB/OL].[2023-02-25].https：//www.zhangqiaokeyan.com/academic-conference-foreign_meeting_thesis/020515722406.html.

[8] AFIFI M. 11K Hands： Gender recognition and biometric identification using a large dataset of hand images [J].Multimedia Tools and Applications，2019，78（15）：20835-20854.

[9] LIU G，REDA F A，SHIH K J，et al. Image inpainting for irregular holes using partial convolutions [EB/OL].[2023-02-29].https：//openaccess.thecvf.com/content_ECCV_2018/html/Guilin_Liu_Image_Inpainting_for_ECCV_2018_paper.html.

[10] NAZERI K，NG E，JOSEPH T，et al. EdgeConnect： generative image inpainting with adversarial edge learning [J/OL].arXiv：1901.00212 [cs.CV].[2023-02-14].https：//arxiv.org/abs/1901.00212.

[11] YU J H，LIN Z，YANG J M，et al. Generative image inpainting with contextual attention [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City：IEEE，2018：5505-5514.

作者简介：欧静（1997—），女，汉族，陕西汉中人，硕士研究生在读，研究方向：计算机视觉、图像生成与分析；通讯作者：文志诚（1972—），男，汉族，湖南东安人，教授，硕士研究生导师，博士研究生，研究方向：计算机视觉、数字图像处理、模式识别。

收稿日期：2023-04-07