APP下载

图像修复方法研究综述

2022-10-16罗海银郑钰辉

计算机与生活 2022年10期
关键词:纹理卷积图像

罗海银,郑钰辉

1.南京信息工程大学 计算机学院、软件学院、网络空间安全学院,南京210044

2.南京信息工程大学 数字取证教育部工程研究中心,南京210044

图像修复技术最早源于艺术家们通过修复受损的艺术绘画或照片,使其质量尽可能地接近原始图像。在计算机视觉和图形环境中,它通常被定义为恢复破损图像缺失区域像素,使观察者无法察觉图像曾经缺损或已被修复。图像修复既是计算机视觉任务中的基础技术,又是图像处理任务的重要组成部分,也是目前比较有前景的研究领域之一。图1给出了图像修复示例图。

图1 图像修复示例图Fig.1 Example of image inpainting

图像修复的意义不仅仅在于目前研究方法的逐步改进,更在于其在实际生活中的应用,主要应用于:(1)对象移除。删除图像中不需要的对象并修复对象遮挡区域,可视为图像篡改的一种特殊任务。(2)修复图像。修复图像中因处理不当造成的像素丢失,例如划痕、泛黄等。(3)图片修饰。对不同人员的照片进行修饰,去除皱纹、痣等面部特征。(4)文字移除。删除图像中不需要的文字、水印、照片日期等文字目标并修复图像。因此该研究具有极大的发展前景,也受到研究人员的广泛研究。

传统的图像修复方法利用图像样本相似度、结构纹理一致性等思想,结合数学、物理理论构建算法模型修复小区域破损图像。然而当修复大程度破损区域或具有混合语义纹理、复杂结构图像时,其生成修复图像与原始图像差异较大。这是由于传统图像修复方法无法有效获取图像深层特征信息,例如内容对象、内容语义信息等。

伴随深度学习技术的崛起,研究者尝试引入深度学习模型于计算机视觉任务中并卓有成效。受此启发,基于深度学习的图像修复方法应运而生,它通过在深度模型基础上引入不同的约束条件优化模型修复图像。其中,修复效果较为突出的深度学习模型有Rumelhart 等人提出的自编码器(auto-encoder,AE)、Ronneberger 等人提出的U-Net、Goodfellow等人提出的生成对抗网络(generative adversarial network,GAN)、Vaswani 等人提出的Transformer等。它们通过训练深度模型获取图像高层语义信息,学习图像结构纹理信息修复大区域破损图像,这类方法解决了传统图像修复不足的问题,并且取得了出色的修复效果。

尽管图像修复任务在计算机视觉领域占据着重要地位,然而相关的全面综述性工作少之又少。基于此,本文针对图像修复方法进行了系统性全面研究,分析并阐述了不同类型的图像修复方法、常用数据集、评价指标、方法实验对比、不足及未来展望。同时希望本文的研究内容能给予相关研究工作者一定的帮助。

1 传统图像修复方法

传统图像修复方法通常依据破损图像内容、结构以及纹理间的相似性预测图像缺失区域像素,根据修复思想的不同,它可以被分为基于偏微分方程(partial differential equation,PDE)的图像修复方法和基于样本的图像修复方法。

1.1 基于偏微分方程的图像修复方法

基于偏微分方程的图像修复方法又叫基于扩散的方法,它是指利用数学或物理学中的偏微分方程,将图像已知区域像素平滑传播到缺失区域中以修复破损图像。基于偏微分方程的图像修复方法特点如表1 所示。表中显示出了不同修复方法的使用思想、方法优势以及方法局限性。

表1 基于偏微分方程的图像修复方法特点Table 1 Characteristics of image inpainting methods based on partial differential equation

该类方法最初由Bertalmio 等人将PDE 思想引入图像修复任务,提出了BSCB(Bertalmio-Sapiro-Caselles-Ballester)模型,他们将图像已知信息沿等光线方向平滑传播于缺失区域,以自动修复图像;随后,Bertalmio 等人接连提出通过图像灰度级和向量场的联合插值填充图像和使用流体动力学将等光线平滑传播到待修复区域,然而这些方法均不能修复大尺度破损或具有复杂纹理的图像。

受此启发,Chan 和Shen 引入整体变分(total variation,TV)模型于修复任务中,通过最小化能量泛函已完成图像补全;同年他们继续改进TV 模型继而提出了利用曲率驱动扩散思想的CDD(curvature driven diffusion)模型、Mumford-Shah-Euler 模型、Euler's Elastica 模型以解决TV 模型修复局限性。

同时,越来越多的研究者也通过新的优化思想改进以上模型。周密等人通过对破损区域边缘各个参考点设置权值来确定其对目标区域的影响程度,以改进TV 模型不足;田艳艳等人则是提出了非线性扩散模型改进CDD 模型,以稳定梯度值较小的等照度线;李薇等人在BSCB 模型基础上,使用各向同性扩散进行快速信息推进,再使用各向异性扩散沿等照度方向进行信息扩散以修复图像;而刘庚龙等人于TV 模型中引入边界引导函数保证图像边缘清晰、过渡自然。

上述基于PDE 的图像修复方法修复小区域破损图像时,可以生成合理的纹理样本;然而当缺失区域较大时,该类方法在传播过程中会导致修复时间过长且修复图像模糊不清晰,因而无法产生良好的修复结果。

1.2 基于样本的图像修复方法

基于样本的图像修复方法通过计算并搜索破损图像缺失区域与已知区域相似度最高的样本,并将其复制粘贴到缺失区域内以修复破损图像。基于样本的图像修复方法特点如表2 所示。

表2 基于样本的图像修复方法特点Table 2 Characteristics of image inpainting methods based on patch

最初,Efros 和Leung 提出了基于马尔科夫随机场的非参数纹理合成修复方法,但它需要花费大量时间来计算样本间相似度分数;基于此,Wei和Levoy等人(后简称为WL 算法)使用了多分辨率金字塔结构设计以减少计算时间;受其启发,Ashikhmin改进WL 算法以加快算法修复速度且生成合理自然的纹理样本。之后研究者试图使用图像已知内容补全图像,Drori 等人通过已知图像训练集上下文内容指导算法迭代完全图像修复;同时,Levin 等人则于修复任务中引入统计学思想,通过基于局部特征的直方图在图像上构建指数族分布寻找与已知图像最为相似的样本。

为了获得图像的结构和纹理信息,Criminisi等人在Efros 模型基础上复制结构和纹理信息传播到破损图像的缺失区域,但Criminisi 算法使用的计算相似度函数相对不稳定导致样本填充次序错误。针对Criminisi 算法填充次序不准确,张申华等人引入曲率和梯度信息以获得更加可靠的样本修复次序;方宝龙等人则通过在Criminisi 算法优先权函数中引入像素间颜色差值信息;赵娜等人使用马尔科夫随机场作为Criminisi 算法的匹配准则以提高图像纹理细节;Barnes 等人通过使用快速最近邻算法搜索相似度最高的样本,它可以降低搜索过程中的内存消耗和计算成本。

上述方法通常适用于破损图像已知区域与缺失区域具有相似纹理样本的情况,为了解决这一不足,Hays 等人在外部数据库中搜索与破损图像相似的图像,提取相似图像的区域信息用于填充破损图像,然而当外部数据库中没有与破损图像相似的图像时,检索数据库会花费大量时间并且难以获得高质量的修复结果。

基于样本的图像修复方法对于缺失区域较大且纹理结构简单的图像修复可以生成高质量的修复结果,但计算样本间相似度需要大量时间;同时,由于无法获得图像高层语义信息,在修复结构和纹理复杂的破损图像时,会出现语义错误、边缘断层等不足。

1.3 传统图像修复方法局限性

传统图像修复方法虽然在修复简单纹理图像时可以生成合理的图像样本,然而由于缺乏对图像高层语义的理解,这类方法修复复杂结构图像时无法产生语义一致且视觉合理的修复结果。随着深度学习的深入研究,越来越多的研究者试图将深度学习模型引入图像修复中,生成更好的修复结果。

2 基于深度学习的图像修复方法

近年来,随着深度学习在图像处理任务的深入研究并卓有成效,不少研究者们也开始研究深度学习的图像修复技术,他们尝试引入不同的深度技术来实现图像修复并提出了大量的修复方法。本文依据生成图像数量的不同,将其分为单元图像修复方法和多元图像修复方法。基于深度学习的图像修复方法整体分类如图2 所示。其中,单元图像修复方法指对于单张输入图像生成单张修复图像,这也是当前图像修复任务中最常见的修复方法。多元图像修复方法指对于单张输入图像生成多张修复图像,这是近几年开始兴起的图像修复方法。

图2 基于深度学习的图像修复方法整体分类Fig.2 Overall classification of image inpainting methods based on deep learning

2.1 单元图像修复方法

由于单元图像修复方法是修复领域主流研究方向,为了更好地分类并分析这类方法,本文依据模型结构类型不同,将低分辨率图像修复方法细分为Encoder-Decoder 类、U-Net 类、GAN 类和Transformer类。其中部分修复方法可能同时包含多种修复思想,因此本文分类时仅依据其重要修复思想来确定分类。

Encoder-Decoder是一种由自编码器(AE)衍生的模型结构,其模型结构如图3 所示。它由编码器、解码器组成,其中编码器可以将输入数据压缩为潜在空间表示,解码器将习得特征进行重构并输出。它可以有效利用图像已知内容信息,生成与原图像较为相似的内容,在修复任务中效果优越,同时由于其模型结构较为简单,Encoder-Decoder 类方法已逐渐成为近些年较为流行的修复方法,Encoder-Decoder 类图像修复方法特点如表3 所示。表中显示出了不同修复方法的应用图像分辨率、损失函数、方法类型、方法优势以及方法局限性。

图3 编码器-解码器模型结构Fig.3 Structure of Encoder-Decoder model

表3 Encoder-Decoder类图像修复方法特点Table 3 Characteristics of Encoder-Decoder image inpainting methods

Encoder-Decoder 类较为经典的方法为Pathak 等人提出的基于上下文信息的无监督特征语义修复方法CE(context encoders)。它可以根据图像缺失区域周围特征信息生成图像任意区域内容,设计了上下文编码器结构结合生成对抗思想来修复图像,并使用重建损失联合对抗损失训练上下文编码器。其中,重建损失旨在获取图像缺失区域的语义信息并保证修复图像上下文连贯性,对抗损失则确保修复图像更加真实;然而,其对抗损失仅应用于图像缺失区域,忽略了图像全局区域,这一设计会使修复图像出现边缘连接不连续且整体结构不一致。

针对CE不足,Iizuka 等人引入上下文局部鉴别器用于生成图像全局和局部语义一致的修复图像,同时模型引入了空洞卷积层增加获取特征的感受野。Liao 等人在CE基础上提出了边缘感知上下文编码器预测图像边缘结构,并使用全卷积网络补全图像边缘信息,然后输入修复边缘图、破损图像于改进CE以实现图像补全。Vo 等人通过引入结构损失于CE模型的第一个训练阶段,第二个训练阶段则是使用对抗损失优化模型结构,这一设计可以实现各种视觉场景的结构修复。

为了获得图像结构合理的实验结果,研究者尝试引入先验信息指导图像结构修复,Yang 等人设计使用残差块替代CE中的卷积层设计了一个空间上下文编码器联合结构嵌入为生成器提供结构先验信息,并试图训练一个共享生成器同时修复破损图像结构(边缘和梯度)信息来补全图像。Cao 等人继续通过编码器-解码器学习草图张量空间来恢复图像的边缘、线条和连接点进而对图像整体结构进行可靠预测,同时作者在网络中引入了门控卷积和高效注意力模块,以节约成本的条件下显著提高模型性能。Wang 等人使用多列结构将图像分解为具有不同感受野和特征分辨率的分量以预测不同尺度图像的全局和局部结构特征信息,同时联合隐式多样化马尔科夫随机场项将获得的预测结构信息扩散到缺失区域。

针对简单编解码器结构的不足,Liu 等人提出了一种交互编码器-解码器网络,使用多尺度思想联合修复图像的结构和纹理信息,并联合双边传播激活函数来均衡图像结构和纹理特征一致性,它有效去除了缺失区域周围的模糊和伪影。刘微容等人提出一个多级解码网络,使用一个主解码器和多个副解码器细化编码阶段各层特征信息,这一设计可以充分利用不同尺度的图像特征信息并生成更加精确、视觉合理的修复结果。

上述两阶段网络结构的图像修复方法需要堆叠卷积层获取图像特征信息。因此其会消耗较大的计算成本。针对这一局限性,Sagong 等人提出了一个由共享编码网络和并行解码网络组成的图像修复方法,以减少修复计算成本和测试时间;并使用语义注意力模块(contextual attention module,CAM)重建图像语义特征信息进而生成语义合理的修复图像。之后,Sagong 等人继续在PESPI的基础上提出了速率自适应扩张卷积层,根据给定的扩张速率获得特征信息从而降低成本;同时设计了区域集成鉴别器集成全局和局部鉴别器,通过单独计算每个像素的对抗损失用于处理任意形状的缺失区域。Suin 等人则使用知识蒸馏思想和注意力转移技术实现主编解码器和辅助编解码器的图像信息转移;此外,作者设计了一个像素全局-局部一致结构用于融合图像全局与局部特征信息。文献[41,43-44]可以在不明显降低修复效果的同时,有效降低模型的参数量和计算量。

之前的修复方法仅仅利用了图像自身特征,却忽略了对应掩码信息。基于此,Yu 等人使用空间区域归一化替换特征归一化,以对缺失区域和已知区域像素进行归一化并预测图像可能存在的缺失区域,它可以有效提高损坏区域重建能力,且RN 模块为即插即用模块使用方便,但其对于具有混合场景图像的修复难以生成合理的区域划分。Zhu 等人在编码器中引入了掩码感知动态滤波模块直接利用掩码信息处理任意形状的缺失区域;同时作者设计了恢复解码器和细化解码器联合逐像素归一化更好地利用掩码信息进而细化图像特征。李健等人设计了双编码器模型分别对图像和掩码进行编码,使用掩码信息重建图像样本生成;同时在图像生成阶段使用跳跃连接加快模型收敛。

为了提高修复图像的质量,Xu 等人在编码器、解码器中结合补丁匹配、检索和生成机制从背景区域中提取图像样本的纹理信息引导纹理生成,它结合了基于样本和基于深度学习的优点,使用反向传播的补丁匹配和检索纹理记忆修复图像。Wang等人设计了一个多分辨率部分卷积的并行修复网络,低分辨率分支修复全局结构,高分辨率分支修复局部纹理细节;此外,模型结合掩码感知和注意力引导图像结构和纹理信息的生成。

虽然图像修复方法取得了极大进展,但在细粒度和大区域的修复方面仍存在很大的提升空间。据此,曹承瑞等人提出在AE中使用多级注意力进行特征信息传播以实现不同尺度的图像特征细化修复。Yu 等人在编解码器中引入小波变换思想分别在多个频带上进行图像修复;且使用频域注意力归一化,将注意力从低频聚合到高频以对齐和融合多频特征,它可以确保跨频段的特征一致性并能够有效抑制伪影和保留纹理细节。

现存图像修复方法生成高分辨率图像时存在颜色不一致的伪影现象,针对这一不足,Song 等人将修复任务分为推理和翻译阶段,其中推理阶段根据样本间相似度将缺失区域内的每个神经样本替换为边界上最相似样本,翻译阶段学习交换特征图特征信息进而映射出完整且清晰的修复图像。Wang等人引入外部-内部修复思想于修复任务中,在外部学习阶段重建图像缺失结构和细节,在内部学习阶段使用渐进式内部颜色传播方法实现颜色一致修复,它可以生成有效结构且视觉上优秀的修复结果,且能够有效消除颜色不一致的伪影。

U-Net为Ronneberger等人提出的用于图像分割领域的一种深度网络结构,它基于全卷积网络改进而来,其网络结构如图4 所示。它由左侧下采样路径和右侧上采样路径组成,并使用跳跃连接融合不同尺度的图像特征。右侧最后一个上采样卷积输出特征是由左侧第一个下采样卷积输出特征与其上一个上采样卷积输出特征融合得到,以此类推。受该特征融合方式启发,研究者们尝试使用U-Net 结构进行图像修复,它独特的特征融合方式可以学习图像不同尺度的特征信息并进而重建出合理的图像纹理和结构。基于此,U-Net被广泛应用于图像修复中并衍生出大量的图像修复方法,U-Net 类图像修复方法特点如表4 所示。

表4 U-Net类图像修复方法特点Table 4 Characteristics of U-Net image inpainting methods

图4 U-Net模型结构Fig.4 Structure of U-Net model

U-Net类方法最初由Yan等人提出在U-Net结构中引入移位连接(shift connection,SC)层的图像修复方法Shift-Net,它使用SC 层替换全连接层以转移图像背景区域特征信息,这一设计可以处理任意形状的缺失区域,并且可以在更短的时间内得到更加精细的纹理和视觉上合理的修复结果。Guo 等人使用U-Net 思想提出了一种全分辨率残差网络(full-resolution residual network,FRRN)用于逐步修复不规则缺失区域,FRRN 由多个全分辨率残差块(full-resolution residual block,FRRB)和空洞模块构成,其中FRRB 有助于网络收敛和纹理预测,空洞模块有助于增加特征感受野,然而它需要较大的模型参数量。

针对修复结果存在颜色差异、模糊和边缘不一致不足,Liu 等人在U-Net 结构中使用带有自动掩码更新的部分卷积来实现图像修复且无需任何额外后处理操作,有效消除了伪影问题,但其自动更新掩码机制存在不稳定性。Hong 等人采用融合块作为自适应模块,将图像的未知区域与原始图像结合起来,使结构和纹理信息可以自然地从已知区域传播到缺失区域中,它可以生成平滑的边缘过渡细节。

随后,Zeng 等人在U-Net 结构上引入了多尺度编解码器结构,并且在模型中逐层使用注意力转移网络从深到浅地逐层填充图像的缺失区域;同时作者使用跳跃连接将从注意力转移网络学习到的重构特征和潜在特征解码得到修复图像以确保图像的视觉和语义修复结果。Qin 等人则是基于U-Net 结构引入了多尺度注意力单元以捕获不同感受野的深层特征,且设计了基于最大感受野的掩码更新思想旨在预测边缘区域像素。Wang 等人在U-Net编码器中采用分层金字塔卷积和动态归一化机制以获取不同感受野的图像特征图,解码器中使用金字塔注意力机制以学习更加精细的特征信息。

上述图像修复方法缺乏考虑图像全局和局部像素连续性,Liu 等人设计了一种连贯语义注意层(coherent semantic attention,CSA),将其引入U-Net结构中以预测图像缺失内容,它可以保留图像上下文结构,并且学习有效的图像缺失区域特征间的语义相关性;然而CSA难以学习图像缺失区域和已知区域间的对应关系,可能会导致修复结果出现伪影,且它需要计算整个特征图的样本间相似度,计算成本高。Quan 等人设计了一个具有小感受野的局部细化网络获取图像局部结构和纹理细节,一个基于注意力的具有大感受野的全局细化网络进一步提高图像修复结果。

针对图像缺失区域信息未被充分利用,Xie等人在U-Net 结构上引入了可学习的注意力图模块用于端到端的学习特征重新归一化并自动更新掩码,这一设计能够有效地适应不规则孔洞和卷积层的传播;同时作者使用正向和反向注意力图构成可学习的双向注意图,促使其解码器更加专注于填充不规则的缺失区域。Wang 等人提出了一个包括掩码预测和鲁棒修复的两阶段视觉一致性网络用于盲修复任务,掩码预测阶段预测掩码区域,鲁棒修复使用概率上下文归一化方法修复预测掩码区域;该方法对视觉不一致的图像具有鲁棒性,有利于各种图像修复任务,实际应用更广。Wang 等人使用动态选择机制区分图像已知区域和未知区域,有效学习已知区域特征信息,并且作者设计了可迁移卷积动态选择空间卷积位置、区域复合归一化融合三种归一化方法动态归一化图像已知区域。

虽然之前的结构指导图像修复方法取得了较大进展,然而它们往往难以生成有意义的图像结构。据此,Li 等人在U-Net 结构中重复堆叠了四个视觉结构重建层构成生成器,旨在逐步恢复图像视觉结构;鉴别器由PatchGAN鉴别器与光谱归一化相结合组成;它可以帮助模型逐步恢复丢失的结构(边缘)进而生成图像丢失的细节。Liao 等人设计了语义引导和评估机制,相互作用以为破损图像生成准确的语义信息指导图像修复可以有效地提高图像修复的性能。Guo 等人将图像修复任务分为结构约束的纹理合成和纹理引导的结构重建两个相互作用的子任务,它们单独建模并相互补充相互作用以获得更合理的生成样本。

为了更好地修复具有复杂背景的图像,Wang 等人将U-Net底层卷积层替换为扩张卷积并使用多尺度注意力模块,设计了一个U-Net生成器以使生成结果更为清晰;同时引入风格损失和感知损失优化模型以生成一致的图像风格,引入对抗损失以生成精细的纹理细节。Liao 等人使用U-Net 架构联合语义注意传播模块获取图像远距离语义相关性,进而跨尺度细化完整的图像纹理;同时作者还提出了样本和结构相关性损失来确保修复图像的整体结构和详细纹理的一致性。Li 等人设计了一个即插即用的循环特征推理模块,它利用相邻像素间相关性加强预测深层像素的约束,进而以较低的计算成本增强了网络的修复能力。

现存基于CNN(convolutional neural network)的图像修复方法一般选择通过堆叠卷积层来建立远距离特征之间的联系,但是由于模型深度增加而导致了模型训练时间长、参数大等问题。基于此,Yi 等人通过加权聚合来自上下文样本残差作为缺失内容生成高频残差,因此其只需要粗略的低分辨率预测结果;同时作者使用了注意力模块计算注意力得分,并在U-Net结构上进行注意力转移,这一设计可以在多尺度上提升图像修复质量;此外,作者还设计了一个轻量级门控卷积网络降低模型内存成本和计算时间。

GAN是由Goodfellow 等人提出的一种利用零和博弈思想预测生成模型的网络框架,其框架结构如图5 所示。它由生成器(generator,G)和鉴别器(discriminator,D)组成,其中G 根据随机噪声生成图像,D 用于判断生成图像是否真实,G 和D 不断博弈直至达到平衡。正因这种对抗思想,生成图像能更接近原始图像,因此研究人员尝试将GAN 思想引入图像修复任务并取得了较优的修复结果。CE是首次将生成对抗思想应用于图像修复任务的尝试,并且取得了有效的进展,这为后续图像修复的研究提供了坚实的基础。GAN 类图像修复方法特点如表5所示。

表5 GAN 类图像修复方法特点Table 5 Characteristics of GAN image inpainting methods

图5 生成对抗网络模型结构Fig.5 Structure of GAN model

由于GAN更适用于人脸图像的修复,Yeh等人使用预训练的深度卷积GAN(deep convolution GAN,DCGAN),结合先验知识和上下文损失来预测缺失区域内容,然而预训练的GAN 不稳定,容易坍塌。Li等人则在CE基础上加入了解析网络确保生成样本更加逼真,局部鉴别器获取人脸图像局部细节。Sun 等人使用DCGAN设计了一个基于U-Net的面部标志生成器生成合理且逼真的头部修复细节。

之后,Dolhansky 等人则是设计了一个示例GAN,利用已知区域的示例信息来实现自然图片的闭眼修复。Liao 等人使用协作GAN 联合学习图像的语义分割、地标检测和面部补全任务,以实现结构准确的面部修复。其后,为了生成视觉合理的人脸面部结构,Zhang 等人设计了一个域嵌入GAN,通过分层变分AE将三种人脸特征嵌入到空间中,并使用两个基于PatchGAN的鉴别器来判断人脸面部是否真实。

由于CNN无法捕获远距离特征,当在修复高分辨率图像时,会生成模糊且边界不一致的伪影。据此,Yang 等人提出了内容约束和纹理约束两个步骤修复图像,其中内容约束通过训练CE生成器预测粗略修复结果,纹理约束使用多尺度神经样本合成方法重复计算局部神经样本相似度以预测图像纹理细节。为解决文献[84]修复大缺失区域时会出现伪影的不足,Zeng 等人使用每次迭代中置信度值最高的像素来逐步填充缺失区域,并在下次迭代中根据置信度值关注剩余像素,这一设计将先前迭代像素视作已知区域,可以逐步改善修复结果;同时模型使用指导上采样网络并引入语义注意力模块实现高分辨率图像修复。文献[84-85]虽然可以修复高分辨率图像的精细纹理细节,然其需要重复迭代计算相似度,计算资源大。

为了消除修复图像伪影生成且生成更高质量的高分辨率修复结果,Yu 等人引入空洞卷积于修复网络中以扩大卷积层感受野,且使用上下文注意模块远距离寻找最相似的样本块填充图像;同时作者在模型中引入了全局和局部Wasserstein GAN联合空间衰减重建损失以提高训练稳定性和速度。然而文献[42]没有考虑缺失区域内部特征间的相似性,修复结果会出现边缘伪影、边界像素不一致的现象。基于此,Yu 等人提出了一个用户草图指导图像修复的方法,通过引入门控卷积解决卷积层错误判断像素的不足,并且使其可以提高图像颜色一致性和修复不规则区域图像质量;同时作者提出了一个修复不规则缺失区域的样本鉴别器SN-PatchGAN,以生成高质量的修复结果并加快训练速度。

上述方法缺少结构信息,这会导致不同物体间的边界模糊,基于此,Song 等人首次将语义分割引入修复任务,提出了先分割后修复的方法,它首先使用生成器预测分割标签,接着使用分割信息引导修复,最后使用多尺度PatchGAN的鉴别器判断生成图像真假。然而当破损图像背景混乱或冗杂时,图像语义信息较难准确区分,因此Xiong 等人首先使用深度模型学习图像前景特征以预测轮廓信息,并使用由PatchGAN组成的轮廓鉴别器判别预测轮廓,之后使用预测轮廓信息指导破损图像补全;它能够生成自然轮廓信息,有利于图像修复。

虽然结构先验指导图像修复提升了修复性能,却忽略了图像的纹理细节。因此,Ren 等人设计了结构重构器和纹理生成器,其中结构重构器旨在恢复图像全局结构,纹理生成器引入外观流合成高频纹理细节。Nazeri 等人则是结合边缘先验信息和PatchGAN的修复模型预测图像边缘信息,进而指导图像修复。之后,王富平等人设计了门卷积GAN,它由边缘连接GAN 和图像补全GAN 组成,使用门卷积学习更大感受野的人脸结构信息。它们可以有效避免结构预测错误对图像修复结果的影响,并且适用于部分高度结构化场景图像。

为了加快推理修复速度,Lahiri 等人训练一个PG-GAN和深度神经网络从给定的破损图像中获取噪声特征信息,并使用噪声先验信息指导预训练GAN 修复图像;增加噪声先验知识有利于提高样本数据集质量,且获得更好的姿势和方向特征。Zeng等人在PatchGAN生成器引入上下文重建损失,通过保留和推动复制粘贴图像上下文特征信息填充缺失区域。

针对大缺失区域的像素填充,Zhang 等人将课程学习思想引入修复任务中,并使用长短期记忆框架串行所有子任务;它可以提高修复速度和效率,然而它并不适用于不规则缺失区域的修复。虽然文献[94]对于混合场景修复取得了有效进展,然其仍有改进空间。因此,Ardino 等人通过删除用户指定图像部分并在该场景中插入新对象(例如汽车、行人)来修复复杂城市场景。作者设计了一个基于空间自适应归一化的生成器,结合语义分割和生成任务以更好地指导新对象和场景的生成,并且保持语义一致。

图像修复在细粒度的纹理细节修复上仍存在较大提升空间。因此,Hui 等人设计了一个密集多尺度融合块,它由四组空洞卷积组成以获得更大和更有效的感受野;同时模型使用了VGG 特征匹配损失和自导回归损失训练GAN,在一定程度上纠正了语义结构错误。李克文等人在修复中引入了多尺度鉴别器,其中不同尺度的鉴别器具有不同的感受野以生成更加精细的细节,并结合WGAN(Wasserstein GAN)思想介绍梯度消失或爆炸的不足。Zeng 等人继而提出了一种聚合上下文转换GAN(aggregated contextual-transformation GAN,AOTGAN)用于实现高分辨率的大缺失区域细粒度纹理合成,其中AOTGAN 由生成器和鉴别器组成,生成器由多个AOT 块堆叠而成以聚合来自不同卷积层感受野的上下文转换,从而获取到合理的远距离图像内容进而预测上下文缺失内容;鉴别器使用基于掩码预测模块的PatchGAN有效鉴别真实和合成纹理。

Transformer是由Vaswani 等人提出的一种使用自注意力机制连接编码器和解码器的一种新的网络架构,其网络结构图如图6 所示。

图6 Transformer模型结构Fig.6 Structure of Transformermodel

Transformer 由编码器和解码器组成,其中编码器由6 个相同的层组成,每个层包含多头自注意力机制、全连接前馈网络两个子层,每个子层都使用一个残差连接并进行层归一化;解码器同样由6 个相同的层组成,每个层包含掩蔽多头自注意力机制、多头自注意力机制和全连接前馈网络3 个子层,每个子层都使用一个残差连接并进行层归一化。Transformer通过使用自注意力机制有效解决了卷积层只能获取局部感受野的不足,最初被用于机器翻译任务并取得了较大进展。因其不需要递归和卷积,所需训练时间更短,研究人员将其引入修复任务以学习图像全局内容,进而实现较大缺失区域的图像补全。Transformer类图像修复方法特点如表6 所示。

表6 Transformer类图像修复方法特点Table 6 Characteristics of Transformer image inpainting methods

基于此,Zhou 等人首次提出使用Transformer修复复杂场景图像,模型首先根据原始图像的预测深度图对齐目标图像以实现图像的粗略修复,之后作者设计了颜色空间转换器以实现图像的颜色和空间匹配,最后使用融合模块合并上述修复结果;它可以修复含复杂深度的大缺失区域图像,然其并不适用于低光照或极端照明环境变化的图像。随后,Wang等人设计了一个两阶段盲人脸修复方法,它首先使用频率引导Transformer通过学习图像上下文间的关系以检测图像的缺失区域,随后通过自上而下的细化编码器-解码器架构来分层修复图像特征,以生成语义一致的缺失内容;然而该模型难以修复图像中的较小视觉区域。

为了实现高保真图像的细节修复,Zheng 等人提出了一个基于Transformer的编码器获取低分辨率图像的粗略结果,随后在细化阶段使用自适应注意力感知层实现图像的语义转移,以获取较高质量和分辨率的图像。Dong 等人设计了一个增量Transformer 结构修复网络,它分别使用掩蔽位置编码提高模型对于不同掩码的泛化能力,Transformer结构恢复器恢复图像结构,结构特征编码器对图像结构特征进行编码和傅里叶CNN 纹理恢复器修复图像的纹理信息,这些设计可以提高模型修复大缺失区域的性能。

2.2 多元图像修复方法

虽然图像修复任务已取得了卓然成就,然而研究人员仍重点研究单元图像修复方法。图像修复是一项不稳定的任务,它的输出结果不应受到限制,应是具有多样性的,只要保证输出结果合理自然便可以认作是较好的修复结果。基于此,研究人员尝试使用VAE、卷积变分自编码器(convolutional variational auto-encoder,CVAE)、GAN等模型架构以实现多张修复图像,并提出了部分多元图像修复方法。多元图像修复方法特点如表7 所示。

表7 多元图像修复方法特点Table 7 Characteristics of pluralistic image inpainting methods

鉴于此,Han 等人首次提出了一个两阶段框架的多元时尚图像修复方法,它使用形状生成网络和外观生成网络分别生成图像的形状和外观,每一个生成网络都有一个重建图像的生成器、两个交互的编码器网络以实现图像的多样性。Dupont 等人引入PixelCNN 模型至修复任务中,进而提出了一个像素约束CNN 以可见像素为条件的图像分布中执行概率语义修复的模型。

上述修复方法缺乏先验特征信息,难以生成较为合理的语义结构。因此,Zheng 等人使用两个并行且连接的训练路径并联合GAN进行多样性修复,分别是重建路径和生成路径,其中重建路径使用VAE 结构学习图像掩码分布,生成路径使用先验信息指导图像进行多样性修复。Zhang 等人在文本引导网络中使用双重多模态注意力机制提取图像缺失区域的显示语义信息,并提出了图像-文本匹配损失最大化生成图像区域和文本语义相似度,它能够得到更丰富的语义信息,并且可以输入不同文本以获得多元化输出结果。

Zhao 等人则试图以掩码图像为先验信息指导网络进行多元化修复,它主要分为三个模块:第一个是条件编码模块,它通过输入掩码图像学习条件分布信息;第二个是流形投影模块,它将掩码分布信息和实例图像空间投影到共同的低维流形空间,学习两个空间之间的一对一映射;第三个是生成模块,以生成多元化图像。

现存多元图像修复方法很难保证每个修复图像质量,可能会生成扭曲结构或模糊纹理。针对这一不足,Peng 等人设计了一个基于分层向量量化变分AE 用于生成图像修复的多样化结构,并使用纹理生成器联合结构注意模块实现图像的纹理真实和结构一致。Liu 等人根据不同随机噪声生成不同的图像内容,作者提出了一个空间概率多样性归一化模块以确保图像生成的多样性和真实性,并联合感知多样性损失以进一步增强网络多样性内容生成能力。

前述使用由粗到细的架构可以实现修复的高质量生成,然而这种方法粗略结果会影响最后的生成结果,因此Phutke 等人认为相比堆叠网络获取较大感受野,以较小的参数量获取不同的感受野能够实现更优秀的修复结果,作者提出了一个轻量级的对抗并发编码器,通过结合不同感受野和并发解码器降低模型计算量,获取多样化生成结果。

随着Transformer在单元修复任务中的卓越表现,Yu 等人尝试将其引入多元修复任务,提出了一个双向自回归Transformer 学习图像的自回归分布以提高模型的远距离获取能力,修复图像的多样化结构;同时模型使用基于CNN的纹理生成器修复图像纹理细节。Wan 等人使用双向Transformer 实现低分辨率图像多样性外观重建,并使用上采样CNN网络经外观先验指导图像高保真纹理细节修复。

虽然多元图像修复取得了较大进展,然而其在大缺失区域、高分辨率等图像修复方面存在不足。为此,Zhao 等人提出了一个协作调制GAN,通过协同调制嵌入条件和随机样式表示以生成多样化且语义一致的图像。受此启发,Li 等人设计了一个掩码感知Transformer 实现高分辨率的大缺失区域图像修复,其中作者提出了一个多头上下文注意力利用动态掩码的有效标记实现信息的远程交互;同时作者提出了一个样式操作模块以确保生成多样性。Liu 等人设计了一个基于样本的向量量化VAE 以非重叠的设计修复破损图像并保持已知区域不变,同时作者提出了一个非量化Transformer 将避免图像信息丢失,从而实现图像多样化预测。

2.3 基于深度学习的图像修复方法局限性

基于深度学习的图像修复方法不仅可以生成语义一致且视觉合理的修复结果,同时可以修复大面积缺失区域和不规则缺失区域的破损图像。但是其仍存在以下不足:(1)该类方法要么生成高质量图像但分辨率较低,要么生成高分辨率图像但图像质量较低;(2)该类方法对于大缺失区域的修复仍然具有较大挑战,修复图像会出现模糊伪影、颜色差异等不合理内容;(3)Transformer 类修复方法虽然可以获取较大感受野,进而对高分辨率图像修复取得较优结果,但是这类方法需要大量计算成本。因此,接下来将重点研究如何在计算成本低的条件下实现高保真图像的修复、高分辨率图像的修复和大缺失区域的修复。

3 数据集和评价指标

3.1 数据集

现有基于深度学习的图像修复方法需要在大量图像上进行实验进而评估方法的有效性,同时它也需要通过训练大量图像进而学习图像特征信息。然而收集图像和对应破损图像是非常困难的,因此研究人员通常在训练和测试时经常会使用公共图像数据集,并在图像中添加掩码图像以生成破损图像。表8 给出了关于图像修复常用数据集的简要描述。表中显示出了不同数据集的类型、提出时间、数据集图像数量、图像分辨率(“—”表示图像分辨率不定)以及使用方法。

表8 常用数据集描述Table 8 Description of common datasets

当前常用图像修复数据集被分为掩码图像数据集和图像数据集。图7 给出了部分掩码数据集示例图像,掩码图像数据集由规则掩码和不规则掩码组成。其中,规则掩码一般为研究人员直接在图像中心或任意位置添加矩形掩码;不规则掩码通常是任意形状的,目前广泛使用的两个大型掩码数据集,分别是Nvidia 不规则掩码数据集和快速绘制不规则掩码数据集。

图7 部分掩码数据集示例图Fig.7 Some mask dataset sample images

图像数据集可以被分为建筑、纹理、街景、场景、人脸数据集。图8 给出了部分图像数据集示例图像。其中,常用建筑数据集为Facade 建筑物图像数据集,它是一个来自世界各地不同城市的立面图像数据集。这类数据集具有结构对称、对象单一、背景简单的特点,因此修复难度低。纹理数据集常见为DTD 数据集,它是一个从Google 和Flickr 收集的真实世界的纹理图像数据集。这类数据集涵盖类别较多、组成复杂、语义相关不明显,因此可以得出相较Facade数据集,增加了一定修复难度。

图8 部分图像数据集示例图Fig.8 Sample images of some image datasets

街景图像数据集包括谷歌街景数字图像数据集SVHN、巴黎街景图像数据集Paris StreetView和城市街景数据集Cityscapes,这类数据集通常是从街景数据集中收集的来自世界各地不同城市的街景图像;场景数据集包含日常场景图像数据集MS COCO、大规模多场景图像数据集ImageNet和自然场景图像数据集Places2,它是从日常场景或野外自然场景中收集得到的图像;这两类数据集包含多个场景语义类别,基本上涵盖了真实世界98%的场景,由于其背景复杂、类别众多,且背景区域占比面积较大,修复难度较大。

人脸图像数据集包含人脸标志数据集Helen Face、大型人脸属性数据集CelebA、CelebA的高质量图像数据集CelebA-HQ和多样化的高质量人脸数据集FFHQ,这类数据集中的图像通常包含大量姿势变化和背景混乱、丰富的注释,其中一张图像一般只包含一张人脸,并且图像背景较为简单,因此相对前四种数据集,其修复难度较低。

3.2 评价指标

为了评估图像修复方法的性能,研究人员研发出了不同的评价指标来评价其生成的修复图像。它可以被分为主观评价指标和客观评价指标,主观评价指标是指利用人类的肉眼感知能力判断生成图像与原始图像是否一致,然而这类评价指标主要依赖于人类的主观判断能力,需要大量的观察者和大量的评价对象才能保证评价结果一致性,这类方法耗时耗力同时需要良好的观测环境;因此,客观评价指标应运而生,它是指使用不同的数学公式对生成图像进行量化评价,常用的客观评价指标特点如表9所示。

表9 给出了图像修复常用客观评价指标的特点,分为:(1)类型,其中全参考是指选择原始图像作为参考图像,比较生成图像与原始图像之间的差异;半参考是指选择部分原始图像作为参考,对生成图像进行比较分析;无参考是指无需原始图像,直接对生成图像进行比较分析。(2)数值大小,其中“↑”表示数值越大图像质量越好,“↓”表示数值越小图像质量越好。(3)作用,评价指标判断图像不同角度的优劣。(4)优势。(5)局限性。

表9 图像评价指标特点Table 9 Characteristics of image evaluation index

(1)平均绝对误差(mean absolute error,MAE)是指修复图像与原始图像像素值间的绝对差值总和的平均值,其主要用于评价修复图像与原始图像的差异。其计算公式如式(1)所示:

其中,表示生成图像;表示原始图像;表示图像像素点总量;表示图像像素点变量。

(2)均方误差(mean square error,MSE)是指修复图像与原始图像像素值间的差值平方总和的平均值,其主要用于评价修复图像与原始图像的相似度。其计算公式如式(2)所示:

(3)通用质量指数(universal quality index,UQI)是一个通过将图像失真建模为相关性损失、亮度失真和对比度失真三个因素的组合来评估图像的质量,它易于计算且适用于各种图像处理任务。其计算公式如式(3)所示:

其中,δ表示原始图像的像素标准差,δ表示生成图像的像素标准差,δ表示生成图像与原始图像的像素协方差。

(4)峰值信噪比(peak signal to noise ratio,PSNR)一般用于评估含噪图像的质量。当PSNR 值为48 dB时,生成图像质量最好。其计算公式如式(4)所示:

其中,表示生成图像中像素信号的最大值,表示生成图像与原始(含噪)图像的均方误差。

(5)结构相似指数度量(structure similarity index measure,SSIM)通过对生成修复图像与原始图像的结构相似度、亮度和对比度三个因素度量进而评估两幅图像的相似性。其计算公式如式(5)~(8)所示:

其中,(,)、(,)、(,)表示原始图像与生成图像的亮度、对比度、结构相似度估计值,μ表示原始图像的像素均值,μ表示生成图像的像素均值,、、均表示常量。

(6)多尺度结构相似数度量(multi-scale structure similarity index measure,MS-SSIM)是通过结合图像分辨率和观察条件的变化进而评估图像相似性的客观评价指标。其计算公式如式(9)所示:

其中,表示图像尺度数,与原始图像的亮度、对比度、结构相似度估计值,αβγ均为非零常量,用于调整不同分量的相对重要性。

(7)学习感知图像块相似度(learned perceptual image patch similarity,LPIPS)是一个基于学习的感知相似度评价指标,相比PSNR、SSIM,它更符合人类的感知能力。其计算公式如式(10)所示:

(8)Fréchet 初始距离(Fréchet inception distance,FID)是计算生成修复图像与原始图像的特征向量之间距离的评价指标,它是IS的改进,用于评估生成对抗网络的性能。其计算公式如式(11)所示:

其中,μ表示原始图像的特征均值,μ表示生成图像的特征均值。

(9)边界像素误差(border pixel error,BPE)通过计算边界区域附近的像素误差进而评估生成图像缺失区域边界修复质量。其计算公式如式(12)所示:

(10)初始分数(inception score,IS)是一个基于Inception 网络的评价指标,它通过生成图像的质量和多样性来评价生成模型的性能。其计算公式如式(13)所示:

其中,表示生成图像;表示经Inception 网络得到的向量;表示生成图像数量;表示生成图像数量变量。

(11)改进初始分数(modified inception score,MIS)是由Zhao 等提出的一个评价指标,它在IS的基础上进行改进是为了更好地评估生成修复图像的质量。相比IS,MIS 更适合在图像修复任务中评估修复图像质量。其计算公式如式(14)所示:

其中,表示原始图像;表示预训练模型预测的标签;p表示真实图像的模型分布;表示生成图像数量变量。

4 基于深度学习的图像修复方法性能分析

近年来,基于深度学习的图像修复方法快速发展并涌现出了大量成果。本章对于不同类别的修复方法分别选取了两种具有代表性的修复方法并统计其修复不同图像数据的客观评价对比结果。

4.1 单元图像修复方法性能分析

表10 为单元图像修复方法在常用数据集上修复规则掩码的定量比较结果,表11 为单元图像修复方法在常用数据集上修复不规则掩码的定量比较结果,“↑”表示该评价指标值越大图像质量越好,“↓”表示该评价指标值越小图像质量越好,“—”表示文献中没有该评价指标的数值结果。本节统计了以下数据的实验结果:(1)两项评价指标,分别是PSNR、SSIM,其中PSNR 值反映图像失真度,SSIM 值反映图像结构相似性;(2)三类大型图像数据集,分别是人脸图像数据集CelebA-HQ、街景图像数据集Paris StreetView和场景图像数据集Places2;(3)两种掩码,分别是25%中心规则掩码和不规则掩码(占比面积分为10%~20%、20%~30%、30%~40%、40%~50%)。

从表10 数值分析可得,Encoder-Decoder 类修复方法在三类数据集的定量评价结果中,GMCNN方法生成图像的SSIM值和MED方法生成图像的PSNR值均优于彼此,这是因为GMCNN方法引入了多列结构,能有效预测图像结构信息,MED方法使用的交互编码器可以生成更加合理的图像纹理信息。

表10 单元图像修复方法在规则区域的性能分析Table 10 Quantitative analysis of single image inpainting methods on regular regions

而在U-Net 类修复方法修复数据中,PEN-Net方法的各项评价值大多低于MUSICAL方法。PENNet方法和MUSICAL方法均使用了注意力机制,不同的是,PEN-Net方法在编码阶段使用多尺度注意力机制,MUSICAL方法则是在解码阶段使用注意力机制。由此可以得出在U-Net 结构中逐层使用注意力机制虽然能取得有效修复结果,但是大量叠加会在一定程度上影响图像质量。

进一步分析GAN类修复方法的评价指标值,GC方法的六项评价指标数值中有五项低于DMFN方法,GC方法使用门控卷积学习更有效的像素信息,DMFN方法则使用空洞卷积学习更大的感受野。可以知道,空洞卷积相较门控卷积能学习更有效的图像特征信息以获取高质量的修复结果,因此反映图像修复任务的重点为如何获取更大且更有效的感受野以学习到更多、更合理的图像信息。

由于Transformer 类修复方法在近两年才逐渐兴起,其评价数据较少,这里暂不单独分析。最后在三类数据集的修复评价结果中,Encoder-Decoder 类、UNet 类、GAN 类修复方法各占优一项,而Transformer类修复方法占优三项,据此可以推出Transformer 类修复方法性能优于其他三类修复方法,究其原因是Transformer模型可以利用自注意力机制获取较大感受野,实现图像远距离信息的获取进而生成语义一致且视觉合理的修复结果。

分析表11 评价数值,Encoder-Decoder 类修复方法在三类数据集上修复不同面积掩码的定量数据中,MADF方法在10%~40%的掩码修复数值均高于MED方法,主要原因是MADF方法有效利用了图像掩码信息。但当掩码面积占比40%~50%时,图像已知区域与未知区域较难区分,MADF方法在Places2图像数据集上的修复效果大幅降低。据此可知图像修复应充分学习图像已知与未知区域像素信息,进而预测图像修复结果。

表11 单元图像修复方法在不规则区域的性能分析Table 11 Quantitative analysis of single image inpainting methods on irregular regions

分析U-Net 类修复方法在不同面积掩码区域的性能数据,PEN-Net方法的评价数值基本低于RFRNet方法,其中RFR-Net方法通过利用图像像素间的相关性有效解决复杂图像的修复。由此推出复杂场景图像修复任务应充分学习图像不同区域内容间的对应关系进而预测出合理的修复结果。

同时观察GAN 类修复方法评价数据,GC方法在三类图像数据集的不同掩码区域的六项修复评价数值中均有五项低于EC方法。由于EC方法是通过预测图像边缘信息进而指导图像修复,反映出先验结构信息指导图像修复的思想可以有效提高图像修复质量。

最后分析四类修复方法在不规则区域的数值,可以得到:在10%~20%、30%~40%的掩码修复指标数值中,Encoder-Decoder 类修复方法中的六项评价数据均优于其他类修复方法;20%~30%的掩码修复数值中,Encoder-Decoder 类修复方法五项占优、UNet 类修复方法一项占优;40%~50%的掩码修复数值中,Encoder-Decoder 类修复方法四项占优、U-Net 类和Transformer 类修复方法各一项占优;同时GAN类、Transformer 类修复方法的部分指标值仅低于Encoder-Decoder 类修复方法。通过这些数据可以反映出Encoder-Decoder 类、U-Net 类和GAN 类修复方法修复小缺失区域(10%~40%)的破损图像效果较好,虽然Transformer 类修复方法评价数据集少,但其在部分数据集的大缺失区域(30%~50%)修复中仍表现出优于其他类修复方法的修复效果。

分析表10、表11 数据可得,在缺少的评价数据中,Places2图像数据集与CelebA-HQ图像数据集实验结果均缺少数据较少,而相比之下Paris StreetView图像数据集研究缺少实验数据较多,反映出当前图像修复仍然重点研究人脸与场景图像的修复,而忽略了其他图像数据集的修复,例如街景、纹理、建筑等图像数据集。

通过比较三类图像数据集的实验评价数据平均值,其中人脸图像数据集数值最高,场景图像数据集数值最低。这是因为人脸图像背景简单、对象单一,而场景图像背景杂乱、对象冗杂,所以可以推理出人脸图像更易修复。

分析规则区域的修复数据,Paris StreetView图像数据集的修复数据中PSNR最高仅25.00,SSIM最高仅86.50;而Places2图像数据集的修复数据中PSNR最高仅24.42,SSIM最高仅87.00。据此可以得出场景、街景图像的修复仍存在大量发展空间。

同时分析不规则区域的修复数据,当掩码区域面积占比10%~40%时,当前修复方法基本能取得较好的修复数据;而当掩码区域面积占比40%~50%时,仅有少数修复方法能取得合理的修复结果。由此反映出大缺失区域的破损图像修复仍存在较大研究空间。

4.2 多元图像修复方法性能分析

表12 为多元图像修复方法在常用数据集上修复规则掩码的定量比较结果,表13 为多元图像修复方法在常用数据集上修复不规则掩码的定量比较结果。本节统计了以下数据的实验结果:(1)六项评价指标,分别是PSNR、SSIM、LPIPS、FID、IS和MIS,其中PSNR值反映图像失真度,SSIM值反映图像结构相似性,LPIPS值反映图像多样性,FID反映GAN的生成图像多样性,IS反映图像感知质量,MIS反映图像质量;(2)两类大型图像数据集,分别是人脸图像数据集CelebA-HQ(或FFHQ)和场景图像数据集Places2、ImageNet;(3)两种掩码,分别是25%中心规则掩码和不规则掩码(占比面积分为20%~40%、40%~60%、10%~60%)。

如表12 所示,在CelebA-HQ图像数据集的多元修复结果中,UCTGAN方法的PSNR、SSIM值和HVQ-VAE方法的IS、MIS值优于彼此。其中UCTGAN方法利用掩码先验信息修复图像,HVQ-VAE方法则是基于自动编码器并使用注意力模块生成图像,由此表示先验信息更有利于图像的结构生成,注意力机制可以生成更加合理的图像细节。

由于多元图像修复方法旨在生成多张不同的修复图像,表12 给出了三种方法在CelebA-HQ、Places2图像数据集上的LPIPS值,以反映其输出图像多样化程度。UCTGAN方法在CelebA-HQ图像数据集上的修复指标值优于PICNet方法,PDGAN方法在Places2图像数据集上的修复指标值优于PICNet方法。其中UCTGAN方法、PDGAN方法为基于GAN的修复模型,PICNet方法为联合VAE与GAN的修复方法,由此可见GAN较VAE更适用于生成多样的结构和纹理。

表12 多元图像修复方法在规则区域的性能分析Table 12 Quantitative analysis of pluralistic image inpainting methods on regular regions

观察两类图像数据集的实验评价数据平均值,其中人脸图像数据集的LPIPS数值均低于场景图像数据集的LPIPS数值。这是因为人脸数据集图像一般仅含单一对象,而场景数据集图像通常包含多个对象,反映出场景数据集图像相较人脸数据集图像更易生成多样化的图像结构和纹理。

表13 数值反映不同修复方法在不同数据集上修复不同掩码区域的评价数据,其中ICT方法在各类掩码的修复中都取得了较优结果,这是因为它不仅使用Transformer修复图像纹理,同时使用CNN对图像纹理进行修补,实现了图像的高保真修复。

表13 多元图像修复方法在不规则区域的性能分析Table 13 Quantitative analysis of pluralistic image inpainting methods on irregular regions

PUT方法在ImageNet图像数据集、Places2图像数据集的FID数值均优于其他方法,究其原因为PUT方法使用了基于样本的向量量化VAE 实现图像中每个样本的掩码区域修复,并联合非量化Transformer 减少图像信息丢失,辅助模型实现图像相似性。因为场景数据集图像拥有大量特征信息,所以PUT方法在该类数据集上表现出较好修复效果;而人脸数据集图像像素间相关性较高,并不适用于样本修复。

最后比较多元修复方法在三个数据集上的修复平均值,观察到FFHQ图像数据集的修复指标值最高,据此推出当前多元修复方法仍更适于修复人脸数据集。这是因为人脸数据集图像含较少对象,修复难度低。同时可以反映场景数据集图像的多元修复是今后重点研究的任务。

5 不足及未来展望

图像修复任务是计算机视觉领域中不可替代的研究内容,随着近几年计算机的光速发展、数字工具的频繁使用,图像修复任务也得到了较多关注。其中基于深度学习的图像修复任务取得了飞速发展,这类方法通过在模型结构、损失函数、先验信息等方面进行优化以获得更好的修复结果,但是这类方法研究时间较短,仍有较多不足。本文对图像修复任务进行了分类总结,对图像修复常用数据集和评价指标进行了简单总结。针对现有图像修复方法的不足,对其做了以下描述以推进未来研究工作。

(1)如何同时实现图像纹理和结构两部分的补全是图像修复一直存在且需要解决的问题。现存修复方法主要包括仅修复纹理(如MRF-Net)、仅修复结构(如SI)、先修复结构后修复纹理(如EC、PRVS)三种修复思想。其中,仅修复纹理或结构忽略了图像纹理和结构之间的相关性,进而导致生成图像出现语义混乱的现象;而先修复结构后修复纹理的生成图像取决于第一阶段图像结构的修复,同时这种两阶段的修复方法需要大量计算时间和成本。近几年,联合修复图像纹理和结构的思想也受到了广大研究者的关注,但是他们并没有解决纹理结构融合出现的不合理图像。因此,减少图像纹理和结构相互影响所带来的修复缺陷应在今后引起重视。

(2)多元图像修复方法性能的提升以及其评价指标的研究是当前亟需解决的问题之一。图像修复是一项不确定的任务,因此它只需要在输出图像合理的情况下保证图像的多样性。多元图像修复在近几年逐渐兴起,但是它在修复性能上仍存在较大提升空间;同时多元修复方法的评价指标依然是PSNR、SSIM、FID等,然而它们仅用于判断原始图像与生成图像相似性,并不能较好地反映出生成图像的多样性。因此,多元图像修复方法的相关研究是未来修复研究的热点之一。

(3)研究低计算成本的高分辨率图像修复模型是当前最紧迫的任务之一。当前较多图像修复方法仍重点研究低分辨率的图像修复,然而随着数据时代的发展,低分辨率图像已无法满足商业使用需求。虽然Transformer 类修复方法可以实现高分辨率图像的修复并取得了高质量的修复结果,但是它们需要大量的计算成本和昂贵的实验设备,并不适合商业使用。同时Encoder-Decoder 类、U-Net 类、GAN类修复方法虽然也可以通过堆叠卷积层获取较大感受野进而实现高分辨率的图像修复,但是堆叠卷积层随之也会带来计算成本的增加、修复模型的不稳定等不足。因此,如何实现图像远距离内容的获取且降低修复的计算成本也是值得深入研究的一个方向。

(4)如何创建一个基于亚洲人脸图像的数据集是未来研究的重点方向。目前的修复方法在人脸数据集上取得了较好的修复性能,但是被大量使用的人脸数据集CelebA、FFHQ等涵盖图像均是基于国外人脸的图像。使用这些图像数据集训练模型并修复亚洲人脸时,会出现不准确甚至错误的修复结果。这是因为相较西方人脸,亚洲人脸的面部特征具有独特的特征。因此,收集合理且符合亚洲面部特征的人脸图像应成为当前修复的重点研究。

(5)如何实现在不同任务和场景的人脸修复,是一个亟需解决的难题。人脸图像的修复取得了较大进展并被应用于日常生活中,如公共安全、人脸识别等。然而,不同任务、不同场景条件下的人脸修复不仅需要修复缺失像素,同时需要修复许多无法提前预设的修复挑战,例如佩戴口罩、头发遮挡、人脸重叠等,这些问题都会提升人脸图像的修复难度。于是,收集且整理不同类型的破损人脸图像或许成为未来的研究热点。

(6)设计无参考且可以准确反映图像质量的评价指标是当前修复面临的难题。目前广泛使用的图像修复评价指标MAE、PSNR、SSIM等均为全参考指标,这类评价指标需要使用原始图像作为参考对象,同时计算整幅图像像素相似性需要大量时间。故而,为了更好地评价修复图像,研究系统、合理、符合人类视觉判断的图像评价指标是未来亟需解决的挑战。

猜你喜欢

纹理卷积图像
基于生成对抗网络的CT图像生成
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
浅析p-V图像中的两个疑难问题
巧用图像中的点、线、面解题
基于BM3D的复杂纹理区域图像去噪
肺纹理增多是病吗?
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
TEXTURE ON TEXTURE质地上的纹理