自监督学习的单幅透射图像恢复

2023-01-16徐金东马咏莉梁宗宝倪梦莹

自动化学报 2023年1期

徐金东马咏莉梁宗宝倪梦莹

扫描仪、相机和摄像机等设备对纸质内容进行成像时,背面信息常会透射叠加到正面文字内容中,这不仅降低了图像内容的可读性,还会影响图像的后续处理,如电子阅卷、历史文档数字恢复[1]和场景文本识别[2]等.透射图像恢复,即透射去除,是从含有背面和正面内容的混合图像中恢复出正面内容的过程,可建立如式(1)所示模型.

其中,I表示有透射的混合图像,F表示正面图像,α是透射混合参数,T表示背面图像,g(·) 为透射衰减函数.因T、α和g(·) 均未知,从I中去除T、恢复F是一个不适定的NP (Non-deterministic polynomial)难问题.而且,背面图像的内容结构和属性常与正面图像相似,导致难以在去除背面透射信息的同时恢复正面文档图像中的内容和细节.

现有文档图像的恢复可以分为两大类:基于阈值处理的方法和基于学习的方法.阈值处理法是传统的文档图像恢复方法[3-5],通过像素阈值判分正面或背面内容,文献[6]提出了一种结合局部图像对比度和局部图像梯度的自适应对比度图,采用局部区域中检测到的边缘来估计局部阈值,但由于透射文档图像质量参差不齐,在计算局部和全局阈值时需要大量的经验参数,系统结构复杂、运行效率较低.为减轻参数设计和调整的负担,基于学习的方法通过训练的思路来获取图像恢复模型,文献[7]和文献[8]通过引入不同的分类器直接对图像特征进行分类,减少参数的数量,提高了文档二值化方法的效率.近几年神经网络在不少应用场景中取得良好性能,基于深度学习透射图像恢复的方法[9-12]备受研究者的青睐,这类方法能够实现端到端的从透射图像中恢复出正面内容,但需要大量的成对数据集,且常存在过拟合现象.最近,生成对抗网络(Generative adversarial networks,GAN)[12]在合成图像方面大放异彩,并且一部分科研人员将其用于图像恢复相关处理任务,文献[13]利用GAN 扩充训练数据集,处理图像二值化任务,文献[14]使用Pix2Pix GAN 去除了光学音乐识别的五线谱,文献[15]引入了一种包含两个判别器网络的双判别器GAN 结构,以结合全局和局部信息,而Castellanos[16]提出了一种使用无监督区域自适应的神经网络方法将文档图像进行二值化操作,与其他学习的方法相比,这些基于GAN 的模型会产生更好的结果,但是仍需要大量的成对数据进行训练,难以泛化.

为了解决以上问题,本文利用无需成对数据的循环一致性生成对抗网络(Cycle-consistent generative adversarial networks,CycleGAN)[17],提出了一种基于自监督学习的单幅透射图像恢复方法(Self-supervised learning based on cycle-consistent generative adversarial networks,S-CycleGAN),主要由特征提取模块和自学习模块组成,特征提取模块通过跳跃链接融合全局和局部特征,以增强去透射模型的表达能力,自学习模块能对不同的特征映射赋予不同的权重并进行自适应学习,进而实现透射图像的高质量恢复.

本文的主要创新概括为:

1) 将S-CycleGAN 应用于文档图像恢复,提出了一种基于自监督学习的单幅透射图像恢复方法,并用于单幅图像中透射内容去除,该方法不依赖于先验知识,在训练过程中不需要成对数据集;

2) 设计了一种新颖的去透射生成器,它结合了自学习模块和特征提取模块来自监督训练网络提取图像特征,尽可能保留了图像的细节内容;

3) 通过设计特征提取模块、自学习模块和跳跃链接,融合全局和局部特征,增加了S-CycleGAN 的深度,提高了文本内容的表达能力,产生视觉上满意的恢复效果.

1 自监督学习的单幅透射图像恢复

S-CycleGAN 是将未配对图像的去透射问题转化为图像到图像的生成问题,利用自监督学习的循环一致性网络生成无透射的图像.S-CycleGAN 整体网络架构如图1 所示,涉及的核心内容包括:生成器、判别器和损失函数.

图1 S-CycleGAN 的网络结构 (Gy和 Gx 表示生成器,Dy和 Dx 表示判别器. x和 y 分别表示输入的透射图像和无透射图像,Lcycle和 Lperceptual 分别表示循环一致性损失和感知损失)Fig.1 Structure of S-CycleGAN (Gy and Gx are generators while Dy and Dx are discriminators,x and y represent the input bleed-through image and non-bleed-through image respectively,Lcycle and Lperceptual represent cycle consistency loss and perceptual loss respectively)

S-CycleGAN 由两个分支组成:1)透射-透射分支:x→Gy(x)→Gx(Gy(x)),利用有透射图像x生成无透射图像Gy(x),再重构成有透射图像Gx(Gy(x));2) 无透射-无透射分支:y→Gx(y)→Gy(Gx(y)),利用无透射图像y生成有透射图像Gx(y),再重构成无透射图像Gy(Gx(y)).

S-CycleGAN 的两个分支中的每一个分支都有一个判别器,分别是Dy和Dx,这两个分支共享两个生成器Gy和Gx.Gy是将透射图像生成(恢复)为无透射图像,而Gx是将透射部分添加到无透射图像中生成有透射图像.

1.1 生成器网络结构

生成器Gx采用与CycleGAN 相似的编码器-解码器网络结构,本文Gx使用了6 个残差块.为了实现自监督学习以及增强特征表示,本文方法在CycleGAN 生成器Gx的基础上构建生成器Gy,在Gy网络结构中加入特征提取模块和自学习模块,从大规模的无标签数据中挖掘自身的监督信息,从而得到更好的去透射结果.生成器Gy的作用是恢复正面的图像内容,在去除透射过程中保留细节,网络结构如图2 所示.

图2 生成器 Gy 的网络结构Fig.2 The network structure of Gy

Gy网络的输入是一幅带有透射的图像,首先经过三层卷积来增强输入图像纹理细节,提高正面图像与背面图像的对比度,然后馈送到三个具有跳跃链接的特征提取模块(Feature extractor module,FEM)中,以保留低层信息并将其传递到深层网络中,三个特征提取模块的输出特征通过自学习模块(Self-learning module,SLM)以及两层卷积融合获得一个无透射的输出.其中,自学习模块的作用是获得的自适应权值,使得S-CycleGAN 更加关注混合内容中较严重区域和正面纹理等细节信息.

1.1.1 特征提取模块-FEM

FEM 的网络结构如图3 所示,包括卷积层、ReLU 层和SLM.在S-CycleGAN 的设计中,生成器Gy的目的是将带有透射的输入图像生成无透射的图像,并且不需要估计中间参数,为了实现这个目标,生成器Gy应该尽可能地保留正面图像内容和细节,同时消除透射信息.因此,生成器Gy中的特征提取模块应充分利用透射图像的特征信息.

图3 FEM 的网络结构Fig.3 The network structure of FEM

FEM 由多个卷积、RELU和SLM 的功能层组成,以层次递进方式反复提取特征信息.经过图3所示的由浅入深的功能层后,会交换大量不必要的冗余信息,从而导致一些有用特征信息丢失.因此,在特征提取块中增加了跳跃链接,将浅层特征与深层特征融合,使网络保留更多的有效特征信息,从而更有利于恢复清晰的图像.另外,为了平衡网络性能和时间复杂度,将FEM 的所有卷积层的通道数设为64,卷积核大小设为3×3.

1.1.2 自学习模块-SLM

SLM 的网络结构如图4 所示,主要用于关注图像的不同特征.输入的特征图F大小由C×H ×W变为C×1×1,其中C表示通道数,H×W表示图像大小.通过两个卷积层和ReLU、sigmoid 激活函数来获取特征,与输入的特征图F做元素相乘操作得到Fc,在这一阶段的卷积核大小为1×1,通道数分别为8和64,步长为1.过程可如式(2)所示.

图4 SLM 的网络结构 (F 表示自学习模块的输入,Fc 表示自学习模块的中间输出,Fresult 表示自学习模块的输出)Fig.4 The network structure of SLM (F is the input to the self-learning module. Fc is the intermediate output of the self-learning module. Fresult is the output of the selflearning module)

其中,pool(·) 表示平均池化操作,Conv(·) 表示卷积操作,σ(·) 是sigmoid 函数,δ(·) 是ReLU 函数,⊗是元素相乘,Fc表示此阶段的输出.

考虑到透射到正面的背面内容 “深浅不一”,透射图像的背面内容常不均匀地叠加在正面图像上,因此需要SLM 能够捕捉特征图Fc中的高响应区域,使模型更加关注相应区域并对此进行处理.因此,特征图Fc通过池化、卷积和Sigmoid 激活操作后,大小由C×H ×W变为 1×H ×W,通道数降为1,将会得到区域特征信息,与输入特征图Fc做乘法操作,获得最终的关注不同相应区域的权重特征图,在这一阶段的卷积核大小为3×3,通道数为1,步长为1.处理过程如式(3)所示.

其中,Fresult表示自学习模块的最终输出.

为了解释自学习模块在网络中的有效性,对特征提取模块结构输出的特征权重图进行可视化.图5显示了尺寸为4×64 的特征图,可以清楚地看到,网络以不同的权重自适应地学习不同的特征映射.

图5 自学习模块权重图Fig.5 Self-learning module weight map

1.2 判别器网络结构

判别器用于区分生成图像的 “真假”,其输入是生成器网络生成的图像.在S-CycleGAN 中,有两个判别器,即Dy和Dx.Dy用于区分生成的无透射图像和真实的无透射图像,Dx用于区分生成的透射图像和真实的透射图像.判别器Dy和Dx采用相同的网络结构,如图6 所示.判别器的前4 组模块用于提取特征,最后一组模块用于确定生成图像的“真假”.网络中5 个卷积层通道数依次为64、128、256、512和1,每一层的卷积核大小为4×4、步长为2.

图6 判别器的网络结构Fig.6 The network structure of discriminator

1.3 损失函数

由于采用非成对的数据来监督网络,生成的图像无法保持图像中的颜色和结构信息,故引入循环一致性损失[17]来最小化透射图像x和其重构的透射图像Gx(Gy(x))、无透射图像y和其重构的无透射图像Gy(Gx(y)). 循环一致性损失(Lcycle)定义为式(4).

其中,x和y表示不需要配对的透射图像和无透射图像,E 表示数学期望,x～Pdata(x)表示透射数据集中样本的概率分布,y～Pdata(y)表示无透射数据集中样本的概率分布,‖·‖1表示L1范式.

判别器Dy的作用是最大化损失,并以此区分生成的无透射图像和真实的无透射图像,而生成器Gy要使损失最小化,使生成的无透射图像接近真实的无透射图像.因此,Dy的对抗性损失()定义为式(5).

循环一致性损失和对抗性损失能够约束图像中的颜色和结构信息,但对文档图像的细节信息没有考虑.因此,本文使用感知损失[18]来使生成的图像在语义细节上更接近目标图像,在生成器Gy和生成器Gx的约束下的感知损失(Lperceptual) 如式(7)所示.

其中,‖·‖2表示L2范数,φ表示VGG-16 网络[19]的特征提取器.本文使用VGG-16 网络的第2和第5 个池化层中提取的特征按照式(7) 进行组合,VGG-16 网络是由ImageNet[20]预先训练的模型.

其中,ω是感知损失函数的权重系数.

2 实验结果与分析

2.1 实验设置

2.1.1 对比算法和数据集

为了充分测试S-CycleGAN 的性能,实验采用的数据集为:DIBCO 2013[21]、DIBCO 2012[22]、DIBCO 2014[23]、DIBCO 2017[24]、DIBCO 2011[25]、DIBCO 2009[26]、H-DIBCO 2016[27]和真实的透射图像.仿真合成图像按照式(1)进行混合,其中g(·) 为高斯模糊操作,滤波器大小为5×5,标准差为2,α在[0.15,0.25]间随机选择,以尽可能模拟实际透射情况.

实验选择了6 种具有代表性的文本图像恢复方法:经典的Otsu[4]算法和Ntirogiannis[5]方法,基于深度学习的SAGAN[28]、DD-GAN[15]、Castellanos[16]和Sungho[29]方法.

2.1.2 评价指标

为定量评价透射图像恢复效果,使用文档图像二值化国际竞赛中的评估参数[21-27]:峰值信噪比(Peak signal to noise ratio,PSNR)、F-measure(FM),pseudo-F-measure (pFM)和距离倒数失真(Distance reciprocal distortion,DRD).其中,前三个指标值越大说明算法准确性越高,DRD 越小说明像素恢复差错越少.

1) PSNR

3) pFM

其中,pRecall表示生成的结果图像相比于标准二值化图像检测到文字信息完整性的百分比.

4) DRD

其中,DRD用于测量二值图像中的视觉失真.NUBN是标准二值化结果图像中非均匀(并非所有黑色或白色像素) 8×8 像素块的数量,DRDq表示在5×5像素块邻域内,标准二值化图像与生成的结果图像第q个翻转像素之间的权重加和的差值.

2.1.3 参数敏感性分析

为了对比感知损失函数的权重系数ω取值不同对文档图像透射去除效果的影响,本节以合成透射数据集为例,结合FM和pFM评价指标,通过设置不同的权重系数ω进行参数敏感性分析实验.

不同的权重系数ω对FM和pFM评价指标的影响如图7 所示,可见当感知损失函数的权重系数ω越小时,FM和pFM评价指标的数值越小,当ω在0.8 附近时,FM和pFM的值达到最大,此时文档图像透射去除效果最好,所以本文设定ω=0.8.

图7 不同权重系数 ω 对FM和pFM 评价指标的影响Fig.7 Influence of different weight coefficient ω for FM and pFM

2.2 DIBCO 数据集实验结果与分析

表1 为3 个DIBCO 系列数据集的定量评价结果(获得的最佳结果用粗体标出).与已有的方法相比,本文的S-CycleGAN 在4 个评价指标中均有3项取得了最佳结果.

表1 DIBCO 数据集的文档透射图像恢复定量评价Table 1 Quantitative evaluation of document bleedthrough image restoration of DIBCO datasets

为了直观展示视觉对比效果,图8 给出了不同方法在DIBCO 2011[25]数据集中的一个样本图像的处理结果.如图所示,图8(a)中大面积背面内容叠加到正面图像中且右上部分透射内容较重(强透射区域).因直方图没有明显的双峰特征,且图像整体亮度偏低,Otsu[4]算法计算出的阈值较小,从而导致计算输出的二值图像引入了大量噪声.Ntirogiannis[5]方法虽然能抑制一定的噪声,但也丢失了部分文本内容.基于深度学习的方法SAGAN[28]、DDGAN[15]、Castellanos[16]和Sungho[29]方法的恢复结果要优于经典方法,对文字的恢复较为准确,但仍有较多背面内容在恢复过程中被当作正面的内容,导致恢复结果出现了噪声误差.本文方法S-CycleGAN 给出了较好的视觉效果,更加接近真值图像(Ground truth),可以在不需要成对数据集的情况下,无论是强透射区域还是弱透射区域都可以生成更为清晰的细节,更好地恢复透射文档图像.

图8 各方法在DIBCO 2011 数据集内一个样本的恢复结果Fig.8 Experiment results of one sample in DIBCO 2011 datasets by different methods

图9 给出了不同方法对H-DIBCO 2016[27]数据集中的一个样本图像的恢复结果.Otsu[4]、DDGAN[15]和Sungho[29]的实验结果中存在大量噪声信息.Ntirogiannis[5]方法可以更有效地去除阴影和类似正面文本的背面噪声,但存在文本信息错分的情况.SAGAN[28]和Castellanos[16]方法恢复的实验结果中存在文字笔画不连续的现象.S-CycleGAN 不仅能更好地去除阴影和噪声,而且更好地保留了正面文本细节.

图9 各方法在H-DIBCO 2016 数据集的一个样本恢复结果Fig.9 Experiment results of one sample in H-DIBCO 2016 datasets by different methods

2.3 合成数据集和真实图像实验结果与分析

2.3.1 合成数据集实验结果

本文方法S-CycleGAN 与其他几种去除透射算法在合成数据集上的定量评价如表2 所示.粗体为恢复方法中最佳的指标结果,显然可见,S-CycleGAN 在四个客观度量指标上均优于其他去除透射方法.

表2 合成数据集的文档透射图像恢复定量评价Table 2 Quantitative evaluation of document bleedthrough image restoration of synthetic datasets

合成数据集中一个样本图像的恢复结果对比如图10 所示,可见经典的Otsu[4]和Ntirogiannis[5]方法无法消除文档的背面透射内容,这是因为此类方法难以在正面和背面内容区分中找到一个有效阈值,且Ntirogiannis[5]方法恢复的内容中标点符号严重缺失.Castellanos[16]正面的文档内容没有完全恢复且造成了一定的内容细节损失,恢复效果不理想.DD-GAN[15]和Sungho[29]方法产生了相对较好的视觉效果,但存在纹理细节不清晰等问题.综合来看,S-CycleGAN 生成的结果更为自然,纹理细节也较为清晰.

图10 各方法在合成数据集的一个样本恢复结果Fig.10 Experiment results of one sample on synthetic document bleed-through datasets by different methods

2.3.2 真实透射图像实验结果

真实图像为 “京瓷FS-1020MFP”扫描获取的全国大学英语六级试卷和某初中数学试卷的数字图像,截取其中有明显透射的样本进行恢复,各种对比方法的实验结果分别如图11和图12 所示.

图11 不同方法在全国大学英语六级试卷透射图像的恢复结果Fig.11 Experiment results of CET-6 bleed-through datasets by different methods

由视觉效果综合比较可见,Ntirogiannis[5]和Su-ngho[29]方法的恢复结果中存在部分内容缺失的问题,例如图12(g)中 “-6”的 “-”丢失,恢复的图像与原始文档内容不一致.Otsu[4]和DD-GAN[15]方法可以将透射内容进行一定程度的去除,但存在恢复正面字迹不清晰、边缘不够平滑的问题.Castellanos[16]和SAGAN[28]方法保留了正面文本内容但仍存在一定的背面噪声.与其他方法相比,本文方法S-CycleGAN 不仅能更好地去除透射内容和噪声,而且清晰、平滑、正确的保留了正面文本内容.

图12 不同方法在某初中数学试卷透射图像上的恢复结果Fig.12 Experiment results of test papers bleed-through datasets by different methods

2.4 消融实验

第3.2 节和第3.3 节的对比实验结果表明,基于S-CycleGAN 的图像恢复方法取得了良好的性能.为了更好地理解该方法中不同组成部分的作用,测试每个组成部分在网络中的重要性,进行了有无特定成分的消融实验,以验证每个模块在S-CycleGAN 的功能.消融实验在合成数据集和H-DIBCO 2016[27]数据集上进行,主要对比:CycleGAN、无SLM 的S-CycleGAN和本文方法S-CycleGAN.

表3 给出了S-CycleGAN 及其两种消融变体在合成数据集和H-DIBCO 2016 数据集上的客观度量指标计算结果.由表3 可见,加入了本文设计的功能模块后的S-CycleGAN 的实验指标得到较大提升,结果最优,且部分指标相差较大.图13 给出了S-CycleGAN 及其两种消融变体在合成数据集中一个样本图像的恢复结果.可以看出网络中加入自学习模块能够关注到图像的不同区域特征,以“非均匀”的方式处理透射到正面的 “深浅不一”内容,更好的恢复出了正面图像内容的纹理、边缘等信息,不仅有效地去除了透射内容,还能完整保留正面图像的文字细节.从表3 的客观指标评价和图13的实验结果来看,在CycleGAN 中加入了特征提取模块和自学习模块对透射文档图像的恢复十分有效.

图13 不同网络结构在合成数据集上的消融实验Fig.13 Ablation experiments of different network structures on synthetic datasets

表3 S-CycleGAN 模块有效性客观评价指标对比Table 3 Objective evaluation indexes comparison for the modules in S-CycleGAN

3 结论

本文提出了一种自监督学习的单幅透射图像恢复网络(S-CycleGAN),该网络可以直接对非配对的透射文档图像执行图像恢复任务,且无需混合比例、阈值等任何先验参数.通过设计有效的生成器网络,针对文档图像中透射分布不均匀、文字印记深浅不一等问题,在网络中加入自学习模块,提高关注点的表示和感兴趣内容的表现力,以获得更好的透射图像恢复效果和重建细节内容.在合成数据集、DIBCO 数据集和真实图像上与现有方法进行了实验对比,结果表明S-CycleGAN 在客观度量指标和视觉效果上均取得了较好的结果,有望集成于扫描仪、相机等实际成像设备.