自适应零风格强度图像重建

2019-06-27余义斌林治吴承鑫

现代计算机 2019年13期

余义斌，林治，吴承鑫

（五邑大学智能制造学部，江门529020）

0 引言

传统的非参数图像风格迁移主要是基于物理模型的绘制和纹理合成来实现，Efros 和Hertzmann 等人[1-2]早在2001 年就提出了相关算法。但由于该方法只能提取图像的底层特征，在处理颜色和纹理较复杂的图像时，其输出图像合成效果较为粗糙，难以符合实际需求。随着深度卷积神经网络的发展，Gatys 等人[3]首先使用VGGNet[4]深度网络实现图像风格迁移，他们利用VGGNet 网络不同层级特性，将内容图像和风格图像的抽象特征表示进行分离，并通过独立处理这些高层抽象特征来有效地实现图像风格迁移，获得了比传统方法更加可观的艺术效果。

目前，图像风格快速迁移实现的主要方法[5-9]是使用前馈神经网络训练{内容图像,目标风格图像}单侧数据，通过对网络编码特征空间中内容和风格插值进行解码，计算不同层级所对应的损失，实现风格图像重建。这些方法都取得了较好的效果，但是都存在这样一个不足，就是在风格强度控制参数α（0 ≤α ≤1）为零时，输出图像风格强度与输入内容图像并不相同，如图1（a），α=0 时出现了过拟合情况。针对这个问题，本文提出了零风格图像重建方法，解决了在输出图像风格强度过拟合的情况，更加快速有效地实现风格迁移。

1 相关研究

Gatys 等人[3]在2016 年通过计算VGGNet[4]特征空间的内容损失Lcontent和风格损失Lstyle来重建输出图像，其损失函数为：

其中P 为内容图像，Q 为目标风格图像，I 为输出图像，α 和β 分别为风格损失、内容损失的权重，α,β∈[0 ,1]，且α+β=1。

通过在输出图像和输入图像之间插入前馈网络[10-12]，解决了Gatys 方法[3]中图像生成速度慢的问题。不久之后，修改规范化层[5-7,9]的实现使得训练好的网络嵌入多个或任意风格图像输入，并生成混合风格或中间风格强度的输出图像。Dumoulin[5]等人在条件规范化（CIN）层中使用了多个风格的可学习仿射参数，通过更改VGG 特征空间中的二阶统计量，有效地将输出图像的风格切换为所需风格。

此外，Huang 和Belongie[7]提出了另一种自适应规范化层（AdaIN），他们使用VGG 功能的人为设计参数（均值和标准差）来改变特征统计，同时还使用其AdaIN 层中的均值和标准差的线性插值来控制输出图像的风格强度，并通过损失函数（2）式进行图像重建：

其中λ ∈[0 ,1]，Lc 与（1）Lcontent中一致，Ls为风格损失，与（1）中Lstyle计算有所区别。

此外，利用生成对抗网络（GAN）也可以快速高效的实现图像风格迁移，常见类似方法有Pix2pix[13]、CycleGAN[14]和BicycleGAN[15]。虽然这些方法专注于输出图像的逼真来实现所生成图像的高质量，但是这些方法并未专注于风格强度控制。

图2 编码器-转换器-编码器网络结构

2 零风格强度图像重建

本文方法将风格迁移网络的训练理解为控制参数α（0 ≤α ≤1）与输出图像风格强度之间特定学习。基于该情况，已有方法[1,3,4,8,9]使用单侧数据对{内容图像,目标风格图像}进行训练，所得到结果如图1（a）α=1 所对应的完全风格图像。这种单侧数据训练不能保证α ＜1 所对应的风格强度的实际效果。事实上，用单侧数据训练生成的输出图像风格强度在α=0 出现严重过拟合，与输入内容图像发生偏离，如图1（a）所示。

为了获得图1（b）中在α=0 所对应的零风格强度图像重建，本文使用如图2 所示的AdaIN 编码器-转换器-编码器网络结构模型[7]，并在训练阶段的每次迭代中增加{内容图像,内容图像}数据对，同时通过增加锚定数据训练和利用风格插值函数，迅速稳定地实现了零风格图像重建，并更好地进行风格控制。

图3 本文方法下的CIN、AdaIN在α=1、α=0 的效果对比

2.1 重建算法

在前馈神经网络[5,7]训练{内容图像,目标风格图像}单侧数据的条件下，如图3 输出图像风格强度在α=0时与输入内容图像并不相同，发生偏离。单侧训练数据对应的损失为Lsingle。本文通过在网络训练阶段的每次迭代中增加{内容图像,内容图像}数据对，其对应增加的非单侧训练数据损失Lnonsingle，通过总损失函数重建图像的式子为：

其中，Lcontent(P,I)同（1）式中一致，且Lcontent(P,I)=是在第l 层的内容特征表示。Lstyle(Q,I)同（2）中一致：

该式中初始化的解码器g 以将t 映射回图像空间，生成风格图像T（P,Q），ϕi是用于计算VGG-16 网络中每一层的风格损失函数，μ 和σ 分别代表均值和标准差函数。Lreconstrcuct和文献[16]中一致，正则化Ltv[3]为总变差损失，用于，减小信号的总变化，使其与原始信号紧密匹配，去除不需要的细节，同时保留诸如边缘的重要细节。当风格强度为零时，在零风格图像Iz和内容图像P 之间，还增加了Lreconstrcuct到总损失Ltotal中进行内容图像重建。

2.2 风格插值函数

如图1（a）所示，已有的方法仅仅使用单侧{内容图像,目标风格图像}数据对去训练前馈网络，并同时使用风格差值法[5,7,9]实现图像风格迁移，不能确保输出图像的风格强度与风格控制参数的更好的控制。

针对风格控制参数和输出图像样式强度之间的特定学习，我们需要使用附加的锚定数据进一步训练，同时产生风格控制参数α（0＜α ＜1）对应的中间值的锚定损失Lanchor。锚定损失Lanchor和（3）式中Lsingle的产生方式相同，其计算式如（4）。在本文中，锚定风格损失Lastyle是输出锚定风格图像Iα和目标锚定风格图像Is（α）之间的风格距离。然而，从图像中直接计算锚定风格损失不太可能，因为没有已知目标锚定风格图像Is（α）。因此，为了替代Is（α），我们使用完全风格特征函数fs（Q）和零风格特征fs（P）[7]的线性差值作为目标锚定风格特征。然后，锚定风格损失能够用目标锚定风格特征与输出锚定风格fs（Iα）特征之间的欧氏距离来计算，如下（4）式：

在训练阶段的每次迭代中，将期望的α 值所对应的锚定损加到总损失等式（3）中。一旦网络被训练为线性回归器，那么变在网络转换器中我们可以通过使用期望的特征函数f(α)代替原有的α，输出图像风格强度在α 的变化下实现更好的控制。

3 实验过程与结果分析

3.1 实验设置

本文使用AdaIN[7]编码器-转换器-译码器神经网络结构如图2，同时使用2014 MS-COCO[17]数据集作为内容图像训练以及画家作品数据集[18]用于目标风格图像训练。将VGG16 网络特征提取作为编码器，其镜像网络作为译码器。{relu1_2,relu2_2,relu3_2,relu4_2}层的输出张量用于风格表征，{relu3_3}层的输出张量用于内容表征，使用VGG16 特征提取器作为编码区来计算损失。将损失权重参数的值设置为ωc=1.0、ωt=10-3、ωr=102ωs，同时通过改变ωs（ωs=50,102,103,104）的值来分析该网络模型在风格损失权重增加时如何变化。

在数据训练过程中，将图像的尺寸调整为短边256像素，裁剪成240×240 像素，用于数据增强。学习率为10-4（当ωs=104时，学习率为10-6），批量大小为4，周期数为4，PyTorch v0.3.1 框架为CUDA v9.0，CuDNN v7.0 和NVIDIA TITAN-X Pascal。我们使用MS-COCO test2014dataset[17]与画家作品数据集[18]作为用于内容图像和目标风格图像测试,并且所有测试图像在短边重新调整为256 像素，不会在进入网络之前进行裁剪。

3.2 实验过程

如图3 所示，具有CIN 层或AdaIN 层的网络通过使用单侧数据[5,7]进行训练，并使用一组目标风格图像生成高质量图像风格，但是在风格参数为零时输出图像严重偏离输入内容图像（α=0），出现输出图像风格强度过拟合。相比之下，本文方法解决了该问题，同时保持了输出相同质量的完全风格图像（α=1）。

为了体现本文方法的优越性，我们训练了几个具有大量风格图像和不同重量的风格损失的网络。我们用50 对{模糊内容图像,模糊目标风格图像}的测试风格迁移，并测量了内容损失Lcontent，风格损失Lstyle和非单侧数据学习损失Lnstyle的平均值。当α=1（完全风格迁移）时，本文的非单侧数据学习实现了比原始AdaIN（图4（a）中的蓝线）更小的平均内容损失，同时保持了原始AdaIN 的几乎相同的平均风格损失和单侧数据学习下风格损失（图4 中的蓝线（b），（c））。这说明本文实现的完全风格化图像（图5（b）的奇数行）在内容损失上比前一种方法（图5（a）的奇数行）少，但是却有相同的风格质量。当α=0（零风格强度迁移）时，我们的非单侧数据学习实现了比原始AdaIN（图4（a），（c）中的红线）小得多的平均内容损失，保持较高的平均风格损失（图4（b）中的红线）。这说明本文中的的零风格强度图像（甚至图5（b）的行）重建几乎与原始内容图像一致，而前一种方法的那些（甚至图5（a）的行）重建图片完全不同于原始内容图片。

随着风格损失权重ωs=的增加，内容损失在α=1、α=0 以及非单侧数据学习在α=0 也都随之增减，如图4（a）和（c）所示。然而，与AdaIN 相比，本文方法的增量要小得多。这显示本文方法对输入图像的内容和风格不是很敏感，实现了更加稳定的风格化性能。图5也验证了这种风格化的稳定性，并显示了完全风格和零风格图像的可比质量，同时具有大范围的风格变化。

图4 50 对测试数据下的平均内容、平均风格、非单侧数据训练下的平均风格损失随ωs 变化曲线

图5 本文方法与AdaIN实效果对比

4 结语

本文研究了基于前馈神经网络单侧数据训练引起的风格插值问题，提出了零风格图像重建方法。零风格图像重建是通过在训练阶段的每次迭代中增加{内容图像,内容图像}数据对，并在前馈网络特征空间中计算所对应的非单侧数据特征损失来完成。此外，通过分析中间风格附加的锚数据，并在网络中对锚数据进一步训练，同时使用风格差值方法并改进差值函数，实现了风格控制参数与输出图像风格强度之间的有效控制。从实验结果可以看出，零风格图像重建解决了在图像风格在迁移中过拟合问题，并且在迁移过程中没有附加复杂度，其风格迁移效果更加稳定和迅速。