APP下载

基于无映射数据集的生成对抗网络图像生成算法研究

2021-04-12姚成思齐亚莉夏浩昌丁忠祥

北京印刷学院学报 2021年3期
关键词:损失函数领域

姚成思, 齐亚莉, 夏浩昌, 丁忠祥

(北京印刷学院信息工程学院,北京 106200)

随着计算机设备及网络技术的飞速发展,信息化社会加速向前,人工智能领域尤其是机器学习研究取得了长足的进步[1]。随着电脑硬件的进步和计算机图形学的发展,深度学习开始出现在人们的视野中。在人工智能的浪潮中,以深度学习为代表的机器学习方法是最主要的研究方向之一。深度学习作为机器学习的一种实现方法,其迅速发展的一个主要原因是因为人们发现深度学习可以用来训练物体识别模型。相比一般的机器学习,深度学习可以不依赖人工进行特征工程,通过对大量样本数据的学习,使用多层神经网络对数据进行表征学习。

深度学习在图像和音频领域发挥了很不错的效果,尤其是图像的处理能力方面,比如基于神经网络的图像风格迁移、图像识别、图像生成、图像修复等[2]。图像生成是从现有数据集生成新图像的任务,它可以基于更小噪声输入产出完整且逼真的图像信息。也可以进行图像之间的转换,比如将一张灰度图转换为一张彩色图,将一张素描图转换为一张实物图。图像生成在深度学习的许多领域都取得了不错的成果,其中最前沿的是生成对抗网络GAN。自2014 年,生成对抗网络GAN 由Ian Goodfellow 等人提出后,立刻引起了学术研究领域的轰动,越来越多的研究人员将GAN 带入计算机视觉、人机交互和自然语言处理等领域,且都取得了很大的技术革新。随着投入资本和人力的不断加重,GAN 模型得到了急速的发展,以传统GAN 为原型的各类改进模型不断被提出。

GAN 的优点在于能直接从数据中学习,生成高保真、多样化的图像,具有强大的特征学习和特征表达能力[3]。虽然GAN 的训练是动态的,而且对各方面的设置都很敏感(从优化参数到模型架构),但大量研究已经证实,通过对GAN 的网络结构、超参数选择、损失函数的调整,可以使GAN 在多种环境中稳定地运行。

在GAN 的诸多运用场景中,图像的生成和转换是目前研究成果最好的一个领域之一,其应用在人脸识别和工业设计中都取得了不错的效果[4]。本文将从三个方面介绍GAN 在图像生成和转换的发展。第一部分,简单介绍普通的GAN 模型在图像生成和转换领域的原理。第二部分,基于无映射数据集的GAN 图像生成的原理和优势。第三部分对GAN 模型提出新的改进方向,使生成或转化的图像更逼真。在文章的其他部分,我们对图像生成的应用和未来的发展前景做了简要说明,并对研究结果进行了总结。

1 基于cGAN 的Pix2Pix 算法

1.1 Pix2Pix 的原理和结构

从黑白图像到彩色图像,从边缘轮廓图像到完整信息图像,从标签图像到内容图像等成对图像之间的转换生成过程也叫图像翻译。GAN 提供了一种很好的生成图像的模型,由输入噪声就可以通过对抗性得到一张逼真的图像。随着生成对抗网络的发展,我们不再满足于生成随机的图片,对图片的生成有了特定的要求,因此在生成器和判别器中都引入一个标签作为输入,这个输入的条件信息可以是类别标签或者其它辅助信息,我们将这种模型称为cGAN。Pix2Pix 算法就是基于cGAN 得到的一种新型图像翻译方法,即将目标图像所对应的输入图像作为输入条件信息,它可以实现成对的图像间的转换且图片成像效果很好[5]。图1 以标签图像生成真实图像为例。x和y表示成对图像,x是语义标签图形,y是真实图形。x和z噪声作为生成器G的输入,得到生成图像G(x,z),将图片x作为条件信息和生成图像一起输入判别器。此外将真实图片y和x一起输入判别器,在判别器训练阶段使成对图片输入时判别为真。

图1 Pix2Pix 算法原理模型图

1.2 Pix2Pix 的目标函数

普通的cGAN 的目标函数如下

生成器G 想要将目标函数降低到最小值,而判别器D 想要将目标函数提升到最大值,这是G和D 之间的相互博弈。

引入距离公式L1 进行优化,是生成器G 生成的图像G(X,Z)和真实图像y的差异变小。公式如下

得到最终目标函数如下

虽然再加入L1 后的目标函数生成图像的细节和清晰度上有了很大的提高。但是Pix2Pix 算法对数据集的要求很高,实际上成对的数据集的获取是较为困难的。因此在实际的图像生成中,我们需要无映射关系的数据,来进行后续研究。

2 基于无映射数据集的CycleGAN 图像生成

2.1 CycleGAN 原理和结构

图像的生成本质是图像到图像的一种映射,在实际中有些配对数据不可用或者配对数据集本身难以获取,因此我们提出了一种新的图像之间的转换算法CycleGAN,该方法可忽略图像间的匹配关系,使图像直接从源域X映射到目标域Y。

在实际操作中,需要学习从源域X到目标域Y和从目标域Y到源域X的两种映射,我们分别将这两种映射称为G和F,因此在网络构建时需要两个生成器和两个判别器。值得注意的生成图像经过逆映射回去的图像应该与输入图像差距尽量减少。如果只考虑F逆映射过程很有可能使X域中的所有图像都指向Y域中的某一图片,这样的映射建立将毫无意义,损失函数也会失效。因此我们需要构造另一个周期一致性的损失,使输入x与F(G(x))的差距以及输入y与G(F(x))的差距都降到最低。

2.2 CycleGAN 的目标函数

CycleGAN 的目标函数将分为两个部分,第一部分是经典GAN 的对抗损失,如下

判别器DY要尽量对生成器G生成的假图像G(x)作出检测,生成器生成的图像要尽量骗过判别器DY。即判别器想要最大化值,生成器想最小化值,minGmaxD YLGAN(G,DY,X,Y)。

同样的从Y域到X域的逆映射可得到相对应的对抗损失,即minFmaxDXLGAN(F,DX,Y,X)。

图2 (a)显示的是CycleGAN 的模型构造,由X→Y的映射G和由Y→X的映射F,两个判别器DX和DY。(b)和(c)分别代表两个循环一致性损失,即x→G(X)→F(G(x))≈x和y→F(y)→G(F(x))≈y

第二部分是循环一致性损失,如下

该损失的确立是为了保证输入x与F(G(x))的差距以及输入y与G(F(x))的差异变小,在G和F的学习具有一致性。

因此,CycleGAN 的总损失函数,如下

经过循环一致性损失比重的调节,可以使生成图像得到优化,损失系数的选择与生成图像的质量有关,由此可知引入这一损失在实践中是有意义的[6]。

2.3 CycleGAN 的实验成果

如图3 显示的是输入原照片,转换为漫画风格和梵高风格两种不同类型的图像。图4 显示的是夏天的风景图转换为冬天的风景图。

图3 照片的风格转换

图4 风景的季节转换

3 GAN 在图像生成领域的可改进方向

尽管上述的两种图像生成算法,可以基本实现图像翻译和图像风格迁移,但是图像的逼真程度不能保证。在不增加生成网络的复杂性的前提下,我们可以设计一个新的生成器生成图片的评价系统,使整个网络模型只在简单的GAN 模块中就能评估图片生成质量,而不用担心网络的扩充所带来的模式塌陷问题。

新的评价系统不是对生成分布和真实分布进行误差评估,而是对两者的分布误差之间的差距进行评估,当误差间的分布差距相近时,生成分布和真是分布也是相近的。

4 总结和展望

图像是信息的重要载体之一,当今人工智能领域的重要课题之一就是对图像的处理。随着深度学习的不断发展,神经网络对于图形处理问题的形式越来越多元化[7]。生成对抗网络作为机器学习的一种手段,是近几年机器视觉领域的科研新星,在图像处理上表现突出。目前很多用来进行图像生成研究的新型生成对抗网络模型,都是在传统GAN 模型结构的基础上改进而来。由此可知,无论是生成器和判别器的网络结构改进,还是损失函数的细化都可以使生成对抗网络在处理图像生成问题上表现的越来越好。比如模型的稳定性得到改善,图像的分辨率提高,图像的细节得到修饰。

尽管GAN 在近几年内蓬勃发展,且取得不错的成效。但是如何保证生成图像多样性的同时还能使生成图像高保真,依旧是需要解决的问题。且生成对抗网络训练时要用到极大的数据集,对硬件要求很高,我们希望在学习少量数据集也能生成不错的图片,这也是一个急需解决的问题。

无论是为了工业成本的降低,还是艺术领域设计方案的多样性,图像生成课题依旧是未来几年需要不断创新和突破的领域,生成对抗网络都将继续发挥作用。

猜你喜欢

损失函数领域
电子战领域的争锋
洪涝造成孟加拉损失25.4万吨大米
将现代科技应用于Hi-Fi领域 Perlisten S7tse
2020 IT领域大事记
两败俱伤
领域·对峙
关于函数的一些补充知识
高中数学中二次函数应用举隅オ
无独有偶 曲径通幽
损失