APP下载

基于亚像素卷积的改进型CycleGAN手写汉字生成研究

2020-06-03徐远纯施明勇

科学与信息化 2020年9期

徐远纯?施明勇

摘 要 汉字字体研究是计算机视觉重要的研究方向,利用pix2pix生成对抗网络对手写汉字字体风格迁移需要大量的匹配汉字图像,CycleGAN进行风格迁移虽然不需要成对的匹配数据训练数据,但是生成的汉字字体存在模糊、缺失等现象。为了解决以上问题,本文利用改进的循环一致性生成对抗网络来实现手写字体图像的风格迁移,生成质量较高的手写汉字字体。改进的CycleGAN采用超分辨网络中的亚像素卷积来代替原始CycleGAN中的转置卷积,用PReLU激活函数代替ReLU激活函数,引入图像正则TV loss来改善生成汉字的结构和笔画完整。改进后的CycleGAN提高了风格迁移的手写汉字图像分辨率,降低了手写汉字字体的错误率,改善了生成手写汉字字体的辨识度。

关键词 手写汉字风格迁移;CycleGAN;亚像素卷积;TV loss

引言

汉字字体生成在深度学习中有较多的研究,早期主要运用卷积神经网络实现汉字字体之间的映射,随着生成对抗网络的兴起,汉字字体的研究重心放在了生成对抗网络上。

基于编码-解码的卷积神经网络完成了汉字字体的生成,当是这种网络只能一对一的重建,人们无法对编码进行合理的修改,使得编码只有解码能“懂”,生成的汉字字体也很模糊。

基于生成对抗网络的汉字字体生成,2017年zi2zi被提出[1],运用于汉字字体风格迁移。zi2zi是基于Pix2Pix[2]进行改进。是汉字字体风格迁移较为成功的算法。但是zi2zi需要成对的大量的汉字字体作为训练。

基于CycleGAN的汉字字体风格迁移,2018年Chang B等人提出运用CycleGAN来实现手写汉字字体风格迁移[3]。但是,较少的汉字字体图像会使得模型学习到的字体风格有限,降低了模型的过拟合也降低了模型的泛化能力。

手写汉字字体风格迁移比标准字体风格更具难度,由于手写汉字字体结构复杂,笔画杂乱,连笔较多,导致一个人的手写汉字字体很难有统一的标准风格。针对上述汉字字体图像风格存在的问题,本文提出利用改进的CycleGAN来对手写汉字字体进行风格迁移,实验结果证明,模型能够生成结构更为完整,笔画更加清晰的手写汉字字体。

1改进的循环一致性生成对抗网络

1.1 CycleGAN

监督学习的风格迁移,需要将数据整理成对称的数据,这样的方式会浪费一些不对称的数据和需要耗费大量的整理时间。运用无监督学习的循环一致性生成对抗网络CycleGAN解决了监督学习中存在问题。CycleGAN含有一对生成网络,一个用于标准汉字字体到风格汉字字体的映射,一个用于风格汉字字体到标准汉字字体的映射,并且含有分别对其判定的判别网络。

生成网络和判别网络之间的损失函数公式如下:

其中:为数学期望,为服从关系,为手写汉字字体分布,为标准汉字字体分布,生成网络G为标准汉字字体到风格汉字字体的映射,为正向映射;生成网络F为风格汉字字体到标准汉字字体的映射,为反向映射,判别网络。为判别真实风格汉字字体和通过标准汉字字体生成的汉字字体的真假,判别网络为判别风格汉字字体和生成的标准汉字字体的真假。

CycleGAN中为了加强生成网络正向映射和反向映射之间了联系,引入了循环一致性损失函数,增强了生成的汉字字体为对方风格。X与F(G(X),Y与F(G(Y))的距离就称为Cycle-consistency Loss。

将Cycle-consistency Loss思想引入CycleGAN中,在CycleGAN中使用的是L1范数。公式如下:

将公式(1),(2),(3)联立,得到CycleGAN的目标函数:

其中为调整Cycle-consistency Loss在目标函数中的权重。

1.2 改进CycleGAN

在编码器和转换器网络中用InstanceNorm[4]代替Batch Normalization[5],Batch Normalization降低了网络的训练难度,加快了网络的收敛速度。Batch Normalization是对每一批次图像进行归一化操作,在分类任务中表现的较好,分类对于层级信息不敏感,但是在风格迁移生成任务中,需要较多的图像细节信息,而进行Batch Normalization会丢失掉大量的细节信息,而InstanceNorm是对每一张图像进行归一化操作,这样能比Batch Normalization保留更多的细节信息。

在原始的CycleGAN中的解码器网络中,上采样使用可学习的亚像素(sub-pixel)卷积[6]代替原始的转置卷积,转置卷积生成的图像会出现棋盘效应,且亚像素卷积的感受视野大于转置卷积的感受视野。因归一化层会丢失较多的细节,在解码网络中,本文将其去掉。

2实验与结果分析

本文提出改进的CycleGAN使用了1000张黑体和1000张手写汉字字体,其中手写汉字字体为HWDB1.1中的HW-1252,字体图像为128*128的单通道黑白图像。

网络训练将epoch设置为200,batchsize设为10,学习率设为0.0002,TV loss前参数设置为2e-8,Cycle-consistency Loss前參数设置为10。改进的CycleGAN训练后输入黑体得到的图像和原始CycleGAN得到的汉字图如图1,第一列为黑体,第二列为本文改进的CycleGAN生成的字体效果,第三列为原始CycleGAN生成的字体效果,第四列为HW-1252手写汉字风格字体。从图中的两种CycleGAN生成的效果对比看,本文改进的CycleGAN生成的汉字字体结构较为完整,笔画较清晰,生成的风格较为HW-1252相似。CycleGAN中生成的汉字字体出现了些笔画错误和笔画缺失。

本文改進的CycleGAN收敛情况,模型训练了200个epoch,在150个epoch时,loss G、loss G GAN和loss G cycle 接近收敛,训练到200个epoch时,在小范围波动,损失梯度已很小。

利用HWDB1.1训练数据训练开源的TensorFlow与中文手写汉字识别模型,迭代20万次,通过HWDB1.1测试数据集得到Top-1准确率为84.6%和Top-3准确率为93%,选取生成汉字中的样本进行手写汉字识别测试,“阵”字识别率在原始CycleGAN、本文方法和训练数据分别为19.3%、99.6%、99.9%,“轻”为95.7%、99.9%、99.9%,“淑”为52.1%、84.5%、99.9%,“词”为3.8%、99.7%、99.5%,“致”为19.7%、99.9%、93.9%,平均值为36.1%,96.7%,98.6%。通过比较,得出本文使用的算法能很好地生成出结构较为完整的手写汉字字体。

3结束语

本文根据CycleGAN存在的不足,提出了改进的CycleGAN,引入了TV loss来对约束图像,改用或者不用BatchNormal,来减少丢失汉字图像的细节信息,改用亚像素卷积,使得生成的汉字字体不会出现棋盘格,能生成高质量的汉字字体。通过对比原始CycleGAN的生成效果,本文提出的基于亚像素卷积的改进型CycleGAN能生成高质量的手写汉字字体。

参考文献

[1] Y. Tian. zi2zi: Master Chinese calligraphy with conditional adversarial networks[EB/OL]. https://github.com/kaonashi-tyc/zi2zi,2017-04-06.

[2] Isola P,Zhu J-Y,Zhou T,et al. Image-to-image translation with conditional adversarial networks[C]. Proceedings of the IEEE conference on computer vision and pattern recognition,2017:1125-1134.

[3] Chang B,Zhang Q,Pan S,et al. Generating handwritten chinese characters using cyclegan[C]. 2018 IEEE Winter Conference on Applications of Computer Vision(WACV),2018:199-207.

[4] Ulyanov D,Vedaldi A,Lempitsky V. Instance normalization:The missing ingredient for fast stylization[J]. arXiv preprint arXiv,2016,(22):1607.

[5] Ioffe S,Szegedy C. Batch normalization:Accelerating deep network training by reducing internal covariate shift[J]. arXiv preprint arXiv,2015,(167):1502.

[6] Shi W,Caballero J,Huszár F,et al. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network[C]. Proceedings of the IEEE conference on computer vision and pattern recognition,2016:1874-1883.