APP下载

深度学习汉字生成与字体风格迁移综述

2022-12-21王晨吴国华姚晔任一支王秋华袁理锋

中国图象图形学报 2022年12期
关键词:印刷体风格特征字体

王晨,吴国华,姚晔,任一支,王秋华,袁理锋

杭州电子科技大学网络空间安全学院, 杭州 310018

0 引 言

汉字作为一种信息交流工具,在人们工作生活中发挥着不可替代的作用。与大多数语言不同,中文汉字字符的数量远多于英文、法文、德文等语言的字符数量。多样的中文汉字字符增加了所传达信息和情感的丰富程度。目前最低标准的汉字编码字符集GB2312-80国标码选入了6 763个汉字。汉字结构复杂多变,笔画(stroke)是汉字的基本单位,每个汉字由一个或多个笔画构成的偏旁部首(radical)按照一定的拼字法,在2维矩形空间中排列组合而成。字体设计工作一般借助字体设计软件,对人工设计的偏旁部首等基本组件变形和组合构造完整的汉字。由于汉字具有数量庞大和风格多样的特性,字体设计是一项耗时耗力的工作。因此,如何处理并更高效地设计一套风格化汉字,成为汉字字体制作工作中急需解决的任务。

汉字字体风格迁移是对汉字字体进行转换的技术,即在汉字字符代表的语义内容不变的前提下,对汉字的字形做相应改变。Ma等人(2019)从基于计算机图形学和基于深度学习两个方面对汉字字体风格迁移技术进行综述。将汉字字体风格迁移分为基于传统方法的汉字字体风格迁移和基于深度学习的汉字字体风格迁移两大类。其中,基于深度学习的汉字字体风格迁移技术是当前该领域的主要研究方向。按照是否需要对汉字的笔画进行拆分和组合,可以将基于深度学习的汉字字体风格迁移技术分为笔画生成和汉字生成两类。笔画生成技术主要利用生成对抗网络(generative adversarial network,GAN)和循环神经网络(recurrent neural network,RNN)生成所需的目标风格笔画,通过预定义好的一套规则组合笔画,进而形成一个完整的汉字。汉字生成技术则是利用卷积神经网络(convolutional neural network,CNN)、自编码器(auto-encoder,AE)和GAN设计汉字生成网络,提取并学习汉字图像的特征,然后生成一个完整的汉字。

对于汉字图像来讲,基于深度学习的汉字生成技术借鉴图像风格迁移思想,将风格迁移表现在汉字笔画的变化上。因此,汉字图像的风格迁移本质是对汉字的字体风格进行转换,生成目标风格的汉字图像。从汉字图像的角度对字体风格进行转换与对笔画的局部风格化不同。一方面,将汉字看做一个整体,省略掉人工拆分偏旁部首的预处理工作,汉字生成网络可以更全面地获取字体风格特征;另一方面,从汉字的组成成分来看,汉字由语义内容和字体风格两部分组成。语义内容是汉字字符所表征的含义,具体指词性、释义等。字体风格是汉字笔画的一种印刷或个人风格表示,表现在汉字骨架结构和笔画的变化上,如部首间距、笔画倾斜程度、书写力度、笔画开始和结束形状等。对汉字图像的风格迁移可以很好地做到汉字语义与风格的区分,更符合对汉字进行字体属性转换的目标。

基于深度学习的汉字生成与字体风格迁移技术是汉字字体风格迁移领域中一个热门研究方向。近年来越来越多的学者在该领域开展研究工作,并且提出了若干种方法。本文对当前基于深度学习的汉字生成与字体风格迁移方法进行综述。首先根据不同的网络结构将现有方法分为3大类,即基于CNN、GAN和AE的方法,如图1所示,分别介绍代表性的汉字生成与字体风格迁移方法;然后对这些汉字图像字体风格迁移方法进行对比分析,并展示部分生成的汉字图像;最后对本领域的研究进行总结和展望。

图1 基于深度学习的汉字生成与字体风格迁移方法分类Fig.1 Chinese characters generation and font transfer methods based on deep learning

1 现有方法介绍

1.1 基于CNN的方法

CNN具有自动提取图像高维特征的能力,在图像分类、目标识别和风格迁移等任务中表现出色。CNN在不改变数据维度的同时提取图像特征,避免了维度重构过程中的信息丢失。

Gatys等人(2016)首次提出一种基于深度神经网络的图像风格迁移方法,使用VGG-19(Visual Geometry Group-19)网络提取图像不同层的特征,引入深层卷积层特征和卷积层之间的相关性分别作为图像的内容和风格约束,将普通图像的内容与艺术图像的风格相结合,生成一幅新的艺术图像。

针对汉字图像的字体风格迁移,Tian(2017)设计了由多个包含批量归一化、激活函数和最大池化的卷积层构成的字体风格迁移网络Rewrite。采用L1像素级损失和总变差损失(total variation loss)作为目标优化函数,但生成的汉字图像整体美观性欠佳。对于笔画较细的印刷体汉字,容易出现笔画模糊的现象;对于笔画较粗的印刷体汉字,由于多层卷积丢失了笔画细节信息,因此往往导致生成的汉字笔画扭曲。

Perarnau等人(2016)提出了实现人脸细节(头发、表情和性别等属性)变换的IcGAN(invertible conditional GAN)。借鉴此网络模型,Chang和Zhang(2017)改进了Rewrite的网络结构并提出Rewrite2。虽然生成的汉字图像受一定的噪声干扰,但改进后的方法提高了汉字图像的可识别性。

Yu和D-miracleAce(2018)将汉字图像应用于Gatys等人(2016)设计的图像生成网络,尝试生成融合指定非汉字图像风格的汉字图像。但是,该方法仅在汉字图像的背景和汉字笔画的纹理上体现了非汉字图像的风格,并没有实现真正意义上的汉字字体风格转换。

1.2 基于AE的方法

AE是图像生成任务中经典的深度学习模型(史丹青,2018),利用深度神经网络对数据的多层抽象能力,学习真实样本的数据分布特征,并生成逼真的伪样本。

针对自然场景图像下的文字编辑问题,Wu等人(2019)设计了文本风格保持网络SRNet(style retention network),构成该网络的文本转换、背景修复和文本背景融合模块均采用AE结构框架,在保持文本图像原有风格的同时,替换其中的文字内容,达到与原文本图像风格一致的可视化效果。

肖奋溪(2018)将独热编码(one-hot encoding)的标签引入U-Net(Ronneberger 等,2015)结构控制字体类别,采用平均绝对值误差损失,增强生成图像的锐度和清晰度,实现一对多的汉字字体风格迁移。针对标签控制字体风格特征的局限性,设计了人为控制字体风格和语义内容特征的迁移网络。

Kingma和Welling(2014)利用变分自编码器(variational auto-encoder, VAE)提取字体风格特征,并与作为语义内容特征的字体类别标签融合。通过对编码器进行分布约束,为小样本的风格迁移提供了可能,但生成的汉字图像不如自编码器结构生成的清晰。

Sun等人(2018b)在VAE框架下设计了字体风格迁移网络SA-VAE(style-aware variational auto-encoder),根据汉字的结构和偏旁部首等信息,定义了一套字符编码规则,每个汉字可被编码为一个133 bit的二进制字符串,为汉字内容提取网络补充结构细节信息。汉字风格提取网络的输入是一组相同风格不同内容的参考汉字集。将提取的内容特征和风格特征进行融合,生成目标字体汉字图像。该方法适用于印刷体—印刷体和印刷体—手写体的字体风格转换任务。

利用文本图像风格和内容之间的条件依赖性,Zhang等人(2018,2020b)采用提取和组合汉字风格及内容特征的思想,设计了汉字字体迁移网络EMD(encoder mixer decoder)。该方法从数量有限的风格图像集(相同风格不同内容)和内容图像集(相同内容不同风格)中分别提取图像集共有的字体风格和语义内容特征。然后,通过双线性函数的混合器融合这两类特征,并送入解码器生成指定字体风格和内容的汉字图像。该方法依赖特定数量的图像集实现字体风格的转换,无需收集大量的源—目标字体汉字图像对。

为了更有效提取文本风格和内容特征,Zhu等人(2020)设计内容编码器对目标文本图像去风格化后的内容图像进行编码获得内容特征,然后将去风格化后的源字体和目标字体的内容图像分别送入风格编码器提取风格特征,提取的特征之间的距离构成相似性矩阵(similarity matrix,SM),源字体文本图像经过风格编码器和矩阵运算得到最终的风格特征,并与内容特征一起送入解码器。该方法适用于英文字母和少量汉字的生成,对于数量庞大、风格复杂的汉字,生成效果还有待提高。

1.3 基于GAN的方法

GAN的核心思想来源于博弈论的纳什均衡,体现在生成器和判别器的不断优化过程中(Goodfellow 等,2014)。生成器的任务是学习真实的数据分布,生成伪造的图像诱导判别器做出错误决定;判别器则是尽量正确地判别输入数据是真实数据还是来自生成器。通过双方的博弈对抗,判别器最终难以区分真实图像与生成器生成的伪造图像。

GAN提出后,在汉字字体风格迁移领域研究中掀起了热潮。按照生成器学习汉字字体风格特征的方式,基于GAN的方法分为自学习汉字风格特征、外部输入汉字风格特征和网络提取汉字风格特征 3类,如图2所示。

图2 基于GAN的汉字字体风格迁移方法分类Fig.2 Chinese characters font transfer methods based on GAN ((a) self-learning font style features;(b) external font style features;(c) extractive font style features)

1.3.1 自学习汉字风格特征的字体风格迁移方法

Isola等人(2017)设计了基于条件生成式对抗网络(conditional generative adversarial nets, CGAN)(Mirza和Osindero,2014)的图像风格迁移网络pix2pix,可以实现如草图—实物图、灰度图—彩色图等成对图像数据集的风格转换,生成器的编码器和解码器采用U-Net结构的跨层连接(skip connection)方式,将各层编码后的特征连接到解码器对应层的特征上。pix2pix采用L1像素级损失和对抗性损失作为目标优化函数,生成的图像清晰,较出色地完成了图像风格迁移任务。

Chang和Gu(2017)在图像风格迁移网络pix2pix的基础上,设计了汉字字体风格迁移网络Unet-GAN,通过增加卷积层数量,将生成器的网络结构扩展到16层,在保留汉字结构和笔画细节信息的同时,实现了印刷体—手写体的字体转换。

Lei等人(2018)在Unet-GAN基础上,增加了分类网络实现手写体汉字的风格转换。预训练好的分类网络将识别的字体风格信息提供给生成器和判别器。生成器和判别器共同训练,将源字体汉字图像转换成目标字体汉字图像。该方法能够从少量的样本中学习和生成完整的个人手写体字库。

Sun等人(2018a)提出基于pix2pix的汉字字体风格迁移网络PEGAN(pyramid embedded generative adversarial network),在生成器的编码器中引入级联细化连接(cascaded refinement connection),采用预训练的VGG-19计算感知损失,与L1像素级损失、字体类别损失和对抗性损失加权构成目标优化函数。

Lu和Hsiang(2018)制定了训练集的选择标准,基于偏旁部首,对汉字进行笔画分解,选择包含最大汉字部首数的汉字集作为训练集。编码器分别提取源字体和目标字体汉字的特征,这些特征分别作为特征迁移网络的输入和输出。同时,通过对特征迁移网络输出的特征进行解码,得到目标字体汉字图像。该方法只需使用少量目标字体汉字进行学习即可生成剩余部分的目标字体汉字,得到一个完整的字库。

Chang等人(2017,2018b)和常杰(2019)设计了一种多层结构的字体风格迁移网络HAN(hierarchical adversarial network)。阶段解码器利用低层和高层的特征图刻画汉字全局的骨架和局部的笔画细节,生成相应的中间层汉字图像,并与最终生成的目标汉字图像一起送入判别器。生成的汉字图像与真实的汉字图像之间的像素级损失以及中间层汉字图像产生的对抗性损失有助于提高生成器拟合真实图像的能力。HAN生成的汉字笔画比EMD更完整清晰。

受图像生成任务中表现优越的自注意机制(self-attention mechanisms)的启发(Vaswani 等,2017),Ren 等人(2019)提出由风格迁移网络和判别器构成的汉字字体风格迁移网络SAFont(self-attention font),使用自注意力块计算汉字特征在迁移前后的注意力变化,在总体损失函数上额外设计了边缘损失函数,使生成的汉字图像笔画边缘更清晰,汉字图像的生成质量高于zi2zi和HAN。

区别于草图—实物图、灰度图—彩色图这种配对的图像数据集,CycleGAN是在不配对数据集上进行的图像风格迁移网络。由于在现实生活中找到成对的数据集是非常困难的,CycleGAN解决了图像数据集不配对的问题,以无监督学习的方式,实现了两种毫无关联图像的双向风格迁移。

Chang等人(2018a)针对印刷体到手写体的风格转换提出了DenseNet-CycleGAN。由字体A迁移到字体B再迁移到字体A的两个映射网络(mapping network)循环构成。该方法在AE结构的生成器中引入了DenseNet(dense convolutional network)以提高生成图像的质量,采用对抗性损失和循环一致性损失对网络进行优化,诱导判别器对生成的图像做出错误判断。由于CycleGAN自身的局限性,生成的汉字图像中存在较多的笔画错误。

在CycleGAN的基础上,Li等人(2019)采用SSD(single shot multibox detector)目标检测方法提取表示汉字字形结构的关键点,利用图匹配方法计算输入图像和生成图像的字形结构损失。该方法改善了汉字图像字形结构的生成效果,适用于印刷体汉字的字体风格转换,但对行书和草书等笔画不分明的连笔字体,由于节点检测相对困难,生成效果较差。

张艺颖(2019)提出了基于改进的特征匹配算法的字体风格迁移网络OFM-CycleGAN(optimized feature matching cycleGAN)。该方法在CycleGAN的正向与逆向映射过程中引入改进的特征匹配算法,匹配判别器提取的真实图像与生成图像的特征,以学到更多真实数据的分布信息,有效提升手写体汉字的生成质量,实现印刷体汉字到手写汉字之间的转换。

从汉字笔画的角度,Zeng等人(2020)引入笔画编码的思想设计了汉字字体风格迁移网络Stroke-GAN,对基本的32种汉字笔画进行编码,生成器根据输入的源字体汉字和对应的笔画编码生成目标字体汉字图像。随后,生成的汉字图像送入还原网络以恢复对应的源字体汉字。判别器对输入的汉字图像辨别真假,并重构笔画编码。该方法定义了笔画编码重构损失优化网络参数,更好地保留汉字的笔画细节,生成的汉字图像更真实。除了汉字字体生成,笔画编码的思想也适用于日韩文等其他语言的字体生成任务。

1.3.2 外部输入汉字风格特征的字体风格迁移方法

在图像风格迁移pix2pix网络结构的基础上,Rewrite的提出者设计了适用于中韩文字体的字体风格迁移网络zi2zi(Tian和Chong,2017)。该网络在AE的中间层(embedding)连接了代表目标字体的类别标签,并使用Odena等人(2016)提出的基于条件图像合成模型的辅助分类器。该分类器的两个全连接层分别输出对图像真伪和字体类别的鉴别结果。zi2zi设计字体类别损失函数和语义一致性损失函数(constant loss)约束网络参数的优化。对于结构简单、笔画较粗的印刷体汉字,生成的汉字效果较好。

Wu等人(2020)提出了一种基于特定内容的风格化汉字图像生成网络CalliGAN,将汉字语义内容进一步拆分成字典序列和编码器提取的字形特征,并与字体风格标签转换的独热向量(one-hot vector)拼接解码得到生成的指定书法体汉字图像,实现印刷体—手写体的风格迁移。

StarGAN(Choi 等,2018)最初被用来对人脸图像进行风格迁移,用一个统一的框架实现人脸的头发、眼睛、皮肤、年龄和表情等多个域之间的转换,解决了图像风格迁移的一对多问题。Chen等人(2019b)、陈杰夫等人(2019a)、陈杰夫(2020)在StarGAN的基础上引入了字体风格指定机制,生成器可以同时学习多种不同的字体风格。该方法将汉字图像与字体风格标签的独热向量合并送入生成器,设计字体类别损失函数和语义一致性损失函数来约束网络参数的优化,可以一次性生成多种不同字体风格的汉字,还可以融合不同的字体风格特征设计全新的字体。

滕少华和孔棱睿(2019)将CGAN与Wasserstein生成式对抗网络(Wasserstein GAN, WGAN)(Arjovsky 等,2017)相结合,利用残差网络能够有效学习汉字空间结构间的微小差异的优势,由下采样块、残差网络和上采样块构成汉字生成网络的基本结构。不同数字作为不同字体风格间的迁移条件,在一定程度上改善了汉字的生成效果,有效实现了印刷体和手写体的双向迁移,可以完成一对一和多对多的字体风格迁移任务。

Gao和Wu(2020)提出了一种三阶段(ENet-TNet-RNet)的汉字字体风格迁移网络。其中,汉字骨架提取网络(skeleton extraction network,ENet)利用一组掩码矩阵和指定的字体风格标签提取源字体汉字的骨架结构,在汉字骨架迁移网络(skeleton transformation network,TNet)和汉字笔画生成网络(stroke rendering network,RNet)中输入表示字体风格标签的独热向量。TNet将提取的源字体汉字骨架转换成目标字体汉字骨架结构。RNet学习目标字体的笔画信息,在目标字体汉字骨架上渲染笔画细节以生成目标字体汉字图像。该方法也适用于印刷体—手写体风格转换,但生成图像的质量不如印刷体—印刷体的风格转换。与CycleGAN相比,该方法汉字生成效果更稳定,能够学习多种汉字字体的共性。

Zhang等人(2020a)提出了由语义模块、结构模块和迁移模块构成的汉字生成模型SSNet(structure-semantic net)。其中,语义模块的编码器作为语义特征提取器,结构模块提取源字体汉字图像的笔画(横竖撇捺折)特征并还原,用随机高斯噪声初始化目标字体风格特征。迁移模块将语义、结构和风格特征解码生成目标字体汉字图像。SSNet设计了感知损失、层次对抗损失、风格损失和Dual-masked Hausdorff距离等多个损失函数作为迁移模块的目标函数。生成效果在汉字图像质量和准确度上都有显著提高,并且保留了汉字的骨架结构信息。

1.3.3 网络提取汉字风格特征的字体风格迁移方法

Lyu等人(2017)提出由监督网络和迁移网络构成的书法体风格迁移网络AEGN(auto-encoder guided GAN)。其中,监督网络重构目标书法体图像,其解码器输出尺寸为16×16-128×128像素的特征图(feature map),为迁移网络解码器对应大小的特征图提供汉字笔画细节信息。迁移网络引入残差模块实现编码器与解码器的信息共享,学习源字体与目标书法体图像之间空间结构的细微差别。

Jiang等人(2017)设计了一种端到端的汉字字体风格迁移网络DCFont(deep Chinese font),利用预训练好的VGG-16(Visual Geometry Group-16)网络提取汉字图像的字体风格特征,并与字体风格迁移网络提取的汉字语义内容特征进行特征融合。随后,通过由多个包含批量归一化、激活函数的卷积层构成的5个残差模块,以跨层连接的方式解码得到生成的目标字体汉字图像。判别器对目标字体汉字图像的真假以及字体类别进行判别。

Zheng和Zhang(2018)设计了汉字字体风格迁移网络CocoAAN(coconditional autoencoding adversarial network),该网络由编码和对抗两个子网络构成。编码网络通过交替优化策略将源字体和目标字体汉字图像分别映射为内容和风格特征;对抗网络将这两种特征拼接送入生成器中得到生成的汉字图像。CocoAAN还设计了汉字标签与输入汉字图像合并的方法,在编码网络中的两个编码器和对抗网络中的判别器前3个卷积层后增加FC-Add(fully connect-add)操作。实验表明,CocoAAN在设计全新风格化汉字上具有强大的泛化能力。

针对生成艺术字体的汉字风格迁移网络,Yang等人(2019)设计了集成汉字风格化和去风格化为一体的汉字艺术字体风格迁移网络TET-GAN(texture effects transfer GAN)。该方法首先建立由837个字符(包括汉字、数字和英文字母)和64种艺术字体风格组成的图像数据库,然后对艺术字体图像的语义内容特征和字体风格特征进行提取并组合,完成汉字风格化和去风格化的任务。去风格化可以为网络提供语义内容特征明显的汉字骨架图像,以实现汉字语义内容特征的无监督学习。

Gao等人(2019)提出了由一个生成器和多个判别器构成的艺术字体风格迁移网络AGIS-Net(artistic glyph image synthesis network)。为了分离汉字的字体风格和语义内容,该方法从一组字体风格一致的艺术字体图像集中提取共有的风格特征,并与源字体汉字图像的内容特征融合。字形、纹理判别器和局部判别器分别对解码器生成的字形图像、纹理图像以及局部纹理区域判别真伪。AGIS-Net定义了上下文损失和局部纹理损失,进一步提高了生成图像的笔画纹理精度。该方法生成的汉字图像保留了源字体汉字的语义内容,具有艺术字体图像集共有的艺术字体风格。

Liu等人(2021)将汉字的风格化和去风格化集成到统一框架中,提出了汉字字体风格迁移网络FontGAN。该方法引入字体一致性模块(font consistency module,FCM)和内容先验模块(content prior module,CPM),解决了去风格化过程中笔画丢失问题。将源字体和目标字体汉字图像分别送入内容编码器和风格编码器,经过特征融合解码生成指定内容和风格的汉字图像。

Xiao等人(2020)针对不配对的汉字数据集提出了汉字风格迁移的多重映射模型。通过对汉字的风格特征向量归一化处理,风格编码器可以随机提取多种字体风格特征,生成多种字体的汉字图像。该方法还设计了KL散度(Kullback-Leibler divergence)损失约束风格编码器提取的风格特征满足高斯分布,适用于印刷体和手写体的字体风格迁移任务。

2 现有方法对比

2.1 现有方法小结

在汉字字体风格迁移领域,主流研究方向是借鉴图像风格迁移的思想,对汉字图像的字体风格进行转换。根据字体风格迁移网络对数据集规模、适用的字体类别和生成效果等方面的需求和表现,本文对经典汉字字体迁移网络进行梳理,如表1所示,并总结归纳为以下几点:

表1 基于深度学习的汉字生成与字体风格迁移方法对比Table 1 Comparison of Chinese character generation and style transfer methods

1)基于衍生的GANs模型设计字体风格迁移网络。Chang等人(2018a)针对印刷体—手写体风格迁移设计DenseNet-CycleGAN,实现了两种特定字体的双向迁移。张艺颖(2019)在CycleGAN的正向与逆向映射过程中应用改进的特征匹配算法,有效提升了手写体汉字的生成质量。Chen等人(2019b)、陈杰夫(2020)和陈杰夫等人(2019a)在StarGAN基础上引入了字体风格指定机制,同时学习多种不同的字体风格。滕少华和孔棱睿(2019)利用残差网络能够有效学习汉字空间结构微小差异的优势,将CGAN与WGAN相结合,设计风格迁移网络,改善了汉字图像的生成效果。

2)尝试多种方法有效提取汉字图像的语义内容和字体风格特征。AGIS-Net、EMD、SSNet和SA-VAE采用提取共有特征的方式,从一组内容不同风格相同的参考数据集和一组风格不同内容相同的参考数据集中分别提取共有的字体风格特征和语义内容特征。DCFont利用VGG-16网络提取汉字图像的字体风格特征。StrokeGAN引入笔画编码补充汉字的笔画细节信息。由于强调汉字结构,StrokeGAN比DenseNet-CycleGAN和zi2zi生成的汉字图像更真实,笔画准确率更高。CalliGAN将字典序列作为语义内容特征的一部分,与编码器提取的字形特征融合构成汉字图像的语义内容特征。在印刷体—手写体风格迁移任务上,CalliGAN的汉字图像生成效果优于zi2zi。

3)将关注点放在笔画纹理更丰富的生成艺术字体的汉字图像风格迁移上。从汉字组成的角度,将艺术字体汉字图像特征细化到字形和笔画纹理,AGIS-Net和TET-Net通过设计多个判别器定义新的损失函数优化网络参数。与TET-GAN相比,AGIS-Net在艺术字体风格迁移任务中学习字形和纹理的能力更强,生成的汉字图像保留了源字体汉字的语义内容,具有目标字体汉字图像集共有的艺术字体风格。

4)设计损失函数优化模型参数。肖奋溪(2018)用平均绝对值误差损失增强生成图像的锐度和清晰度。PEGAN和SSNet利用预训练好的VGG-19计算感知损失。DCFont利用VGG-16网络提取汉字图像的高层特征设计风格一致性损失。与zi2zi相比,PEGAN提高了汉字图像的可识别性和生成质量。

5)集成汉字字体风格化和去风格化为一体的迁移网络。TET-Net和FontGAN将汉字的风格化和去风格化集成到统一框架中,在数据集不配对的情况下更灵活地实现字体风格迁移。FontGAN对汉字笔画细节的学习效果优于zi2zi和Rewrite,实现了印刷体和手写体两种字体风格的双向迁移,可以处理一对多、多对一和多对多的汉字字体迁移任务。

2.2 对比实验

2.2.1 数据集

为了对比分析不同算法的性能,本文构建新的数据集。具体步骤如下:

1)按汉字部首检字表收集简体字和繁体字,共6 683个汉字,按一个字一行的格式列出汉字清单。

2)从Windows自带的中文字体中选择字体文件,每个字体文件代表一种汉字风格。

3)根据汉字清单和字体文件,将收集的6 683个汉字转换为汉字图像,每幅图像为所选字体文件代表的风格化汉字。分辨率根据对比实验的需要设置为64×64像素或256×256像素。根据字体和分辨率将汉字图像放入对应的文件夹,文件夹按照 “字体名字+分辨率”的格式命名。同时,文件夹里的汉字图像,以其代表的汉字信息命名。

4)选取最常用的印刷体仿宋体作为源字体,黑体、楷体、华光行书和华文行楷4种字体依次作为目标字体,源字体和目标字体两两配对构成训练数据集。

对于新的字体文件,可以按照上述步骤生成新的汉字图像并补充到数据集中,实现数据集的扩充。

2.2.2 评价指标

常用的图像质量评价指标有峰值信噪比(peak signal-to-noise ratio,PSNR)、结构相似性(structural similarity index,SSIM)、均方误差(mean square error,MSE)、均方根误差(root mean square error,RMSE)和像素级准确率(pixel-level accuracy,pix_acc)等。其中,PSNR常用于图像压缩等领域,对压缩前后图像的质量进行客观评价。SSIM基于亮度、对比度和结构3个方面衡量两幅图像的差异。MSE从像素的角度衡量两幅图像对应位置的像素值误差,RMSE是MSE开根号的值。pix_acc对比两幅图像对应位置的像素值是否一致,统计满足该条件的像素点数目,计算其在整个图像中所占的比例。

为了更好地衡量生成图像的质量和多样性,通常采用IS(inception score)和FID(Fréchet inception distance)评价不同的GAN模型。这两个指标都是基于Inception network对图像进行特征提取,计算生成图像与真实图像数据分布的距离。IS采用KL散度衡量两个分布之间的距离。IS值越大,表明生成图像越好。FID通过均值和协方差衡量真实图像与生成图像的距离,对噪声具有一定的鲁棒性。FID值越小,意味着生成图像的质量越高、多样性越好。

从汉字图像的角度,可以从两个方面评估汉字字体风格迁移网络的生成效果。1)从生成图像给人的整体感观进行评价。由于字体风格特征的学习效果、汉字笔画的连贯性和完整性都可以通过人眼进行判断。因此对汉字图像的主观评价可以作为衡量不同方法生成效果的指标之一。2)汉字笔画是由图像像素点构成的,可以通过汉字图像像素点位置的准确度(pix_acc)评估汉字图像的生成效果。在对比实验中,选择在汉字字体风格迁移研究中使用频率较高的两个客观指标RMSE和pix_acc衡量汉字图像的生成质量。各方法的主观评价结果如表1最后一列所示。RMSE和pix_acc的具体定义为

(1)

(2)

式中,f和r分别表示生成图像(fake)和真实图像(real)的2维向量,两幅图像中对应位置的像素值分别用fi,j和ri,j表示,M和N代表图像在两个维度上的像素点总数。I{·}在fi,j=ri,j时值为1,否则为0。RMSE值越小、pix_acc值越大意味着该字体风格迁移网络生成的汉字图像越逼真。

2.2.3 实验结果与分析

实验选取的对比算法为Rewrite2、zi2zi、Unet-GAN和TET-GAN,选择仿宋作为源字体,黑体、楷体、华光行书和华文行楷依次作为目标字体。实验结果如图3—图6所示,生成的汉字图像目标字体风格特征都较为明显。

1)对于目标字体是黑体、楷体这种印刷体的字体风格迁移,生成结果如图3和图4所示。Rewrite2学习目标字体内容特征的能力较弱,生成汉字普遍存在笔画混乱现象,笔画连贯性以及汉字完整性有所欠缺。zi2zi和TET-GAN能较好地完成印刷体风格转换任务,但笔画扭曲和模糊现象较明显。

图3 源字体仿宋转换成目标字体黑体的生成结果Fig.3 Generate results of transferred source font (simfang.ttf) into target font (simhei.ttf)

图4 源字体仿宋转换成目标字体楷体的生成结果Fig.4 Generate results of transferred source font (simfang.ttf) into target font (simkai.ttf)

2)对于目标字体是华光行书、华文行楷这种手写体的字体风格迁移,生成结果如图5和图6所示。Rewrite2生成的汉字基本不可识别,无法学习个别汉字(如“扁”、“荡”、“煊”、“慕”等)的基本笔画结构,生成的汉字图像有大面积的白色区域,不符合实际场景使用。TET-GAN生成的汉字笔画断续较多,连贯性不够,个别汉字(如“茭”、“苌”)的部分笔画结构无法生成。zi2zi生成汉字的质量无法保证,对于笔画紧凑、连笔的汉字(如“嬷”),生成的汉字图像不能传达任何信息,出现大面积的黑色区域。Rewrite2、TET-GAN和zi2zi无法生成个别汉字,不适用于印刷体—手写体的转换任务。

从主观上判断生成汉字的优劣,相比于Rewrite2、TET-GAN和zi2zi,Unet-GAN在印刷体和手写体的字体风格迁移任务中,生成的汉字图像笔画痕迹明显,清晰度更高。

图5 源字体仿宋转换成目标字体华光行书的生成结果Fig.5 Generate results of transferred source font (simfang.ttf) into target font (hgxs_cnki.ttf)

除了展示生成的汉字图像外,实验还利用RMSE和pix_acc两个客观指标量化评估汉字图像的生成效果。首先,将生成的汉字图像分辨率统一设置为256 × 256像素,并对汉字图像进行灰度化和二值化处理。随后计算RMSE和pix_acc指标,如表2所示。RMSE值越小、pix_acc值越大意味着该字体风格迁移方法生成的汉字图像质量越高。从表2可以看出,无论是印刷体还是手写体的字体风格迁移任务,Unet-GAN生成的汉字质量优于其他3种方法。

图6 源字体仿宋转换成目标字体华文行楷的生成结果Fig.6 Generate results of transferred source font (simfang.ttf) into target font (stxingka.ttf)

表2 经典模型的客观评价指标对比Table 2 Objective evaluation comparison of classic font transfer methods

从生成汉字图像的主观评价结果和客观评价指标来看,Unet-GAN生成的汉字图像更完整清晰。Unet-GAN对印刷体和手写体的字体风格迁移生成效果良好,汉字笔画痕迹明显。Rewrite2、zi2zi和TET-GAN更适用于印刷体的字体风格迁移任务,在汉字笔画细节上的生成能力还有待提升。

3 结 语

汉字字符具有数量庞大、结构复杂和风格多样的特性,一些运用深度学习方法的字体风格迁移网络未能很好地完成字体风格迁移任务。字体风格迁移网络不得不在提取语义内容和字体风格特征上做更多尝试。在字体风格迁移领域面临的难点可以归纳为以下几点:1)笔画模糊和错乱现象普遍。对于笔画较复杂的汉字,字体风格迁移网络生成的汉字图像容易出现笔画模糊和错乱现象,影响整个汉字图像的可识别性和美观性。2)汉字图像的多域字体风格转换方法不成熟。大多数字体风格迁移网络可以完成一对一的字体转换任务,但字体风格迁移网络学习多种汉字字体风格,实现汉字图像多域字体转换的研究还不够成熟。3)设计生成全新汉字字体的字体风格迁移网络。大多数字体风格迁移网络只能对已经存在的字体风格进行转换。利用字体风格迁移网络,对风格特征插值生成全新汉字字体的研究还不够成熟。4)数据集规模较大。对于汉字字体风格迁移来说,字体风格迁移网络应尽量使用小规模的数据集,学习源字体与目标字体之间的映射关系,提高学习能力和泛化能力。

基于深度学习的汉字生成与字体风格迁移方法在印刷体和手写体转换上取得了大体满意的生成效果,但是仍然存在一些问题有待改进。在未来的研究中,可以针对以下方面展开工作:1)特征的有效提取。汉字特征的拆分对于笔画纹理丰富的汉字来讲是一个不错的风格转换处理方式,可尝试挖掘有效提取字体风格和内容特征的深度学习模型,充分利用卷积神经网络对图像的处理能力。2)小样本学习训练。基于深度学习技术设计的风格迁移网络的图像生成效果与训练集的规模有较大关系。为了减小数据集的规模,避免训练时间过长,可以优先选择涵盖偏旁部首较全面的汉字作为训练集。3)汉字局部区域的生成与判别。对于结构复杂的汉字,生成的汉字图像容易出现笔画模糊错乱的现象,可尝试将汉字图像分割成多个局部的汉字图像块(patch),利用字体风格迁移网络对局部汉字图像进行字体风格转换,同时设计判别器判断局部汉字图像的效果,用于中文文本信息隐藏(Wang 等,2021;孙杉 等,2022)。4)汉字风格化和去风格化的融合。设计通用的字体风格迁移网络,满足汉字图像的多域字体转换和生成全新汉字字体的需求。汉字的去风格化为生成全新的汉字字体提供汉字骨架结构信息,通用的字体风格迁移网络可以使汉字字体设计更加高效。

猜你喜欢

印刷体风格特征字体
傣族舞蹈中基本体态短句的风格特征及训练方法
西夏文楷书和草书手写体探微
浅谈小学英语字母手写体与印刷体的教学
字体的产生
浅析甘肃清水县轩辕鼓舞的风格特征
浅析蒙古族民间舞蹈中“绕肩”的审美规范
高考的时候,把字写得像印刷体有用吗
基于民族风格特征的云南原生态音乐分类研究
组合字体
字体安装步步通