APP下载

数字化背景下基于深度学习的生成设计在视觉识别平台中的应用研究

2023-11-07范家墁

吉林化工学院学报 2023年3期
关键词:卷积样本函数

范家墁

(福州外语外贸学院 艺术与设计学院,福建 福州 350202)

目前数字化技术得到大力发展,传统的视觉设计与展示方式难以与互联网时代下的动态高速传播相适应,受众对视觉创意提出了更高的交互需求与感官体验[1]。技术手段的飞速发展与人们去中心化的设计审美需求使得生成设计成为近年来众多学者的重点关注对象,先进的科学技术与视觉设计的结合为视觉识别设计带来了新发展[2]。陈会岗等人发现在现代化图书馆建筑的空间视觉设计中,需以网络化与数字化为基础,将空间视觉设计与高科技发展结合,以实现建筑空间视觉设计的可持续优化[3]。王娜娜等人为探究视觉传达设计中的生成设计方法,分析了生成式设计处理创意设计中数据驱动信息的合理方法,从逻辑构建角度为数据介入视觉设计系统提供思路[4]。靳鹤琳为将传统文化元素融入到动态视觉设计中,分析了利用民族元素在动态视觉中的应用、传统文化元素的含蓄性与现代设计形象的融合等策略。结果发现将传统文化融入现代动态视觉设计中,能有效推动中国传统文化的传承,并将其与世界水平进行连接[5]。

根据上述有关生成设计与动态视觉设计的研究可以发现,将深度学习与数学模型运用在视觉设计中的研究非常少。为实现先进计算机技术与传统视觉识别设计的有效结合,研究将卷积神经网络(Convolutional Neural Networks,CNN)与生成对抗网络(Generative Adversarial Networks,GAN)结合,使用谱归一化的全局权重以加速训练,构建条件深度卷积生成对抗网络模型(Conditional Depth Convolution to Generate Antagonism Network,CDCGAN)。使用生成模型辅助参与视觉设计的过程,生成智能的视觉设计方案,以此满足用户多元化的视觉识别设计需求。

1 基于深度学习的智能化视觉识别设计平台的构建

1.1 基于深度学习智能生成技术设计

智能图像生成技术有助于人工智能的机器学习等系统,促进其将接收到的信息转化为系统可理解与处理的信息,使得自我知识体系不断完善,进而提高系统的性能。智能图像生成技术的原理是平台系统通过计算机视觉尝试分析接收到的图像与图形,感知集合信息,提取其中的特点,进而能离开模仿特征生成相关图形或图像[6-7]。生成设计技术从实践角度分析,其过程是一个运用图像处理相关算法对设计过程进行一定随机与自定的逻辑系统,为最终的设计过程及其过程的表达提供一种设计范式的转变。其中深度学习中最为典型的是GAN模型,其原理是通过运用对抗过程估计生成模型,同时训练捕获数据分布的生成模型与估计样本来自训练数据而非生成模型的概率的判别模型,通过生成网络与对抗网络的相互博弈,获取图像生成更高的学习能力与适应性。通过GAN技术就可在上述流程的循环下生成更多的创意性图形或图像,甚至可实现以假乱真的效果[8-9]。在图像处理领域中最为主流的深度学习算法有CNN,与以往的图像处理算法进行比较,CNN能有效减少图像预处理所需的时间,可直接输入原始图像,已被广泛应用于各类图像的相关应用中[10]。此外,CNN在处理大规模数据集方面极具优势,特征分类能力也是极佳,还具有更高的准确性。为解决GAN存在的难以处理离散形式的数据以及训练不稳定、梯度消失与模式崩溃等问题,研究在CGCN模型的技术上,引入CNN进行无监督训练,将其替代全连接层,最终构建条件深度卷积生成对抗网络模型,将其用于视觉识别中。GAN模型包含生成器B与判别器A两个部分,判别器属于二分类问题,因此其损失函数运用分类交叉熵函数,见式(1)。

(1)

式(1)中的p(d|u)和p(B|u)分别是真实数据集与生成样本集的概率;A(u)为A预测u是真实样本的概率。样本u的来源分为两部分,一部分是实际数据集,另一部分A的生成。令pd(u)=p(u|d)代表从实际数据集得到样本的概率,令pB(u)=p(u|B))代表从B中得到样本的概率,可得式(2)。

(2)

将式(2)代入式(1),并进一步得到GAN的目标函数,见式(3)。

(3)

在训练过程中,判别器属于目标函数的最大值,生成器属于目标函数的最小值。CGANM是在传统GAN模型基础上,引入条件数据信息,辅助生成过程,可得CGANM的目标函数,见式(4)。

(4)

式(4)的v与z分别为生成器B输入的条件与随机噪声;判别器A中的输入包括真实数据u与对应的条件v;Eu~pd(u)[logA(u|v)]是在v下,A对真实样本分布的数据判定为真实数据的概率估计;Ez~pz(z){log[1-AB(z|v)]}是在v限定下,采样于正态分布的z由B生成的样本通过A判断其为真实数据的概率估计。综上可得CGCN模型的流程图,见图1。

图1 CGCN模型的流程

生成器生成图像可以看作图片分类模型的一个相反的过程,使用随机向量每个维度刻画不同的细节,进而生成一张图片。对于CNN,每一层的卷积核大小与数量可进行设定,越靠近输入层的卷积层设定少量的卷积核,越往后,卷积层设定的卷积核数目越多。由经验确定,在一般情况下,靠近输入层的卷积层会找出一些共性的特征,越往后,卷积核设定的数量越多,就可找到更为复杂的特征,越能体现label特征越细致,也就越容易分类出来。

1.2 智能化视觉识别设计平台的建立

为实现更好的视觉识别设计,深度卷积生成对抗网络(Deep convolution generation antagonism network model,DCGANM)聚集了GAN与CNN的优势,在训练过程中能保持网络状态的稳定,并能有效实现高质量图片的生成,进而实现GAN算法效果的提升。根据CGCN与DCGANM,针对模型中还存在生成模型与判别模型在对抗中训练较慢的问题,使用谱归一化的全局权重以加速训练,以及提高生成图像的质量,最终可构建CDCGAN模型。由于神经网络模型在一般情况下对于输入扰动的不敏感性,通常能提升模型的泛化性,见式(5)。

v=f(ωu+a) 。

(5)

式(5)的f是激活函数;ω为权重;a是偏置。输入扰动的不敏感性,即当‖u1-u2‖较小时,‖f(ωu1+a)-f(ωu2+a)‖尽可能地小。Lipschitz对上述提出一个具体的约束,存在H(ω,a),式(6)就可恒成立。

‖f(ωu1+a)-f(ωu2+a)‖≤H(ω,a)·‖u1,u2‖ ,

(6)

若u1与u2尽可能地相近,就可将式(6)左边使用一阶项近似得到等式。若该等式成立,须运用一个倒数有上下界的f,常见的激活函数均可满足该要求。进一步简化等式,可得式(7)。

‖ω(u1-u2)‖≤H(ω,a)·‖u1,u2‖ 。

(7)

将上述问题转化为矩阵范数问题,可定义为式(8)。

(8)

该范数为谱范数(Spectral Norm,SN),将其代入式(7)可得式(9)。

‖ω(u1-u2)‖≤‖ω‖2·‖u1,u2‖ 。

(9)

对于SN的通常情况下,可利用幂迭代的方式近似求得,见式(10)。

(10)

通过式(10),将x与y初始化后,进行迭代若干次就可得到SN的近似值。谱正则化将计算得到的SN的平方,作为额外的正则项系数加到模型的损失函数。传统图像中许多经典特征均为分组表征且可分组归一化(Group Normalization,GN)处理的特征。在相同条件下,GN与批归一化(Batch Normalization,BN)相比可使模型实现更快的收敛。综上所述,可得CDCGAN模型的具体流程,见图2。

图2 CDCGAN模型的具体流程

由图2可知,CDCGAN模型由生成器、判别器和分类器组成,流程分为两部分,一部分输入条件信息与随机噪声,然后输入到生成器中,最后输入到判别器。另一部分将生成样本与真实样本输入到判别器,然后将判别器的参数共享到具有相同结构的分类器中,最后可得到真假判别结果。视觉识别工具集平台的产品属性与辅助功能包含集成性、通用性、可控性、扩展性、包容性与社区属性共七项。根据上述视觉识别的生成算法设计及其平台的辅助功能,构建智能化视觉识别平台的信息架构,见图3。

图3 智能化视觉识别平台的信息架构

图3显示设计师进入该平台后,首先会提示模块选择,能减少路径跳转,提高其工作效率;其次平台展示数据检索栏和其他已有数据集的浏览,用户可直接选取已有数据集中的数据。现有数据集有设计完稿数据集与模型数据集两类,模型数据集为开源数据集,用户可从其中某个项目直接跳转到创作生成板块进行创作。用户可通过检索栏输入关键字、草图和图像进行检索,得到的结果可进行收藏或一键生成数据集。在数据集生成后,用户可选择浏览或基于关键词生成方案推荐,保存到我的设计方案库中。最后用户还可从数据集中导入模型,模型可单一或组合运行,在调参后,可选择直接输出或保存到我的生成库中。

2 CDCGAN模型的结果分析

为验证研究提出的CDCGAN模型视觉图像生成与识别的性能,研究在CIFAR-10数据集上进行实验,实验环境为百度深度机器学习开源平台。数据集中的样本分为训练集与测试集,训练集中包含6万个样本,测试集中包含1.5万个样本。在训练过程中,设定最大迭代次数为十万次,且每批样本为64个,生成器、判别器与分类器均使用Adam优化器。对应的参数设置为学习率0.000 1;beta1设定为0.5;beta2设定为0.999,分别代表第一、第二动量估计指数衰减率。训练集上生成器与判别器损失函数值与迭代次数的变化曲线,如图4所示。

迭代次数

图4(a)显示生成器损失函数值随迭代次数的增长在0.576~2.246区间中来回震荡;从整体上看损失函数值稳定在1附近。由图4(b)可知,判别器损失值迭代次数的增加在0.879~1.693区间中来回震荡;从总体趋势上看损失值呈现略微下降的趋势,同样稳定在1附近。生成器与判别器属于相互独立的两个结构,但两者的损失函数的迭代变化曲线呈现相似的变动。上述结果并未出现常规生成器损失函数值逐步上升,以及判别器损失函数值整体大幅下降的情况,这说明权重的谱归一化可使CDCGAN模型的训练与运行过程相对稳定。

为更科学地评估研究提出的CDCGAN模型的准确性,研究选用目前最具代表性的GraphVAE模型和BiGG模型进行对比实验,然后结合研究中提出的表现较好的CGCN模型、DCGANM模型与CDCGAN模型在测试集上进行训练,可得不同模型的准确率,见图5。由图5可知,CDCGAN模型的平均准确率最高,为97.28%。GraphVAE模型和BiGG模型的准确率同CDCGAN模型相近,但略低于CDCGAN模型,对应的平均准确率分别为97.03%与96.99%。GAN的平均准确率为68.04%,CGCN的平均准确率为70.85%,DCGANM的平均准确率为73.26%。综合上述结果分析,CDCGAN模型在训练阶段的全程准确率均最高,这说明其比其他四种模型的性能更优秀。

迭代次数

为验证生成模型的延展能力与学习能力,评估其在创作中对设计师的支持程度。研究将基础的几何图形与指定图形输入到智能化视觉识别设计平台中,在训练后,构建一种图形堆叠改变透明度的模块。然后通过点击自动生成不同的组合图形,见图6。同时将模型的结果导入数据集模块,设计师在数据模块中调用后,可使用CDCGAN模型继续生成简单的几何组合图形,将其用于日常视觉设计工作中,或者协助设计师快速生成图形设计稿和提供设计思路。通过图6的生成结果可以发现,训练CDCGAN模型可以实现大量图形的智能延展生成和一定程度的智能学习。

图6 在训练过程中CDCGAN模型根据几何图形随机生成的组合图像结果

为更直观地展现智能化视觉设计平台,研究将平台进行可视化处理,见图7。图7(a)是平台的欢迎界面,展现了数据生成模块、创作模块与模型训练模块三种选择项。在页面布局中,采用简约风格的布局结构,降低用户的操作门槛。且使用不同颜色区分三种模块,营造较为轻松的平台氛围。图7(b)为创作生成模块,左侧为辅助功能区,可以直接选择需要使用的模型,然后到主工作区进行创作,下层工作区用于模型的视觉化输出。

(a) 欢迎界面

研究提出的智能化视觉设计平台经过进一步的训练与学习后得到的生成设计结果,如图8所示。

图8 智能化视觉识别设计平台学习后的生成设计结果

由图8可知,经过进一步的图形智能延伸与学习后,得到的生成设计结果更加清晰,通过不同的结构与颜色的组合,设计具体的花束、建筑、抽象的猫等,能为设计师提供更加明确的思路。

综上所述,研究提出的智能化视觉设计平台可以为设计师提供更多的设计思路,且在模型的训练与学习下,生成设计的结果会更加符合设计师的需求。

3 结 论

数字经济的飞速发展,带来了多元化产品形态的生成,同时也带来了庞大的用户视觉设计需求,给传统模式下的视觉识别设计带来巨大的冲击。因此如何使用先进的计算机技术辅助视觉识别设计,是互联网时代下特有的路径与设计手段。研究将CNN与GAN模型相结合,并引入条件的方式,使用谱归一化与组归一化相互配合的方式优化上述模型,最终构建CDCGAN模型,并进一步构建智能化视觉识别设计平台。实验结果显示,生成器与判别器属于相互独立的两个结构,但两者的损失函数值的迭代变化曲线呈现相似的变动,分类器损失函数值迭代18次时模型就可收敛,这说明CDCGAN模型的训练与运行过程相对稳定。CDCGAN模型的平均准确率最高,为97.28%,比CGCN高26.43%,比DCGANM高24.02%。综上所述,研究提出的CDCGAN模型具有极为优秀的性能与更高的稳定性,且其在智能化视觉识别设计平台中的延展能力与学习能力非常强。但研究仍有不足之处,CDCGAN模型对于多标签可控生成仍需提升,为实现图像生成的可控性,在未来进一步研究中须使用众多属性标注进行约束。

猜你喜欢

卷积样本函数
二次函数
基于3D-Winograd的快速卷积算法设计及FPGA实现
第3讲 “函数”复习精讲
用样本估计总体复习点拨
二次函数
函数备考精讲
从滤波器理解卷积
推动医改的“直销样本”
基于傅里叶域卷积表示的目标跟踪算法
随机微分方程的样本Lyapunov二次型估计