基于改进的卷积神经网络模型的中国绘画图像分类方法 ①

2021-01-15周衍挺

佳木斯大学学报（自然科学版） 2021年1期

周衍挺

(安徽理工大学数学与大数据学院，安徽淮南 232001)

0 引言

中国绘画图像的分类对绘画作品的管理与使用有着重要意义。传统图像分类方法需要人工提取图像特征，过程复杂且需要专业的知识，使得图像的特征信息无法充分提取。中国绘画图像记录了人类传统文化的发展，对中国绘画图像进行分类研究有助于整理绘画资源，更好的继承中国传统文化。中国绘画以写意为主，图像与实物相差较大，且图像数量有限，不利于图像分类。传统的图像分类方法大部分是基于浅层结构的学习算法。Jiang等[1]通过提取纹理特征与边缘大小直方图来描述中国绘画图像，并采用支持向量机(Support Vector Machines，SVM)对其分类，取得较好的分类效果。王雪锋等[2]提取出车辆的方向梯度直方图 ( Histogram of Oriented Gradient，HOG) 特征，并输入 SVM 分类器进行分类，具备较高的分类准确率与鲁棒性。但是这些浅层学习算法需要人工提取复杂特征，存在泛化性能差、特征提取不充分、计算能力不足等问题。

2012年Alex Krizhevsk等用AlexNet模型[3]夺得ImageNet视觉挑战赛冠军后，卷积神经网络(Convolutional Neural Network，CNN)成为了图像分类的主流模型[4]。卷积神经网络可以通过卷积层高效提取图像特征信息，目前已经被运用到文本情感分析[5-6]、人脸识别[7-8]、目标检测[9-10]等领域。目前基于CNN的中国绘画图像分类研究还比较罕见。Sun等[11]提出提出一种基于混合稀疏卷积神经网络的方法来提取中国水墨画的特征，并按照作者来分类。黄雪丽等[12]提出利用卷积神经网络对绘画图像进行分类，并对绘画图像进行数据扩增，有效的提升了模型的图像分类能力。

上述文献中的卷积神经网络均取得了较高的图像分类精度。然而上述文献中模型没有考虑图像的多尺度特征信息与底层信息，导致图像特征信息有所损失，且模型容易过拟合。因此，为了充分提取绘画图像特征信息，减轻模型过拟合，本文给出了一种改进的卷积神经网络，其基本思想是构建一个卷积神经网络，并加入Inception模块与残差连接，使得模型可以充分提取图像特征信息。此外，模型中加入了批标准化技术与重叠池化技术，减轻了模型的过拟合，进而提升模型的图像分类能力。

1 模型相关技术

1.1 CNN简介

卷积神经网络是一类深层人工神经网络，可以通过各个层级提取出图像的抽象特征，有着强大的图像识别能力。卷积神经网络主要由卷积层、池化层以及全连接层构成。卷积层采用权值共享与局部连接的方法来降低模型的复杂性，同时减少了模型参数，减轻了模型的过拟合。卷积层主要利用卷积核提取图像的抽象特征信息。卷积核的尺寸需要人工设置，常用的卷积核尺寸为3×3与5×5。卷积核尺寸不同，其特征提取效果也不相同。在卷积层中将前一层的图像数据与卷积核进行卷积运算，再通过一个激活函数得到卷积层的输出值。

池化层在提取图像特征的同时，可以降低图像维度。目前有最大池化、平均池化、重叠池化等池化方法。最大池化是对区域内像素取最大值，平均池化是计算出区域内像素总和后再求出平均值，重叠池化方法的池化窗口大于步长，使得相邻的池化窗口间有重叠区域。重叠池化的泛化能力更强，且不易产生过拟合。卷积层与池化层提取出的图像特征信息，经过全连接层的信息整理以及降维，最后输入分类器进行分类。

1.2 批标准化

深度学习的图像数据通常是一批一批送到模型里训练。数据在训练过程中，每一层的数据分布都会有很大的变化，导致模型泛化能力减弱。批标准化(Batch Normalization,BN)[13]可以先计算每一批图像数据的均值与方差，再进行标准化处理，减少不同批次之间差别，从而加快收敛速度，并在一定程度上降低模型的过拟合。批标准化的公式为：

(1)

2 改进的卷积神经网络

2.1 改进模型的网络结构

特征提取是中国绘画图像分类的关键步骤。在运用传统卷积神经网络对图像进行分类的过程中，图像信息随着一层层卷积与池化处理，底层特征信息会有所损失，同时由于卷积核的单一，导致图像特征信息提取不充分。为了有效利用图像的底层细节信息，同时提取出图像的多尺度特征信息，本文给出了一种改进的卷积神经网络。图1为改进模型的网络结构，模型包含4个卷积层，4个池化层，1个Inception模块以及1个特征融合层，后面连接全连接层以及输出层。Inception模块可以并联不同尺度卷积核，使得各个通道感受野不同，进而提取出丰富的特征信息。图2为Inception模块结构，第一个通道对图像数据进行1×1的卷积处理。第二个通道先对图像数据进行1×1的卷积处理，再接3×3卷积。第三个通道先对图像数据进行1×1的卷积处理，再接5×5卷积。第四个通道先对图像数据进行3×3的平均池化处理后，再接1×1卷积。

图1 改进卷积神经网络结构

图2 Inception模块

此外，模型引入了残差连接，将pool3层提取出的特征图信息，向后传播的同时，输入concat层并与conv4层的特征图信息在特征通道维数上进行合并，使得concat层同时具有pool3层提取出的底层细节信息以及conv4层提取出的全局特征信息，充分利用了图像的底层信息，减少了图像特征信息的丢失。另外，模型的池化方式为重叠池化，并在卷积运算之后，都会经过批标准化处理，进而减轻模型过拟合。

2.2 改进模型的图片分类过程

表1 改进模型参数

表1列出了改进模型的结构参数，C、H、W 分别代表图像的通道数、高度和宽度。如表所示，输入图像为227×227的3通道图像，经过前6层的卷积池化层交替处理后，输出128个10×10的特征图。再输入Inception模块，将Inception模块的各个通道信息合并后，得到544个10×10的特征图。conv4卷积核大小为1×1，可以对输入图像信息进行降维处理，降低运算成本，得到256个10×10的特征图。然后将pool3的特征信息与conv4的特征信息融合，并进行池化处理，得到384个5×5的特征图。最后将融合后的特征信息通过softmax分类器输出分类结果。

3 实验仿真

3.1 实验环境与数据集

实验操作系统为Windows10，显卡为GTX-1060，并且以Tensorflow为框架，使用Python3.6为开发语言。实验图像来自于千图网等网站，分为花鸟、山水、人物三类。每类样本各750幅，其中每类图像的训练样本700幅，测试样本50副，图3为中国绘画图像部分样本。

图3 中国绘画部分样本

3.2 实验结果与分析

为了验证改进卷积神经网络的图像分类能力，本文将改进模型、传统CNN模型、Lenet模型[14]、HOG+SVM算法在中国绘画数据集上进行实验。传统CNN模型相比于改进模型减少了Inception模块与残差连接，其余结构与改进模型相同。实验每个训练批次为64，初始学习率为0.001，衰减率为0.96，且在改进模型与传统CNN模型的全连接层后添加Dropout机制，Dropout值为0.5，并对全连接层的权重进行L2正则化惩罚，正则化系数设置为0.01。Lenet模型是一种经典的卷积神经网络模型，在手写数字图像上有着很好的分类效果。HOG+SVM算法通过提取局部图像的梯度直方图以构成特征，并采用SVM分类器进行分类。每个模型均进行5次实验，测得分类精度后，取平均值。

表2 各模型的分类准确率

从表2中可以看出本文改进模型的分类精度优于其他三类模型。改进模型的分类精度相比于传统CNN模型，精度提升了2.6%，说明在模型中引入Inception模块与残差连接有助于提升模型的分类能力。改进模型通过Inception模块可以充分提取出图像的多尺度信息，并通过残差连接减少了底层信息的丢失，进而提升了模型在中国绘画图像上的分类精度。此外，改进模型的分类精度相比于经典的Lenet模型，精度提升了12.15%，主要由于Inception模块与残差连接提升了模型的特征提取能力，同时改进模型加入了批标准化与重叠池化技术，减轻了模型的过拟合。另外，改进模型的分类精度相比于HOG+SVM算法，精度提升了15.98%，说明改进模型相比于传统的浅层学习算法，可以更好的提取中国绘画图像的抽象特征，进而提升模型的分类能力。

4 结论

在中国绘画图像分类的问题上引入卷积神经网络模型，并针对传统卷积神经网络容易过拟合，特征提取不充分问题，给出了一种改进的卷积神经网络模型。该模型引入Inception模块与残差连接，使得模型可以充分利用图像的多尺度特征信息与底层特征信息，并且采用批标准化、重叠池化、Dropout以及L2正则化来减轻模型的过拟合。实验结果表明，改进模型通过引入Inception模块与残差连接，提升了模型的特征提取能力，同时防止过拟合，进而取得更高的图像识别精度。