APP下载

基于卷积神经网络的绘画图像分类研究

2017-07-05肖志鹏王小华姚金良

中国计量大学学报 2017年2期
关键词:训练样本卷积神经网络

肖志鹏,王小华,,杨 冰,姚金良

(1. 中国计量大学 信息工程学院,浙江 杭州 310018; 2. 杭州电子科技大学 计算机学院,浙江 杭州 310018)

基于卷积神经网络的绘画图像分类研究

肖志鹏1,王小华1,2,杨 冰2,姚金良2

(1. 中国计量大学 信息工程学院,浙江 杭州 310018; 2. 杭州电子科技大学 计算机学院,浙江 杭州 310018)

绘画作品的数字化对有效使用绘画资源具有重要意义,传统图像分类方法并未考虑绘画作品主观特性,且大部分特征需要人工提取,存在细节特征丢失等问题. 在此提出基于卷积神经网络的绘画图像分类方法,分析了卷积核大小、卷积神经网络结构宽度、训练样本数量对分类结果的影响,以优化网络结构和参数. 实验结果表明,该方法对绘画图像分类的有效性,在不同绘画图像数据集的分类实验上也得到了较好的分类结果.

卷积神经网络;绘画图像分类;卷积核大小;网络结构宽度;训练样本数量

绘画是承载人类文明发展的一种重要载体,对绘画的研究有助于人们更好地了解人类历史和文化[1].随着西方油画、东方山水画等绘画作品数字化进程加速,以及绘画电子图书馆的建立,使得科研工作者们拥有海量的数字化绘画资源.若要有效利用这些资源,就需要计算机能够准确地对绘画资源进行分类,以方便研究者的使用.自然图像主要对真实场景进行客观的描述,其内容与现实差别很小,而绘画图像为人工作品,存在画家风格、艺术流派等艺术风格特征,其内容与现实差别较大.传统的图像分类方法并未考虑绘画作品的这些特性[2],且其存在大量复杂特征需要根据个人经验提取,致使细节特征易丢失,出现模型泛化能力差等问题[3].因此,对绘画图像的分类更具有挑战性.

卷积神经网络在图像处理和语音识别上效果较好,使其成为机器学习领域的研究热点.卷积神经网络是深度学习的一种,通过模仿人脑机制,自动学习数据特征,避免人工提取复杂特征,并提高了分类识别效果.其局部感受野和权值共享特性减少了网络模型权值数量,从而降低了网络模型的复杂度.且卷积神经网络结构对平移、倾斜、比例缩放等变形拥有高度不变性,从而提高了分类识别的鲁棒性.现在,卷积神经网络已经广泛应用在图像分类[4-7]、目标检测[8-9]和人脸识别[10]等领域.

本文为解决传统的图像分类方法对绘画图像进行分类时存在的诸多问题,提高绘画图像分类效果,在经典卷积神经网络的基础上,提出利用卷积神经网络实现对绘画图像进行分类的方法.通过分析卷积核大小、卷积神经网络结构宽度、训练样本数量对分类结果的影响,以优化网络结构和参数.

1 相关研究

传统的图像分类方法对图像进行分类,主要分为两个部分:先提取图像特征,然后利用机器学习分类算法进行分类.LAZEBNIK等[11]提出将图像分成若干子区域,分别计算每个子区域的特征,最后将所有子区域的特征拼接起来,形成对自然场景的描述,采用SVM(Support Vector Machine)对其分类. JIANG等[12]通过提取纹理特征和边缘大小直方图来建立对传统中国绘画图像的描述,采用SVM进行分类. CAO等[13]提出应用HOG(Histogram of Oriented Gradient)特征到运动车辆检测中,采用SVM对检测到的运动车辆进行分类. 这些方法虽然取得了较好的分类效果,但处理大量样本时模型泛化能力不足,且需要人工提取复杂特征,存在细节特征丢失、计算能力不足等问题.

近年来,随着图像语音数据不断增加和计算机计算能力不断提升,卷积神经网络得到了飞速发展,并在目标检测、人脸识别、图像分类等领域取得了优异的研究成果. 1998年,LECUN等[14]设计了一个多层人工神经网络LeNet-5,并提出利用反向传播算法对其进行训练. 2012年,KRIZHEVSKY等[4]设计的AlexNet利用大数据进行训练并使用GPU进行加速计算,同时提出将Relu和Dropout应用到卷积神经网络模型中. 2014年,SZEGEDY等[6]设计的googleNet,主要研究了卷积神经网络宽度对图像分类精度的影响,提出Inception结构以增加网络宽度,并使用1×1,3×3,5×5卷积核代替7×7卷积核,最终设计了22层深度神经网络结构,实验结果表明其具有优异的分类效果.

卷积神经网络虽在图像分类识别领域取得了较好成绩,但在绘画图像分类方面仍处于起步阶段[15]. CROWLEY等[16]利用卷积神经网络学习自然图像中目标识别的方法,来提高绘画图像中目标识别效果. SUN等[17]提出了一种基于混合稀疏的卷积神经网络方法来自动提取中国水墨画的笔触特征,并按作者进行分类,取得了不错的分类效果. 然而基于卷积神经网络,针对绘画题材进行分类的研究相对较少.

2 卷积神经网络

卷积神经网络是深度学习的一种,能够自动学习数据特征,具有较好的泛化能力,广泛应用于图像分类、目标检测等领域. 作为一种监督学习方法,卷积神经网络由卷积层、池化层、全连接层、softmax分类层和激活函数等组成,其训练部分分两个阶段进行,即通过前向传播提取特征,经由反向传播更新权值.

第一阶段,前向传播.

前向传播的目的是提取数据特征,从样本集中选取一个样本作为当前层l输入,再通过激活函数计算得到当前层输出,然后传递到下一层l+1,一直传递到最后一层结束.当前层输出计算过程如下:

Yl=f(WlXl+bl).

(1)

其中,第l层表示当前层,Xl和Yl分别表示当前层输入和当前层输出,Wl表示当前层权值,bl表示当前层偏置,f表示当前层的激活函数,本文选取ReLU(Rectified Linear Units)非线性函数作为激活函数.

在前向传播卷积层中,上一层特征图的局部区域与卷积核相连,经过卷积操作提取局部特征. 卷积层中存在多个卷积核,不同卷积核提取不同特征,在进行卷积操作时,同一个卷积核权值共享,不同卷积核权值不同[18],卷积层的计算如下:

(2)

在前向传播池化层中,输入特征图个数经过池化操作后保持不变,当池化步长为n时,输出特征图大小变为输入特征图大小的1/n2. 池化层主要作用是减小特征图分辨率,降低特征维度,其对平移、倾斜、比例缩放等形式的变形拥有高度不变性,从而提高了网络模型分类的鲁棒性. 池化层的计算如下:

(3)

第二阶段,反向传播.

反向传播的目的是不断更新卷积核权值,使其朝着有利于分类的方向更新,一般使用误差平方和损失函数. 对于样本数量为N,类别数量为c的多类问题,误差平方和损失函数计算如下:

(4)

3 本文卷积神经网络结构设计

研究表明,卷积神经网络分类性能受很多因素影响,如训练样本数量、卷积核大小、网络结构深度、网络结构宽度和激活函数等[19]. 本文考虑先设计一个传统串联卷积神经网络结构,然后为其设置合适大小的卷积核,最后增加该网络结构宽度,以实现多尺度特征提取及融合,提高网络分类性能. 传统串联卷积神经网络结构深度为八层,七个卷积层和一个全连接层依次相连,在第三个卷积层与第六个卷积层之间并联一个卷积层,得到优化后卷积神经网络结构. 优化后卷积神经网络结构如图1.

图1 优化后卷积神经网络结构Figure 1 Optimized architecture of convolutional neural network

图1中INPUT表示输入图像,大小为227×227,Conv1表示第一个卷积层,Conv_add表示并联的卷积层,@之前的数字表示该层特征图个数,之后的公式如111×111表示该层得到的特征图大小,最后一层为全连接层,即OUTPUT输出层.

第一个卷积层、第三个卷积层、第五个卷积层和并联的卷积层后面连接着最大池层,第七个卷积层后面连接着平均池层.第二个和第三个卷积层、第四个和第五个卷积层、第六个和第七个卷积层分别依次相连,之间没有池化层和尺度归一化层.在每个卷积层后面连接着ReLU激活函数,在第一个卷积层、第三个卷积层、第五个卷积层、第七个卷积层和并联的卷积层后面应用尺度归一化.

4 实验及分析

本文实验的绘画图像样本来源于《珍好画业图库》和《唯美风景油画图库》两个数据库,分为东方绘画图像和西方绘画图像两个数据集.东方绘画图像,按类别将其分为花鸟、人物、山水三类,每类800幅样本.西方绘画图像,按类别将其分为人物、风景二类,每类500幅样本.东方绘画图像和西方绘画图像样本如图2.

图2 东方绘画图像和西方绘画图像样本Figure 2 Samples of oriental painting image and western painting image

本实验考虑先在图1中传统串联卷积神经网络结构的基础上,对卷积核大小进行优化以优化网络参数,然后增加网络结构宽度以优化网络结构,最后利用优化后的卷积神经网络结构研究训练样本数量对分类结果的影响. 为验证本文方法的有效性,实验首先应用本文方法对东方绘画图像和西方绘画图像两个数据集分别进行测试;然后用SIFT+BOW+SVM,HOG+SVM,LeNet,AlexNet这四种图像分类方法对两个数据集分别进行验证,并将实验结果与本文方法进行比较,以验证本文方法的可行性.

卷积核是卷积神经网络模型中至关重要的部分,它直接影响特征提取的好坏和网络收敛的速度.卷积核大小要与输入图像大小相适应,若卷积核过大,则卷积核无法有效提取局部特征,否则卷积核无法有效提取全局特征.所以,当输入图像空间分辨率较大时,应选取较大的卷积核,以适应输入图像,否则会降低网络分类性能.为方便实验比较,本文实验将输入图像大小固定为227×227,第一个卷积层卷积核大小固定为7×7.

为给卷积神经网络模型设置合适大小的卷积核,以有效地提取图像特征,本实验分别选取东方绘画图像和西方绘画图像两个数据集作为实验对象(图2).从花鸟、人物、山水三类东方绘画图像中,各随机选取600张图片作为训练样本,其余200张图片作为测试样本;从人物、风景两类西方绘画图像中,各随机选取350张图片作为训练样本,其余150张图片作为测试样本.

本实验采用图1中传统串联卷积神经网络结构,以网络A为基准网络,进行了大量实验,并选取其中有代表性的部分网络做进一步分析.不同分类网络中各卷积层的卷积核大小和不同分类网络分类准确率分别如表1和表2.

由表1和表2可知,当第四个卷积层的卷积核大小调整为3×3或第六个卷积层的卷积核大小调整为3×3时(网络F或网络J),东方绘画图像数据集的分类准确率最高.当第二个卷积层的卷积核大小调整为3×3或5×5时(网络B或网络C),西方绘画图像数据集分类准确率最高.由此可以发现,针对不同的数据集,需要设置不同的网络参数,以适应不同数据集的分类任务.进一步说明,网络F或网络G更能有效提取东方绘画图像特征,网络B或网络C更能有效提取西方绘画图像特征.

表1 不同分类网络中各卷积层的卷积核大小

表2 不同分类网络分类准确率

4.2 网络宽度对分类结果的影响

传统卷积神经网络结构一般为串联结构,本文考虑在传统串联网络结构的基础上,在两个卷积层之间并联一个卷积层,以增加网络结构宽度,实现多种特征融合,提高网络分类性能.为验证本方法的可行性,本实验分别选取东方绘画图像和西方绘画图像两个数据集进行实验. 对于东方绘画图像数据集,从花鸟、人物、山水这三类图像中,分别随机选取600张图片作为训练集,其余200张图片作为测试集;对于西方绘画图像数据集,从人物、风景这两类图像中,分别随机选取350张图片作为训练集,其余150张图片作为测试集.

对于东方绘画数据集,本文考虑在表1中网络F的基础上,在第三个卷积层与第六个卷积层之间并联一个新卷积层,卷积核大小设置为5×5,以优化网络结构. 对于西方绘画数据集,本文考虑在表1中网络B的基础上,同样选择在第三个卷积层与第六个卷积层之间并联一个新卷积层,卷积核大小设置为1×1. 针对东方绘画图像和西方绘画图像两个数据集,卷积神经网络结构优化前后网络分类准确率对比如表3.

从这个分析可以看出,演讲或教室中教师讲学生听是传统的方法(理论、传授、教师主导),效果有限。其他方法比较现代,很多的是让学生自己实践和发现,比较有效,其中的访问、做调查/调研、自学及小研究等属于实践、发现与学生主导,可以发挥最全面的效果。

表3 卷积神经网络结构优化前后网络分类准确率对比

从表3可以看出,增加卷积神经网络结构宽度后,卷积神经网络模型分类准确率有所提高.从理论上可以解释该实验结果,增加卷积神经网络结构宽度,可以使该网络适应多种尺寸的特征提取,并实现多种特征的融合,从而增强了卷积神经网络的特征学习能力.尤其当输入图像空间分辨率较大时,输入图像特征更加丰富和全面,增加网络宽度更有利于有效提取多种尺寸特征.所以,卷积神经网络结构宽度的增加,有利于卷积神经网络模型分类准确率的提高.

4.3 训练样本数量对分类结果影响

卷积神经网络模型的分类性能受训练样本数量影响,当训练样本不足时,会产生过拟合现象[20].为研究训练样本数量对卷积神经网络模型分类准确率的影响,本实验分别选取东方绘画图像和西方绘画图像这两个数据集作为实验对象.从花鸟、人物、山水这三类东方绘画图像中,分别随机选取100、200、300、400、500、600张图片作为训练样本,每类剩余样本中随机选取200张图片作为测试样本;从人物、风景这两类西方绘画图像中,分别随机选取50、100、150、200、250、300、350张图片作为训练样本,每类剩余样本中随机选取150张图片作为测试样本.

本实验分别采用针对东方绘画图像数据集和西方绘画图像数据集优化后的卷积神经网络结构,东方绘画图像和西方绘画图像在不同数量训练样本上的分类准确率分别如表4和表5.

表4 东方绘画图像在不同数量训练样本上的分类准确率

表5 西方绘画图像在不同数量训练样本上的分类准确率

从表4和表5中可以观察出,随着训练样本数量的增加,卷积神经网络模型分类准确率不断提高.从理论方面可以解释这个现象产生的原因,因为卷积神经网络是一个深度网络结构,拥有较多隐藏层以增强卷积神经网络的特征学习能力.所以,随着训练样本数量的增加,卷积神经网络强大的特征学习能力更能体现出来,学习到的特征能够有效表达数据,从而有利于分类准确率的提高.

4.4 传统方法与深度学习方法实验结果对比

在与传统方法进行对比时,SIFT+BOW[11](Scale-invariant Feature Transform+Bag of Words)将图像分割成越来越小的子区域,分别计算每个子区域的局部直方图特征,再将所有子区域的特征合并起来,采用SVM进行分类;HOG[13](Histogram Of Gradient)通过计算图像局部区域的梯度直方图以构成特征,并使用SVM对特征进行分类. 在与深度学习方法进行对比时,LeNet[14]采用多层人工神经网络方法,且首次使用反向传播算法更新权值;AlexNet[4]在LeNet基础上增加了卷积神经网络结构深度,并将Relu激活函数和Dropout应用到网络模型中.为有效对比传统方法与深度学习方法对东方绘画图像和西方绘画的分类效果,所有实验在相同的数据集上进行测试.测试数据集的选取与研究卷积核大小对分类结果影响的实验相同,传统方法与深度学习方法实验结果对比如表6.

表6 传统方法与深度学习方法实验结果对比

上述对比进一步表明,深度学习方法对绘画图像进行分类,效果要比传统方法好,尤其对于分类类别相对较多且难度相对较大的东方绘画图像的效果更为明显.通过比较可以发现,LeNet和AlexNet采用传统串联卷积神经网络结构,而本文方法在串联结构基础上增加了网络结构宽度,实现了多种尺寸特征提取,更能有效提取绘画图像特征并完成图像分类,比其他方法对绘画图像的分类效果好.

5 结 语

深度学习已经成为机器学习领域的研究热点,广泛应用在多个领域.本文提出利用卷积神经网络提取绘画图像特征,并实现对绘画图像进行分类的方法.针对东方绘画图像和西方绘画图像两个数据集,在设计传统串联卷积神经网络结构的基础上,通过大量实验,研究了卷积核大小对卷积神经网络分类性能的影响,发现针对不同的数据集,需要设置不同大小的卷积核,以适应不同数据集的分类任务.同时,在传统串联卷积神经网络结构的基础上,在两个卷积层之间并联一个新卷积层,以增加网络结构宽度,实现多尺寸特征提取与多种特征融合,从而增强卷积神经网络的特征学习能力.此外还分析了训练样本数量对卷积神经网络分类性能的影响,发现训练样本数量增加,有利于体现卷积神经网络的特征学习能力,从而提高了网络分类性能.最后,通过与其他传统方法和深度学习方法的对比实验,证明了本文提出的基于卷积神经网络绘画图像分类方法对于绘画图像具有更好的分类性能,证明了此方法具有可行性和优越性.

传统图像分类方法与深度学习方法相结合的图像分类方法,本文并未将其考虑在内.今后可在本文的基础上,将传统图像分类方法与深度学习方法提取的特征相融合,从而提高算法分类性能.

[1] TAMARKIN E. The chestnuts of edwin austin abbey: history painting and the transference of culture in turn-of-the-century america[J]. Bridge-Literary Magazine,1999,15(1-2):1-9.

[2] 杨冰.基于艺术风格的绘画图像分类研究[D].杭州:浙江大学,2013. YANG B. Research on Painting Image Classification Based on Aesthetic Style[D]. Hangzhou: Zhejiang University,2013.

[3] ZHANG X, ZHAO J, LECUN Y. Character-level convolutional networks for text classification[C]//Neural Information Processing Systems. Montrea: NIPS,2015:649-657.

[4] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Advances in Neural Information Processing Systems,2012,25(2):1097-1105.

[5] XIAO T, XU Y, YANG K, et al. The application of two-level attention models in deep convolutional neural network for fine-grained image classification[C]//IEEE Conference on Computer Vision and Pattern Recognition. Columbus: IEEE CVPR,2014:842-850.

[6] SZEGEDY C, LIU W, JIA Y Q, et al. Going deeper with convolutions[C]//IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE CVPR,2015:1-9.

[7] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE CVPR,2015:770-778.

[8] HE K, ZHANG X, REN S, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2014,37(9):1904-1916.

[9] KALINOVSKII I, SPITSYN V. Compact convolutional neural network cascade for face detection[J]. Computer Science,2015,2(2):93-110.

[10] OUYANG W L, ZENG X Y, WANG X G, et al. Deepid-net: deformable deep convolutional neural networks for object detection[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2015,46(5):2403-2412.

[11] LAZEBNIK S, SCHMID C, PONCE J. Beyond bags of features: spatial pyramid matching for recognizing natural scene categories[C]//IEEE Computer Society Conference on Computer Vision & Pattern Recognition. New York: IEEE Computer Society,2006:2169-2178.

[12] JIANG S Q, HUANG Q M, YE Q X, et al. An effective method to detect and categorize digitized traditional chinese paintings[J]. Pattern Recognition Letters,2006,27(7):734-746.

[13] CAO X B, WU C X, YAN P K, et al. Linear SVM classification using boosting HOG features for vehicle detection in low-altitude airborne videos[C]//IEEE International Conference on Image Processing. Brussels: IEEE ICIP,2011:2421-2424.

[14] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE,1998,86(11):2278-2324.

[15] ZEILER M D, FERGUS R. Visualizing and Understanding Convolutional Networks[M]. Berlin: Springer International Publishing,2014:818-833.

[16] CROWLEY E J, ZISSERMAN A. In search of art[C]//European Conference on Computer Vision. Zurich: ECCV,2014:54-70.

[17] SUN M J, ZHANG D, REN J C, et al. Brushstroke based sparse hybrid convolutional neural networks for author classification of chinese ink-wash paintings[C]//IEEE International Conference on Image Processing. Quebec: IEEE ICIP,2015:626-630.

[18] ANIANO G, DRAINE B T, GORDON K D, et al. Common-resolution convolution kernels for Space and ground-based telescopes[J]. Publications of the Astronomical Society of the Pacific,2011,123(908):1218-1236.

[19] MORRISON D, WANG R L, SILVA L D. Spoken affect classification using neural networks[C]//IEEE International Conference on Granular Computing. Beijing: IEEE GRC, 2005:583-586.

[20] HARVILL E L, PECK L R, BELL S H. On overfitting in analysis of symmetrically predicted endogenous subgroups from randomized experimental samples: part three of a method note in three parts[J]. American Journal of Evaluation,2013,34(4):545-556.

Research on painting image classification based on convolution neural network

XIAO Zhipeng1, WANG Xiaohua1,2, YANG Bing2, YAO Jinliang2

(1. College of Information Engineering, China Jiliang University, Hangzhou 310018, China; 2. School of Computer Science and Technology, Hangzhou Dianzi University, Hangzhou 310018, China)

It is significant to realize the digitalization of painting works for the effective use of painting resources. The traditional image classification methods do not take into account of the subjective characteristics of the painting works, and most of the features need to be extracted manually, thus the problem of easily missing detailed features. In this paper, a painting image classification method based on convolutional neural network (CNN) was proposed. We analyzed the influence to the classification results of the size of convolution kernel, the width of convolution neural network architectures, and the number of training samples to get a reference to optimize the network architectures and parameters. The experimental results show the effectiveness of the proposed method for the classification of painting images with good results on different data sets of painting images.

convolutional neural network; classification of painting images; size of convolution kernel; width of network architectures; number of training samples

2096-2835(2017)02-0226-08

10.3969/j.issn.2096-2835.2017.02.015

2017-01-10 《中国计量大学学报》网址:zgjl.cbpt.cnki.net

国家自然科学基金资助项目(No.61402143),浙江省自然科学基金资助项目(No. LQ14F020012).

肖志鹏(1992-),男,江苏省泰州人,硕士研究生,主要研究方向为机器学习与计算机视觉. E-mail:261507661@qq.com 通信联系人:王小华,男,教授,E-mail: wxh@cjlu.edu.cn

N32

A

猜你喜欢

训练样本卷积神经网络
基于递归模糊神经网络的风电平滑控制策略
基于3D-Winograd的快速卷积算法设计及FPGA实现
人工智能
卷积神经网络的分析与设计
神经网络抑制无线通信干扰探究
从滤波器理解卷积
基于神经网络的中小学生情感分析
基于傅里叶域卷积表示的目标跟踪算法
基于小波神经网络的网络流量预测研究
宽带光谱成像系统最优训练样本选择方法研究