APP下载

基于卷积神经网络的宠物猫品种分类研究

2020-12-23王建霞张成闫双双

河北工业科技 2020年6期
关键词:卷积神经网络深度学习

王建霞 张成 闫双双

摘 要: 为了提高宠物猫品种分类的准确率,提出了一种卷积神经网络融合的方法进行特征提取。首先,基于堆叠卷积自动编码器的域自适应技术,采用反卷积操作丰富特征图;其次,利用Inception结构增加网络的宽度来提取多尺度信息的特征图;最后,使用Softmox函数对图像进行分类,在Oxford-ⅢT数据集中进行实验分析。实验结果表明,利用改进后的模型对宠物猫进行分类,准确率高于对比模型,达到了84.56%,损失值为0.015 0。所提出的卷积神经网络融合方法不仅能通过丰富特征图、加深网络深度更好地表达特征,还能提高分类性能和收敛性能,较好地解决了宠物品种识别中由宠物相似所带来的识别率低的问题,还可以推广应用到其他图像相似问题的应用场景中。

关键词: 计算机图像处理;深度学习;卷积神经网络;反卷积;宠物猫分类

中图分类号: TP319   文献标识码:  A

doi:  10.7535/hbgykj.2020yx06004

Research on pet cat breed classification based on

convolutional neural network

WANG Jianxia, ZHANG Cheng, YAN Shuangshuang

(College of Information Science and Engineering, Hebei University of Science and Technology, Shijiazhuang,  Hebei 050018, China)

Abstract:

In order to improve the accuracy of pet cat breed classification, a convolutional neural network fusion method was proposed for feature extraction. Firstly, based on the domain adaptive technology of the stacked convolutional autoencoder, the deconvolution operation was used to enrich the feature map; Secondly, the Inception structure was used to increase the width of the network to extract the feature map of multi-scale information; Finally, the images were classified by the Softmox function and were experimentally analyzed in the Oxford-ⅢT data set. The experimental results show that the accuracy of classifying pet cats by using the improved model is higher than that of the comparison model, reaching 84.56%, and the loss value is  0.015 0 . The proposed convolutional neural network fusion method can not only enrich feature maps and deepen the network depth to better express features, but also improve the classification performance and convergence performance. The method can better solve the problem of low recognition rate caused by pet similarity in pet breed recognition, and can also be extended to the  application  scenarios of other image similarity problems.

Keywords:

computer image processing; deep learning; convolutional neural network; deconvolution; pet cat classification

寵物是人们为了消除孤寂或者出于娱乐而饲养的动物,有些工具型宠物还能够帮助人们。但是每个宠物的品种又有许多种,不同品种宠物的毛色、性格等各不相同,人们在选择某一个宠物时,品种会是考虑的首要因素,但宠物品种的识别并不像人们想象的那样简单。不同品种的宠物有的会很相似,而同种宠物看上去却相差甚远,这种情况对宠物专家来说也是一种考验,虽然可以选择DNA鉴定方法对宠物的品种进行识别,但是比较耗费时间和金钱。ZHANG等  [1] 提出利用纹理和形状特征训练级联分类器,可以对静态类猫图像进行识别; PRASONG在2012年提出利用犬类图片的局部大小和位置进行粗分类和基于PCA的分类器进行精细分类;WANG等  [2] 在2014年提出了利用基于地标形状的犬种分类方法;SINNOTT等  [3] 在2018年使用传统的神经网络算法进行图像分类等。虽然这些方法相较于传统方法提高了识别效率,但都需要人工设计特征,而人工设计特征往往缺乏良好的泛化性能,且依赖于设计者的先验知识和对分类任务的理解,导致训练好的模型具有局限性。

随着物联网  [4] 和人工智能  [5] 的快速发展,科学家们开始利用卷积神经网络来提取特征。它是直接对输入的原始图像进行处理,在神经网络的内部就能得到有代表性的良好特征,解决了传统方法中人工提取特征的繁琐问题和主观性问题。例如:AlexNet  [6] ,VGGNet  [7] ,GoogleNet  [8-12] 等,这些卷积神经网络都是在加深网络的同时又提高了性能,利用批归一化  [13] 和Dropout  [14] 避免过拟合和退化。采取卷积神经网络特征提取方法,不仅能够提升分类器的效能,还能够削减对图像分类算法的依赖程度。

本文针对多个品种猫的图像数据集进行了品种分类,且由于猫的数据集比较少,需在猫的数据集上进行数据增强,因此,通过数据增强方法将猫的数据集增强到了14 000张。对增强后的数据集采用一种反卷积的网络结构将特征图进行大小转换,得到多个尺度的特征图,然后融合不同尺度卷积核的 Inception 模块。采用这样的结合方式不仅能够增强后续卷积运算的特征信息,还能丰富网络的表达能力,提高对图像的分类准确率。

1 相关理论研究

深度学习  [15] 起源于人工神经网络,是有多个隐含层的网络结构,与传统机器学习相比,它不需要人工提取特征,而是将数据输入网络中自动生成学习特征。在解决图像分类问题上通常利用深度学习中的卷积神经网络模型CNN对二维图像进行卷积运算处理获得特征,然后增加卷积神经网络的层数,增多卷积神经网络每一层的节点数量,以此提高模型的性能  [16] 。为了解决时间消耗和计算资源的问题,又引入了迁移学习。迁移学习是一种能够将预训练的模型进行重新训练后,再应用到其他任务中进行学习的方式,常用的迁移学习有VGG16, Inception-V3 等。

1.1 VGGNet模型

VGGNet网络结构是将CNN中的卷积核由 5×5 尺寸改为用2个3×3的卷积进行替代,然后对3×3的卷积核和2×2的最大池化层反复叠成 16—19 层,这样能大幅度地降低训练时的参数数量,同时也能将原有的卷积运算通过增加网络的层数来提升网络模型的性能。VGGNet-16分为5段,每段的组成都是2—3层卷积再加上池化层,每段的卷积核数量分别是64—128—256—512—512,但是每段中每层的卷积数量是一样的。网络模型最后的部分是由3个全连接层和1个softmax层组成。在对图像进行分类时常用VGGNet提取图像特征。VGGNet-16网络结构如图1所示。

1.2 Inception-V3

由于在VGGNet中增加网络深度会增加参数的数量,进而增加计算的复杂度,Google公司为了解决这个问题提出了一个由11个Inception模块(如图2所示)串联组成Inception-V3网络模型,相比于VGGNet有更深的网络,深度可达到46层,但是网络参数减少了,计算效率非常高。

1.3 改进模型理论

针对猫品种的数据集较少且特征不明显,采用人工和普通卷积神经网络提取特征的方式在进行模型训练精准度不高的问题,本文对猫品种分类的特征提取部分进行了改进。对猫的品种进行分类训练模型的网络结构如图3所示,其分为改进模块、 Inception 模塊、全连接层和输出层,改进模块网络结构图如图4所示。

在进行卷积运算时,当特征图比较大时,所包含的图像细节较多,但是高层次表现出来的特征信息比较少;当特征图比较小时,具有更好的高层次语义信息,但分辨率比较差  [17] 。因此,本文选择将两者结合起来,既能包含较多的图像细节,也能获得尽可能强的图像语义信息  [18] 。而且在使用多个层次的特征进行联合检测时,尺度较小的目标也能被有效地检测到  [19] ,利用反卷积的结构就能将特征图进行大小转换,得到多个尺度的特征图信息,再使用不同尺度的特征进行关键点检测。前后的模块会将特征信息充分利用,进而获取更为丰富的特征图。把尺度大小相同的特征图传入Inception模块中,如图2所示。Inception模块由4个分支构成,每个分支中 1×1 的卷积运算来源于Network In Network  [20] 中的思路。

第1个分支只对数据进行1×1的卷积运算;第2个分支是先 1×1 卷积之后再进行3×3卷积运算;第3个分支是先1×1卷积之后再进行5×5卷积运算;第4个分支是先3×3池化再进行1×1卷积运算。

为了加强网络的非线性,在进行每次运算之后做1个Relu操作。每个分支都具有不同尺度的特征,通过并联的方式结合在一起,然后经过全连接层和Dropout层,最后利用Softmax层进行猫品种分类。

2 改进模型的算法

2.1 前向传播过程

设训练数据集 Data= {(xl,yl)}   N l-1 ,yl∈{ 1,2,…,k },其中k为类别个数;l为样本个数,1≤ l≤N ; W     i,j 和b    i,j 表示第i个隐含层的第j个卷积核和偏置; H    l m,j 中m表示第m个隐含层,j表示卷积核的大小或池化面积。 C 表示稀疏矩阵, T 表示转置,w z,x 表示权值。

改进模块的前向传播如式(1)—式(6)所示:

H    l 1,j =f(x l W   1,j +b  1,j ), (1)

H    l 2,j = avgdown  λ,τ ( H    l 1,j ), (2)

为了加快训练网络的收敛性,使得图像可以抵抗几何变换的攻击,本文采取了最大、最小值归一化。在不改变图像对比度的前提下,对原图像进行缩放、平移、旋转等仿射变化,只是将像素值压缩在[0,1]区间内,如式(20)所示:

(20)

式中:xi表示每一点的像素值; min (x)表示像素最小值; max (x)表示像素最大值。

3.2 实验环境

本实验系统为Ubuntu16.04,GPU型号为NVIDIA GeForce GTX2070 Super;CPU型号为 i7-7900K 。深度学习框架为Pytorch,编程语言为 Python ,开发环境为Jupyter Notebook。

3.3 模型训练及数据分析

本实验对猫的数据集增强后,进行了4组对比实验。分别用3个迁移学习的模型将VGGNet-13,VGGNet-16,Inception-V3和改进后模型作对比实验,在实验中考虑到硬件性能和训练时间,批量处理大小为64,训练500轮,学习率的初始值设置为0.001,用于微调,使用小批量梯度下降算法Adam进行模型的反向传播。为了证明本方法的有效性,在基于宠物猫数據集上,做出4组神经网络模型的对比实验,采用VGGNet-13和VGGNet-16神经网络,宠物猫品种的识别率分别是78.69%和79.48%;采用相似的Inception-V3的神经网络结构,宠物猫品种的识别率为80.42%;本方法是基于Inception-V3中的Inception模块和基于堆叠卷积自动编码器的域自适应技术,从而增加了多尺度的特征来丰富特征图,在GPU测试速度为0.031张/s下,CPU测试速度为0.131张/s,宠物猫品种的识别率为84.56%。4组训练结果如表1所示。

由表1可知,随着神经网络层数的增加,准确率随之提高,由此可见,增加网络的深度可以丰富特征的表达,在模型实验对比中加了Inception模块的网络,准确率有所提高。二者都是在卷积神经网络之后加上了Inception模块来增加网络的深度和宽度,对提高提取特征多样性的准确率很有效果。实验进一步研究了Inception-V3和改进后模型的性能和收敛性,在实验中epoch参数设置为500轮,猫品种分类的损失值变化曲线如图7所示,改进后的损失值小于Inception-V3,分别为0.015 0和0.020 7,改进后模型的收敛程度和迁移学习的Inception-V3速度几乎一致。损失值是通过真实值与预测值差的平方来表示,损失值越小,模型的效果和性能就越好。

4 结 论

针对宠物猫图像的特点,在特征提取方面进行了相应的改进,采用了丰富特征图和多尺度特征的方法。其中主要是使图像数据集先经过卷积层和反卷积层突出有效的特征图,达到丰富特征的效果,之后将被丰富的特征图经过Inception-V3网络再次进行多尺度的特征提取,在此基础之进行宠物猫品种的分类。实验结果表明,改进后的卷积神经网络融合模型和迁移学习模型相比,在性能和收敛性上都有所提高。但由于改进后模型的网络参数量较大,原始数据集量无法满足,使得训练出的网络模型不能达到饱和状态,也会影响模型的泛化能力。就此问题,本文又采用对原始数据进行旋转、切割、色彩抖动、高斯噪声、水平和竖直翻转等方法实现了数据的扩增。

下一步研究是输入任意尺度的图像,并对网络进行合理的优化,增强分类的准确率。并尝试对其他物种图片进行识别,以进一步测试、验证本文方法的有效性。

参考文献/References:

[1]  ZHANG Weiwei, SUN Jian, TANG Xiaoou. Cat head detection-how to effectively exploit shape and texture features[C]//European Conference on Computer Vision. Berlin:[s.n.], 2008: 802-816.

[2]  WANG  Xiaolong, LY V, SORENSEN S, et al. Dog breed classification via landmarks[C]//2014 IEEE International Conference on Image Processing (ICIP). Paris:IEEE, 2014: 5237-5241.

[3]  SINNOTT  R O, WU Fang, CHEN Wenbin. A mobile application for dog breed detection and recognition based on deep learning[C]//2018 IEEE/ACM 5th International Conference on Big Data Computing Applications and Technologies (BDCAT).[S.l.]:[s.n.], 2018: 87-96.

[4]  KHELIFI  H, LUO Senlin, NOUR B,et al. Bringing deep learning at the edge of information-centric internet of things[J]. IEEE Communications Letters, 2019,23(1):52-55.

[5]  GU  Jiuxinag, WANG Zhenhua, KUEN J, et al. Recent  advances  in convolutional neural networks[J]. Computer  Science, 2015.doi: 10.1016/j.patcog.2017.10.013.

[6]  PANTELEY E, LORIA A. On global uniform asymptotic stability of nonlinear time-varying systems in cascade[J]. Systems & Control Letters, 1998, 33(2): 131-138.

[7]   CAO  Kecai, YANG Hao, JIANG Bin. Formation tracking control of nonholonomic chained form systems[C]//2013 10th IEEE International Conference on Control and Automation (ICCA). Hangzhou:IEEE, 2013: 846-851.

[8]    SZEGEDY  C, LIU Wei, JIA Yangqing, et al. Going deeper with convolutions[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Boston:IEEE, 2015: 1-9.

[9]   IOFFE  S, SZEGEDY C. Batch normalization: Accelerating deep network training by reducing internal covariate shift[J]. Computer Science,2015. arXiv:1502.03167.

[10]  SINGLA  A, YUAN Lin, EBRAHIMI T. Food/non-food  image  classification and food categorization using pre-trained googlenet model[C]//Proceedings of the 2nd International Workshop on Multimedia Assisted Dietary Management. [S.l.] :[s.n.], 2016: 3-11.

[11]  SZEGEDY C, IOFFE S, VANHOUCKE V, et al. Inception-v4, inception-ResNet and the impact of residual connections on learning[C]//Thirty-first AAAI Conference on Artificial  Intelligence . [S.l.]:[s.n.],2017.arXiv:1602.07261.

[12]  MUHAMMAD  N A, Ab NASIR A, IBRAHIM Z, et al.  Evaluation  of CNN, Alexnet and GoogleNet for fruit recognition[J]. Indonesian Journal of Electrical Engineering and Computer Science, 2018, 12(2): 468-475.

[13]  LONG Min, ZENG Yan. Detecting iris liveness with batch normalized convolutional neural network[J]. Computers,  Materials  and Continua, 2019, 58(2): 493-504.

[14]  CHEN Long, ZHANG Hanwang, XIAO Jun, et al. SCA-CNN: Spatial and channel-wise attention in convolutional networks for image captioning[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).[S.l.]: [s.n.] , 2017: 5659-5667.

[15]  KUPPALA K, BANDA S, BARIGE T R. An overview of deep learning methods for image registration with focus on feature-based approaches[J]. International Journal of Image and Data Fusion, 2020,11(2): 113-135.

[16]  陳宏彩, 程煜, 张常有. 基于卷积神经网络的轿车车型精细识别方法[J]. 河北科技大学学报, 2017, 38(6): 564-569.

CHEN Hongcai, CHENG Yu, ZHANG Changyou. Fine-grained vehicle type recognition based on deep convolution neural networks[J]. Journal of Hebei University of Science and Technology, 2017, 38(6): 564-569.

[17]  SHELHAMER E, LONG J, DARRELL T. Fully convolutional networks for semantic segmentation[J]. IEEE Annals of the History of Computing, 2017,39(4): 640-651.

[18]  XIA  Fangting, WANG Peng, CHEN Xianjie, et al. Joint multi-person pose estimation and semantic part segmentation[C]//Proceedings of the IEEE Conference on Computer  Vision  and Pattern Recognition.[S.l.]:[s.n.], 2017: 6769-6778.

[19]  鞠默然, 罗海波, 王仲博, 等. 改进的 YOLO V3 算法及其在小目标检测中的应用[J]. 光学学报, 2019, 39(7): 0715004.

JU Moran, LUO Haibo, WANG Zhongbo,et al.Improved YOLO V3 algorithm and its application in small target detection[J]. Acta Optica Sinica, 2019, 39(7):0715004.

[20]  LIN Min, CHEN Qiang, YAN Shuicheng. Network in network[J]. ICLR,2013. arXiv:1312.4400.  [LM]

猜你喜欢

卷积神经网络深度学习
基于卷积神经网络温室智能大棚监控系统的研究
基于深度卷积神经网络的物体识别算法
有体验的学习才是有意义的学习
电子商务中基于深度学习的虚假交易识别研究
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
深度学习算法应用于岩石图像处理的可行性研究
基于深度卷积网络的人脸年龄分析算法与实现
基于卷积神经网络的树叶识别的算法的研究