卷积网络样本数和迭代数与识别结果关系研究

2018-10-21高述勇周粉粉符朝兴孟含

青岛大学学报（工程技术版） 2018年1期

高述勇周粉粉符朝兴孟含

摘要：针对训练样本数量和迭代次数对卷积神经网络识别率的影响，本文以经典LeNet卷积神经网络为研究对象，以Mnist样本集为样本，利用Matlab软件研究了样本数量和迭代次数与网络识别率的关系。通过调整训练样本数量和迭代次数，对比不同训练结果对网络错误率的影响，得出在迭代次数、学习率及批数据大小不变的情况下，训练样本数目对网络识别错误率的影响存在阈值，当训练样本数目大于阈值时，样本数目增加，错误率降低很小；在训练样本数目、学习率及批数据大小不变的情况下，随着迭代次数的逐渐增加，网络识别的总体错误率呈现先缓慢下降后快速下降，之后又缓慢下降的趋势，在迭代次数少的情况下，迭代次数和误差率变化规律具有随机性。该研究对中小样本数量的卷积神经网络提供了理论参考。

关键词：卷积神经网络；识别率；样本数目；迭代次数

中图分类号： TP183； TP391.413文献标识码： A

收稿日期： 20170523；修回日期： 20170830

作者简介：高述勇（1992），男，硕士研究生，主要研究方向为智能设计。

通讯作者：符朝兴，男，博士，副教授，主要研究方向为车辆振动及控制。Email： cx_f@163.com随着人工智能的迅速发展，卷积神经网络[16]作为图像识别的重要算法成为研究热点。卷积神经网络的训练结果依赖于样本数量和迭代次数等因素，大样本神经网络的训练已经比较成熟，但多数实际工程领域不满足大样本的条件要求[711]，导致识别率较低。在样本数量不足的情况下，杨世元等人[12]讨论了一种基于支持向量机（support vecort machine，SVM）技术的FLANN构造新方法，在实验数据较少的小样本条件下仍然具有更高的鲁棒性和修正精度；陈涛等人[13]提出一种动态灰神经网络智能趋势预测方法，为小样本高精度状态趋势预测提供一种新方法；冯国奇等人[14]针对正交实验设计的小样本问题，采用基于限制扰动的虚拟样本构造方法扩大训练样本集，用于提高人工神经网络建模精度；K.Kavukcuoglu等人[1516]选用稀疏编码提取输入数据的基函数作为卷积神经网络的初始滤波器，并利用独立成分分析预训练，对卷积神经网络进行初始化，克服了样本数量不足的条件。卷积神经网络的正确训练是图像识别准确的重要前提，而合理的確定样本数量和迭代次数又是网络正确训练的保证。基于此，本文以经典LeNet[1720]卷积神经网络为研究对象，以Mnist样本集为样本，通过调整训练样本数量和迭代次数，对比不同训练结果对网络错误率的影响，研究样本数量和迭代次数与网络识别率的关系。该研究为中、小样本集的卷积神经网络节约了训练时间，提供了理论参考。

卷积神经网络是为识别二维形状而特殊设计的一个多层感知器，它类似生物视觉中的局部感知效应，权重共享可以降低神经网络模型的复杂度，并减少网络权重数量，对图像平移、缩放旋转等变形具有高度适应性。卷积神经网络由局部感受野（local receptive fileds）、权重共享（shared weights）、池化（pooling）3个重要思想构成。卷积神经网络结构如图1所示。

卷积层进行卷积的操作，每幅图像用多个具有自学习能力的卷积核进行卷积，从而提取每幅图像的局部特征。一般选取激活函数为Sigmoid函数，卷积层计算公式和激活函数分别为

xlj=f（∑i∈MJxl-1i×klij+blj）（1）

Sx=11+e-x（2）

式中，l是网络的层数；k是卷积核；Mi是输入层的感受野；b是偏置；e是自然常数。

降采样层在卷积层之后，主要功能是对特征图降维，在一定程度上保持特征的尺度不变。降采样层的一般形式为

xij=f（βijdown（xi-1j）+bij）（3）

式中，l是网络的层数；β表示权值；down表示降维操作；b是偏置。

经过多个卷积层和降采样层的交替传递，针对提取的特征分类，卷积网络依靠全连接网络。因输出层分10类，所以采用Softmax分类器，每幅图像属于0～9的概率为

图2LeNet经典神经网络结构图d（i）j=exp（WTjx（i）+aj）∑10j=1exp（WTjx（i）+aj）（4）

式中，W为分类器的参数，W=[W1，W2，W3，W4，W5，W6，W7，W8，W9，W10]∈Rd×10；d（i）j是对x（i）属于第j类的可能性预测。

2网络识别率与样本关系

2.1网络结构

LeNet经典神经网络共6层，卷积核大小为5×5，其结构图如图2所示。各层结构如下：

第1层为输入层I1，为28×28的灰度图像。

第2层为卷积层C2，卷积核大小5×5，最终得到6个24×24的特征图像。

第3层为降采样层S3，用2×2的邻域进行降维采样，得到6个12×12的特征图像。

第4层为卷积层C4，卷积核大小5×5，最终得到12个8×8的特征图像。

第5层为降采样层S5，用2×2的邻域进行降维采样，得到12个4×4的特征图像。

LeNet经典神经网络的激活函数选取Sigmoid函数。

2.2实验流程

在网络学习率为05的情况下，本文主要研究当迭代次数不变时，训练样本数量与网络判断误差的关系，以及当训练样本的数量不变，迭代次数与网络判断误差的关系。样本数量与判断误差关系流程图如图3所示。

2.3实验过程

代价函数定义为

η=p/q（5）

式中，p为测试样本中判断错误的样本个数；q为用来测试的样本总数。

1）迭代次数选择20次，保持不变；训练样本数量最终选择：70，100，170，200，…；测试样本选择Mnist样本集的10 000个测试样本进行实验。

2）训练样本选择170个，保持不变；迭代次数最终选择：3，10，13，15，18，…；测试样本选择Mnist样本集的10 000个测试样本进行实验。

3实验结果及分析

实验采用Mnist样本集中的训练样本进行训练，使用其中的测试样本进行测试，最终得到训练样本数目与错误率的关系如图4所示，迭代次数与错误率的关系如图5所示。

由图4可以看出，在迭代次数、学习率及批数据大小不变的情况下，网络的判断误差随着训练样本数目的增加开始迅速下降，之后趋于稳定，虽然错误率有微小下降，但是变化不大；由图5可以看出，在训练样本数目、学习率及批数据大小不变的情况下，网络的判断误差随着训练迭代次数的增加，开始变化较小，之后迅速下降，然后趋于稳定，虽然错误率有微小下降，但是变化不大。在迭代次数较少时，迭代次数与错误率的关系不明显。

4结束语

本文研究了卷积神经网络训练样本数目和迭代次数对网络判断错误率的影响。实验结果表明，训练样本数目和迭代次数对网络判断错误率的影响具有较大的非线性。在迭代次数、学习率及批数据大小不变的情况下，训练样本数目对网络识别错误率的影响存在阈值，当训练样本数目大于阈值时，样本数目增加对错误率降低很小；在训练样本数目、学习率及批数据大小不变的情况下，随着迭代次数逐渐增加，网络识别的总体错误率呈先缓慢下降后快速下降之后又缓慢下降的趋势，迭代次数少的情况下，迭代次数和错误率变化规律具有随机性。由于样本数据和計算机资源的有限性，在卷积网络的训练和应用中，要合理选择网络训练参数，提高网络识别能力。

参考文献：

[1]张婷，李玉鑑，胡海鹤，等. 基于跨连卷积神经网络的性别分类模型[J]. 自动化学报， 2016， 42（6）： 858865.

[2]王伟凝，王励，赵明权，等. 基于并行深度卷积神经网络的图像美感分类[J]. 自动化学报， 2016， 42（6）： 904914.

[3]姚家雄，杨明辉，朱玉琨，等. 利用卷积神经网络进行毫米波图像违禁物体定位[J]. 红外与毫米波学报， 2017， 36（3）： 354360.

[4]李琳辉，伦智梅，连静，等. 基于卷积神经网络的道路车辆检测方法[J]. 吉林大学学报：工学版， 2017， 47（2）， 384391.

[5]李彦冬，郝宗波，雷航. 卷积神经网络研究综述[J]. 计算机应用， 2016， 36（9）： 25082515.

[6]刘万军，梁雪剑，曲海成. 基于双重优化的卷积神经网络图像识别算法[J]. 模式识别与人工智能， 2016， 29（9）： 856864.

[7]左艳丽，马志强，左宪禹. 基于改进卷积神经网络的人体检测研究[J]. 现代电子技术， 2017， 40（4）： 1215.

[8]Fu L， Kara L B. Neural NetworkBased Symbol Recognition Using a Few Labeled Samples[J]. Computers & Graphics， 2011， 35（5）： 955966.

[9]樊养余，李祖贺，王凤琴，等. 基于跨领域卷积稀疏自动编码器的抽象图像情绪性分类[J]. 电子与信息学报， 2017， 39（1）： 167175.

[10]高建清. 基于卷积神经网络的旋转变形验证码识别[J]. 莆田学院学报， 2016， 23（2）： 6366.

[11]Lopes A T， Aguiar E D， Souza A F D， et al. Facial Expression Recognition with Convolutional Neural Networks： Coping with Few Data and the Training Sample Order[J]. Pattern Recognition， 2017， 61： 610628.

[12]杨世元，董华，吴德会. 基于SVM构造的FLANN数据融合方法在CPS修正中的应用[J]. 仪器仪表学报， 2007， 28（4）： 621625.

[13]陈涛，徐小力. 基于动态灰神经网络的关键设备状态趋势预测[J]. 自动化与仪表， 2016， 31（6）： 14.

[14]冯国奇，崔东亮，张亚军，等. 样本视角下面向复杂产品多目标优化设计的混合人工神经网络遗传算法技术[J]. 计算机集成制造系统， 2016， 22（6）： 14031414.

[15]Kavukcuoglu K， Sermanet P， Boureau Y L， et al. Learning Convolutional Feature Hierarchies for Visual Recognition[C]// International Conference on Neural Information Processing Systems， Vancouver， British Columbia， Canada： DBLP， 2010： 10901098.

[16]Kavukcuoglu K， Ranzato M A， Fergus R， et al. Learning Invariant Features Through Topographic Filter Maps[C]// IEEE Conference on Computer Vision & Pattern Recognition， Miami， FL， USA： IEEE， 2009： 16051612.

[17]王晓锋，马钟. 基于卷积神经网络LeNet5的货运列车车号识别研究[J]. 现代电子技术， 2016， 39（13）： 6366.

[18]党倩，马苗，陈昱莅. 基于二级改进LeNet5的交通标志识别算法[J]. 陕西师范大学学报：自科版， 2017， 45（2）： 2428.

[19]马苗，陈芳，郭敏，等. 基于改进LeNet5的街景门牌号码识别方法[J]. 云南大学学报：自然科学版， 2016， 38（2）： 197203.

[20]邹冲，蔡敦波，赵娜，等. 基于SVMLeNet模型融合的行人检测算法[J]. 计算机工程， 2017， 43（5）： 169173.