改进的全卷积神经网络在手写数字识别上的应用

2020-06-07刘宝宝杨雪吴治虎侯飞穆姣

电脑知识与技术 2020年35期

刘宝宝杨雪吴治虎侯飞穆姣

摘要：为了提高手写数字的识别率，论文提出了一种改进的全卷积神经网络手写图像识别方法。首先通过传统的卷积神经网络获取手写数字图像的轮廓特征，其次在模型训练的初始阶段，传统的修正线性单元（RELU）激活函数被指数线性单元（ELU）激活函数所代替，然后应用支持向量机（SVM）分类器替换原始卷积神经网络的多项逻辑回归（Softmax）分类器，并对输出的像素分类结果进行反卷积操作，从而获得分割结果。最后，使用提出的算法在MNIST数据集进行验证，与其他算法比较具有较高的识别精度。

关键词：MNIST数据集;全卷积神经网络;ELU函数;手写识别;识别率

中图分类号： TP391 文献标识码：A

文章编号：1009-3044（2020）35-0001-03

开放科学（资源服务）标识码（OSID）：

Application of an Improved Fully Convolutional Neural Network in the Handwritten Digit Recognition

LIU Bao-bao， YANG Xue， WU Zhi-Hu， HOU Fei， MU-Jiao

（Xian Polytechnic University， Xian 710048， China）

Abstract：In order to improve the recognition rate of handwritten digits， the paper proposes an improved handwritten image recognition method of fully convolutional neural network. Firstly，the outline features of the handwritten digital image are obtained by the traditional convolutional neural network. In the initial stage of model training， the exponential linear unit （ELU） activation function is replacedby the traditional rectified linear unit（RELU） activation function. Secondly， the multiple logistic regression （Softmax） classifier of the convolutional neural network is replaced by a support vector machine （SVM） classifier and the pixel classification results from the classifier are deconvolved to obtain the segmentation results. Finally， the presented algorithm isverified in the MNIST dataset， which has higher recognition accuracy than other algorithms.

Key words： MNIST dataset;fully convolutional neural network; ELU; handwritten digit recognition; recognition rate

手写是从古至今人类不可忽视的交流方式，是目前文字识别的重要组成部分，在很多领域中手写识别都有广泛的商业价值和科研运用。作为图像识别领域中的一个重要分支，对手写字体的识别研究具有十分重要的实际意义[1]。

我国对手写体数字识别的研究起步相对较晚，但也取得了一定的成果。如娄正良等人[2]提出一种新的基于小波变换和局部傅立叶变换的脱机手写数字特征提取方法，在MNIST数据上该方法取得了较好的识别效果。付庆玲等人[3]基于手写体数字的几何结构提取端点及其方向等数字特征值，应用单字单网的10个并行BP神经网络进行数字识别，获得较好的识别效果。双小川等人[4]提出了基于统计和结构特征的手写数字识别，利用模式识别与回归软件包Lib SVM对综合特征进行分类识别，得到较高的识别分类准确率。

传统识别算法对手写数字进行识别时，其识别率低、识别速度慢。近年来，卷积神经网络由于良好的推广能力、记忆力、非线性和自学习能力以及高速运算能力被广泛用于手写数字识别。如李斯凡等人[5]研究了卷积神经网络，将改进的模型应用在MNIS字符库上，与传统识别方法进行对比分析，具有较高识别率。汪雅琴等人[6]提出基于LeNet-5模型的手写数字识别优化方法，通过优化卷积层的样本训练方式，减少预处理工作量，加快识别速度。茹晓青等人[7]用形变卷积模块来增强网络对数字几何变换的建模能力，提出了一种改进的手写体数字识别框架，具有较高的识别精度并减少了训练的参数量。

论文为了提高手写识别的准确率，改进了全卷积神经网络，把传统的修正线性单元（RELU）激活函数用指数线性单元（ELU）激活函数代替，最后的分类函数Softmax用分类器支持向量機SVM所替代，使其具有更高的识别率并降低了模型训练时间。

1 改进的全卷积神经网络

卷积神经网络（Convolutional Neural Network， CNN）[8]可以通过构建多层的卷积层，自动提取图像特征。浅层的卷积层一般可以学习图像的局部特征（如纹理特征），深层的卷积层可以学习抽象的特征（如物体大小，位置和方向信息等）。但CNN对图像的特征提取以“块”为单位的，很难做到像素级的精细分割，因此在准确率上有待提高。

针对卷积神经网络在图像语义分割的局限性，2015年Jonathan Long等人[9]提出了全卷积神经网络（Fully Convolutional Networks，FCN），用于图像的语义分割。近年来，很多研究者采用全卷积神经网络作为图像分割的基本模型，但它在初始训练阶段训练时间较长，易产生过拟合，识别精度低。论文在全卷积神经网络模型训练中将使用指数线性单元（ELU）激活函數代替传统的修正性单元（RELU）激活函数，同时在模型最后将传统使用的SoftMax分类器用支持向量机（SVM）代替作为像素分类器，解决了原始卷积神经网络在池化后存的分辨率降低问题，使用反卷积恢复图像分辨率，提高了手写数字识别的识别率。

1.1 改进全卷积神经网络的结构

VGG16具有较深的网络模型的结构，能较全面的提取到手写数字图像的细节信息，对后续的分割识别效果较好，因此论文基于VGG16基础上提出改进的全卷积神经网络手写识别方法。VGG16的网络结构如图1，先将VGG16模型中的全连接层换为卷积层，即图1中的全连接层FC6和全连接层FC7替换为卷积层Conv6和卷积层Conv7，同时将用于分类的SoftMax函数用支持向量机SVM替代，改进后的全卷积神经图如图2。由于在训练过程中有池化操作，会降低图像的分辨率，因此在原始的VGG16模型后面增加反卷积过程，原始图像的大小通过扩充池化层得到，具体操作如图3所示。

1.2 激活函数

传统全卷积神经网络中采用的激活函数一般是RELU激活函数，而一般手写数字占整副图像的面积较小，使用指数线性单元ELU激活函数，一方面可以加快模型的收敛速度，另一方面且具有较好的抗噪能力，计算公式如下：

[ELU（x）=x，x>0α（ex-1），x≤0] （1）

其导数为：

[ELU'（x）=1，x>0αex，x≤0] （2）

ELU激活函数及其导数的图形如图4。ELU激活函数与RELU函数相比，是将RELU函数中的负部修正为指数，使其更具有收敛性。

1.3 手写数字图像识别算法描述

手写数字图像识别用改进的全卷积神经网络算法处理的主要步骤如下：

1）先将原始手写图像输入到卷积神经网络模型中，利用卷积操作进行特征提取。卷积层主要包括k个N×N×C大小的卷积核，将卷积核和原始图像进行卷积运算，然后使用ELU激活函数增强卷积层的特征提取能力，经过运算后得到k个（M-N+1）×（M-N+1）的特征图。卷积运算的公式为：

[x（l）i=ELU（i∈δjMW（l）iX（l-1）i+b（l）i） ] （3）

其中，[x（l）i]是输入的手写图像，ELU是激活函数，解决线性函数表达了问题，[X（l-1）i]是第l-1个隐层的输出，[W（l）i]是第l个隐层的权重矩阵，[b（l）i]是第l个隐层的偏置矩阵。

2）卷积操作后需要增加池化操作，以降低网络模型的运算量从而减少模型训练的时间。这里的池化指下采样，论文采用最大池化方法。池化后仍采用激活函数来增加模型的非线性表达能力。模型最后增加反卷积操作，就是用上采样对池化后的特征用线性插值的方式恢复图像原始大小和分辨率。

3）全卷积神经网络是端对端的逐像素分类过程，经过卷积层和池化层的操作后，相当于对原手写图像的特征进行了提取。论文中分类器为支持向量机SVM，因为SVM在解决小样本、非线性及高维模式识别中具有一定的优势，而手写数字图像识别就是一个典型的二分类问题，可以利用SVM寻找一个超平面来对手写图像根据正例和反例进行分割。

4）在经过SVM算法分类后，要使用损失函数评价模型训练的效果，训练集与测试集的损失值越小表明训练的效果越好。论文中采用的损失函数的计算公式具体如下：

[L（p）=12Ni=1nEi（Ii，P）-Di22] （4）

其中P为网络模型中需要学习的参数，Ii是训练集上的第i张训练图像，N是训练集的图像数目，Di为标注的手写数字图像，Ei为网络模型识别的手写数字图像，L（p）是计算实际手写数字图像与识别的手写数学图像间的欧式距离得到的损失值。

2 实验结果及分析

2.1 实验样本选择

实验中使用的数据集是MNIST字符库，它是一个手写数字的数据集，来自美国国家标准与技术研究所（National Institute of Standards and Technology，NIST），由手写数字图片和对应的标签组成。样本来自250个不同人的手写数字，其中高中学生占50%，50%是人口普查局的工作人员，数字从0-9，共10类，图片大小是28×28像素，训练数据集包含60000个样本，测试数据集包含10000个样本。如图5为部分MNIST数据集的样本。

2.2 性能评价指标

为了反映模型预测正确的样本比例，论文在手写数字识别中，采用正确识别率来评价模型的优劣，其计算公式为：

[A=正确识别样本数全部样本数×100%] （5）

2.3 仿真结果及分析

为了验证提出算法的有效性，在MNIST数据集上进行了仿真测试。训练模型时随机选取训练集数据中的不同数量的样本，网络模型训练时，采用3×3的卷积核，2×2的池化操作，步长设置为1，学习率设置为0.0001，在VGG16网络，FCN网络和论文基于VGG16网络改进的FCN网络方法进行了对比。

从表1可以看出，无论使用卷积神经网络的哪种方法，基本是随着训练样本数的增加准确识别率不断提高，因为VGG16是比较深层的网络结构，对特征的提取较好，因此论文在VGG16网络上改进的FCN算法相比识别的正确率最高。模型训练在样本10000时，就能取得较好的识别效果，若继续加大模型训练的样本数量，不断训练时间长，还造成了过拟合，导致识别效果并不是最理想的。

图6为10000个训练样本时，模型随迭代次数的增加的识别精确度和损失函数的代价值的变化情况。可以看出，随着迭代次数的增加，识别精度也在不断增加，损失代价值在迭代次数10000以后，有小范围波动，但整体不断减少。

3 结论

针对手写数字识别精确度不高的问题，论文在VGG16网络模型基础上结合全卷积神经网络的架构，提出了改进的全卷积神经网络手写数字识别方法，通过仿真实验表明手写数字的正确识别率有了较大的提高，达到了预期效果。

参考文献：

[1] 黄佳凯.基于ARM平台和TensorFlow的手写数字识别[D].南京：南京邮电大学，2019.

[2] 娄正良，刘昌平.基于小波变换和局部傅立叶变换的手写数字识别[J].计算机工程与应用，2004，40（9）：63-64，117.

[3] 付庆玲，韩力群.基于人工神经网络的手写数字识别[J].北京工商大学学报（自然科学版），2004，22（3）：43-45.

[4] 双小川，张克.基于统计和结构特征的手写数字识别研究[J].计算机工程与设计，2012，33（4）：1533-1537.

[5] 李斯凡，高法钦.基于卷积神经网络的手写数字识别[J].浙江理工大学学报（自然科学版），2017，34（3）：438-443.

[6] 汪雅琴，夏春蕾，戴曙光.基于LeNet-5模型的手写数字识别优化方法[J].计算机与数字工程，2019，47（12）：3177-3181.

[7] 茹曉青，华国光，李丽宏，等.基于形变卷积神经网络的手写体数字识别研究[J].微电子学与计算机，2019，36（4）：47-51.

[8] Schmidhuber J.Deep learning in neural networks：an overview[J].Neural Networks，2015，61：85-117.

[9] Long J，Shelhamer E，Darrell T.Fully convolutional networks for semantic segmentation[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）.June 7-12，2015，Boston，MA，USA.IEEE，2015：3431-3440.

【通联编辑：唐一东】