基于稀疏卷积神经网络的考生识别算法

2019-07-08赵树枫周亮罗双虎柯立新

现代电子技术 2019年13期

赵树枫周亮罗双虎柯立新

摘要：针对传统的图像识别方法很难快速、准确地对考生进行识别从而验证其身份，文中详细地分析了卷积神经网络的原理及特性，提出一种基于多通道输入的稀疏卷积神经网络的考生识别算法，并与支持向量机及传统卷积神经网络进行比较，实验结果表明，该算法提高了考生识别的准确率，而且识别的速度大幅提高。

关键词：考生識别; 卷积神经网络; 人脸识别; 身份验证; 多通道输入; 方法比

中图分类号： TN911.73?34 文献标识码： A 文章编号： 1004?373X（2019）13?0061?04

Examinee recognition algorithm based on sparse convolutional neural network

ZHAO Shufeng1， ZHOU Liang2， LUO Shuanghu2， KE Lixin3

（1. University of Shanghai for Science and Technology， Shanghai 200433， China;

2. Network and Information Center， Shanghai Municipal Educational Examinations Authority， Shanghai 200433， China;

3. Information Center of the Shanghai Education Committee， Shanghai 200003， China）

Abstract： With the development of information technology， the face recognition technology is applied to various examinations， but the traditional image recognition method is difficult to identify the examinees quickly and accurately， and is uneasy to verify their identities. The principle and characteristics of convolutional neural network are analyzed in detail. An examinee recognition algorithm based on sparse convolutional neural network with multi?channel inputs is proposed， and compared with the algorithms based on support vector machine and traditional convolutional neural network. The experimental results show that the algorithm can improve the recognition accuracy and recognition speed of examinee significantly.

Keywords： examinee recognition; convolutional neural network; face recognition; identity authentication; multichannel input; method comparison

0 引言

近年来，随着信息技术的发展，人脸识别技术被应用到各项考试中，但传统的图像识别方法很难快速、准确地对考生进行识别从而验证其身份。即使融合多种特征识别的方法，精度仍然提升有限，在一定程度上制约了人脸识别的发展。因此，如何更加高效、充分地利用海量数据，找到这些图像数据的特征表达方式，提高考生识别准确率，更好地促进考试公平，是一个非常有意义的研究课题。

2006年，加拿大多伦多大学教授、机器学习领域的泰斗Geoffrey Hinton和他的学生Rus?lan Salakhutdinov 在《Nature》上发表了一篇文章，开启了深度学习在学术界和工业界的浪潮[1]。2012年ILSVRC竞赛中，Hinton 领导的团队采用Alexnet模型在Imagenet数据分类比赛中取得了惊人的成绩[2]，将1 000类分类的top?5误差率降低到了15.3% 。针对传统人工神经网络的局限性，本文提取图片的方向梯度直方图（Histogram of Oriented Gradient，HOG）特征[3]作为卷积神经网络的一个输入通道，充分利用HOG算子处理边缘轮廓信息和纹理信息的优势，同时，为了降低来自卷积层特征的噪点污染[4]，利用稀疏自动编码器进行特征稀疏化，提出一种基于多通道输入的稀疏化卷积神经网络的方法（Multi?Channel?Sparse?CNN，MCS?CNN），大大提高了考生识别的准确度和运行速度。

1 卷积神经网络

卷积神经网络是一种多层的监督学习网络[4?5]，通过深度结构模拟人脑自动学习数据的本质特征。它对二维数据有很好的特征提取效果，其网络结构具有权值共享、局部连接、池化采样三大特点，可以大大减少权值数量，降低模型复杂度，具有强鲁棒性，已成功应用于模式识别、物体检测和物体识别等领域。卷积神经网络一般由输入层、卷积层、池化层和全连接层组成。

卷积层是CNN特有的层结构，本质上就是对来自输入图像的不同位置的矩阵和卷积核权重各个对应位置的元素进行相乘，然后相加得到卷积结果。卷积也称为旋积或摺积，这里只考虑二维图像中的卷积运算。卷积层计算公式如下：

2 MCS?CNN考生识别算法

首先对输入图像预处理，根据HOG特征提取方法，对HOG可视化生成HOG特征图。图1是生成HOG特征图的一个示例。

图1 生成HOG特征图

相对于RGB模型，YUV颜色模型更符合人体轮廓特性，所以本文选用YUV模型。

MCS?CNN深度网络结构主要分为4个部分：多通道输入层、卷积层、稀疏特征层、分类层，如图2所示。

2.1 多通道输入

本文利用HOG处理图像轮廓和边缘的特性，将图片和HOG特征图连接成三个通道，如图3所示。第一个通道是一个128×64的原图颜色空间Y通道图像;第二个通道分为4个大小相等的block，由3个64×32的YUV通道和1个64×32的全0矩阵组成;第三个通道同样由4个大小相同的block组成，前3个block分别由YUV三個通道经过HOG处理形成的特征图组成，最后一个block取前三个block的像素最大值。

图2 MCS?CNN框架

图3 图片多通道处理

考虑到第一通道使用的是Y通道信息，与其他通道信息数值差距较大，所以对三个通道的数据进行归一化处理。

2.2 卷积层

通过构建不同层数的结构来构建卷积层，第一层包含卷积层、激活层，可选层包括BN，Dropout，MaxPooling，该结构可以重复叠加;第二层包含全连接层，同样可选BN，Dropout，MaxPooling。卷积层包含[M]个第一层和[N]个第二层两个部分，采用3×3的滤波器对输入信息进行卷积运算，提取到的特征进入全连接层，通过全连接层将特征整合为一维向量，为进入稀疏层做准备。

2.3 稀疏层

考生识别最重要的就是学习到显著有效的特征，稀疏自动编码器可以提高特征的表达能力，从而提升网络的准确率。所以本文采用它对来自卷积层的特征进行稀疏编码，目的是剔除特征中的噪点，同时使特征稀疏化，便于后续的分类操作。训练稀疏自动编码器时，将来自卷积层的输出作为稀疏自动编码器的输入（隐藏层神经元有200个），根据权重和输入向量的加权组合加上偏置量得到输出，前向过程公式如下：

根据前向计算和反向传播来训练第一个隐藏层的参数。同理，采用同样的方法训练第二个隐藏层的参数。模型不断迭代更新权重，得到参数[W，b]。当然稀疏自动编码器只是自动提取和优化特征，并不具备分类的功能，这里选用通用的softmax分类器。

2.4 MCS?CNN算法流程

输入：图片训练集和测试集

步骤：

1）多通道输入;

2）对三个通道进行归一化处理，通过卷积层和池化层得到特征图;

3）将特征图送入稀疏自动编码器，得到参数[W，b];

4）最后将稀疏层的输出连接全连接层，利用softmax得到考生的分类结果;

5）根据反向传播算法，不断训练迭代更新网络的参数，直到损失函数收敛到一个较小的值;

6）输入测试集，进行模型评估和模型更新。

3 实验与分析

3.1 模型训练

训练数据集选自上海某年度成人高考数据库，共选取1 000个考生的准考证照片与身份证照片进行比对。为防止过拟合，本文采用调节图片亮度、饱和度、对比度、随机裁剪、旋转和仿射变换，模糊处理等方法进一步扩充数据量。

3.2 卷积层数选取

首先建立一个小型网络，卷积层数量为2。在第一个卷积层中用32个3×3的滤波器对图片进行步长为1的卷积;第二个卷积层中，采用64个3×3的滤波器进行卷积，其他参数不变，ReLU作为激活函数。全连接层中有512个神经元，softmax作为损失函数。接下来，增加网络深度，建立4层卷积网络和2层全连接层，卷积层过滤器的个数分别取32，64，128，256个，在全连接层中分别取256和512个神经元。

如表1所示，随着网络层数的增加，准确率呈现先增后降的趋势，整体变化不大，但检测时间大幅增加。由于本身输入通道的尺寸较小，不断增加卷积层的层数在初期可以去除噪声，提升提取特征的纯度。但随着层数的增加和池化等操作会损失图片信息，从而影响特征的提取和识别结果。综上，同时考虑准确率、召回率和检测时间，这里取4层卷积网络对样本集进行特征提取，网络模型结构确定后，使用MCS?CNN模型与其他算法进行对比。

表1 不同层数的MCS?CNN的实验结果

3.3 算法比较

选取上海某高中200名高二学生进行实验，统计得出MCS?CNN的准确率为95%，CNN的准确率为88%。CNN误检了24个学生，而MCS?CNN误检了10个学生，误检测率显著降低。此外，用上述的200个学生的照片与身份证数据库的照片进行比对，对HOG?SVM，传统CNN和MCS?CNN三种检测算法进行对比分析，结果如表2所示。

表2 三种检测算法的准确率和检测速度对比

由表2分析可知，MCS?CNN模型准确率最高，为93.11%，与SVM?HOG相比，检测准确率高出13.59%，与CNN相比，准确率高出9.38%。MCS?CNN方法的检测速度明显快于SVM?HOG方法，略快于CNN。

相较于传统人工提取特征HOG和单纯使用原图作为输入的CNN来说，本文算法集成了HOG的优点，利用CNN来自动提取特征，同时通过稀疏自动编码器来优化特征，故在整体检测性能上得到了有效提升。

4 结语

本文提出一种基于多通道输入的稀疏卷积神经网络的考生識别算法。在传统CNN的基础上，改变图片作为网络输入的传统模式，将图片与HOG相结合的多通道信息作为输入向量，然后利用稀疏自动编码器进行特征稀疏化，降低来自卷积层特征的噪点污染。实验结果表明，MCS?CNN模型不但继承了传统人工神经网络的高效性，同时提高了检测的准确率，将其应用到各类考试中能更好地促进考试公平。

注：本文通讯作者为周亮。

参考文献

[1] 丁春辉.基于深度学习的暴力检测及人脸识别方法研究[D].合肥：中国科学技术大学，2017.

DING Chunhui. Violence detection and face recognition method based on deep learning method [D]. Hefei： University of Science and Technology of China， 2017.

[2] KRIZHEVSKY A， SUTSKEVER I， HINTON G. ImageNet classification with deep convolutional neural networks [C]// Proceedings of the 25th International Conference on Neural Information Processing Systems. Lake Tahoe： ACM， 2012： 1106?1114.

[3] 柳庆.基于深度学习的人脸检测算法[EB/OL].[2018?09?29]. https： //wenku.baidu.com/view/87d1e255bc64783e0912a21614?791711cc7979a1.html.

LIU Qing. Face detection algorithm based on depth learning [EB/OL]. [2018?09?29]. https：//wenku.baidu.com/view/87d1e?255bc64783e0912a21614791711cc7979a1.html.

[4] 苏楠，吴冰，徐伟，等.人脸识别综合技术的发展[J].信息安全研究，2016，2（1）：33?39.

SU Nan， WU Bing， XU Wei， et al. Development of face recognition integrated technology [J]. Journal of information security research， 2016， 2（1）： 33?39.

[5] PARKHI O M， VEDALDI A，ZISSERMAN A. Deep face recognition [C]// 2015 British Machine Vision Conference. England： ACM， 2015： 713?719.

[6] ZHU Ningbo， LI Shengtao. A kernel?based sparse representation method for face recognition [J]. Neural computing and applications， 2014， 24（3/4）： 845?852.

[7] SUN Yi， WANG Xiaogang， TANG Xiaoou. Deeply learned face representations are sparse， selective， and robust [C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston： IEEE， 2015： 1?12.

[8] 钱程.基于深度学习的人脸识别技术研究[D].成都：西南交通大学，2017.

QIAN Cheng. Face recognition based on deep learning [D]. Chengdu： Southwest Jiaotong University， 2017.

[9] 郭丽丽，下世飞.深度学习研究进展[J].计算机科学，2015，42（5）：28?32.

GUO Lili， XIA Shifei. Research progress of deep learning [J]. Computer science， 2015， 42（5）： 28?32.

[10] 张延安，王宏玉，徐方.基于深度卷积神经网络与中心损失的人脸识别[J].科学技术与工程，2017，17（35）：92?97.

ZHANG Yanan， WANG Hongyu， XU Fang. Face recognition based on deep convolution neural network and center loss [J]. Science technology and engineering， 2017， 17（35）： 92?97.