基于联合卷积和递归神经网络的交通标志识别

2014-07-01宣森炎龚小谨刘济林

传感器与微系统 2014年8期

关键词：特征向量识别率分类器

宣森炎，龚小谨，刘济林

(浙江大学信息科学与电子工程学系，浙江杭州 310027)

基于联合卷积和递归神经网络的交通标志识别

宣森炎，龚小谨，刘济林

(浙江大学信息科学与电子工程学系，浙江杭州 310027)

提出了一种联合卷积和递归神经网络的深层网络结构，在卷积神经网络中引入了递归神经网络能学到的组合特征：原始图片先通过一级由k均值聚类学得滤波器的卷积神经网络，得到的结果再同时通过一级卷积和一级递归神经网络，最后得到的特征向量由Softmax分类器进行分类。实验结果表明:在第二级卷积和递归神经网络权重随机的情况下，该网络的识别率已经能够达到98.28 %，跟其他网络结构相比，大大减少了训练时间，而且无需复杂的工程技巧。

卷积神经网络；递归神经网络； k均值聚类

0 引言

交通标志识别是驾驶员辅助系统和无人自主车的重要组成部分，一般对识别率有很高的要求，因为误识别可能会造成不可预知的后果。光照变化、移动模糊、标志褪色、天气等原因给交通标志图像带来了极大的变化，增加了识别的难度。

最近，深度学习作为一种能够自动学习图像中深层次特征的机器学习算法得到了广泛的关注。卷积神经网络作为深度学习的一种，在很多的物体识别任务上都取得了极好的成绩。德国交通标志识别基准[1](German traffic sign recognition benchmark,GTSRB)是一个在2011年国际神经网络联合会议(2011 International Joint Conference on Neural Networks)上引入的交通标志识别挑战赛，包括一个被广泛认可的交通标志数据集。卷积神经网络在比赛中取得了最好的效果，最高的2个识别率均由卷积神经网络取得。Ciresan Dan等人[2]提出了多纵卷积神经网络，利用对训练图片进行不同的预处理，训练得到不同的卷积神经网络，测试时对各个网络的结果取平均。Sermanet P等人[3]提出了一个多尺度的卷积神经网络结构，最后输出的特征向量是不同层特征向量的叠加。这2种方法都取得了很高的识别率，但是需要长时间的训练、很多的计算资源和工程技巧，Ciresan Dan等人的网络需要用4块GPU训练37 h。

文献[4]中提到，卷积神经网络之所以能够取得很好的效果，主要是因为其网络结构本身能够提取图像的多层次特征，最费时的全局变量优化其实对效果的提升有限，因此,设计网络结构显得尤为重要。

本文提出了一种联合卷积和递归神经网络的网络结构，递归神经网络[5]能学到图像低层特征的组合特征，在彩色—深度图像识别上能够取得很好的识别率。在本结构中，原始图片先通过一级卷积神经网络，得到的特征图再同时输入一级卷积和一级接受域重叠的递归神经网络进行处

理，将两者得到的特征向量连接后由Softmax分类器进行分类。在第二级卷积和递归神经网络权重随机的情况下，该网络的识别率已经很高，而且避免了复杂的全局变量优化，即便在CPU上也只需要4.8 h的训练时间。

1 网络总体结构

联合卷积和递归神经网络的网络结构如图1所示。卷积层、矫正和局部对比度归一化、采样层组成一级卷积神经网络，原始的输入图片先通过第一级卷积神经网络，得到的“特征图”再同时通过第二级卷积神经网络和2层递归神经网络。递归神经网络可以看成是卷积和采样的结合。

图1 联合卷积和递归神经网络结构Fig 1 Joint convolutional and recursive neural network structure

1.1 卷积层

1.2 矫正和局部对比度归一化

卷积层得到的特征图先进行矫正，即均取绝对值，然后再对局部区域内的值进行对比度归一化。局部区域既包括同一张特征图上的相邻像素，也包括不同特征图上同一位置的相邻像素。具体地，设局部区域大小为l×l，特征图的个数为k，则对任一像素，取其跨特征图的l×l×k领域，计算该领域内像素的均值和方差，然后该像素值减去均值，差再除以方差即完成归一化。

1.3 采样层

比如执教贾平凹的《月迹》时，首先让学生充分感知课文，反复练读达到“文通字顺”；然后让学生选择自己喜欢的描写月光的句子，读一读，并引导学生交流喜欢的原因，从而帮助学生再现画面，体会意境；最后让学生配上柔柔的乐曲，图文结合，美美地赏读，在赏读中进一步感悟语言，形成语感，在美读中那皎洁的月光也仿佛洒向了孩子那稚嫩的心灵。

1.4 递归神经网络

图2 递归神经网络结构Fig 2 Recursive neural network structure

1.5 Softmax分类器

第二级卷积和递归神经网络得到的特征向量连接后输入Softmax分类器进行分类，Softmax分类器是逻辑回归分类器在多类分类问题的扩展。设目标总共有n类，特征向量的维度为d维，则每一类均有一个维度为d的参数向量θj，给出一个特征向量xi，则该特征向量属于第k类的概率为

(1)

Softmax通过最大化每个训练样本属于其本类的概率来训练参数，一般采用Quasi-Newton法，如L-BFGS进行优化。

2 滤波器训练方法

(2)

V左乘Xpca，则得到ZCA白化的结果

Xzca=VXpca.

(3)

滤波器在对图片进行卷积时，移动卷积核，对应的图片块也要先进行均值和方差归一化，以及白化，然后再进行卷积。

3 实验结果与分析

实验采用的CPU为IntelXeonE5—2609(2.4GHz)，内存为32G。GTSRB包含39 209张训练图片和12 630张测试图片，共43类。GTSRB中的图片大小变化很大，最小的为25×25，最大的可以达到266×232，在处理之前，所有的图片均归一化到67×67。

第一级卷积神经网络的滤波器大小设为1，训练滤波器时随机从训练图片中取了300 000个8×8的块。滤波器的个数设为132，由k均值聚类得到的滤波器如图3所示，(a)为132个从灰度图像中学得的滤波器，(b)为从彩色图像中学得的滤波器。可以看到，k均值聚类能学到一些清晰的边缘和颜色检测器。

图3 k均值聚类学到的滤波器Fig 3 Filters learned from k-means clustering

第一级卷积神经网络的卷积步长设为1，则对每张输入图片卷积之后得到132张尺度为60×60的特征图。在采样层，采样的范围设为8×8，采样的步长为2，则采样之后每张特征图的大小为27×27。第二级的滤波器权重均随机设置。对单尺度的递归神经网络，将接受域的大小设为3×3，则3层递归神经网络分别将特征图的尺寸降为9×9，3×3，1×1，共有132张特征图，则每个递归神经网络输出的特征向量维度为132×1。多尺度递归神经网络在单尺度的基础上，同时输出最后2层的特征向量用于分类，则每个递归神经网络输出的特征向量维度为132×10。接收域重叠的递归神经网络接受域大小仍设为3×3，但步长设为2，因此,2层递归神经网络分别将特征图的尺度减到13×13，6×6，第二层的特征向量直接输出用于分类，因此,输出特征向量维度为132×36。当第二级只采用递归神经网络，且有多个递归神经网络结合时，3种不同的网络结构的分类准确率随着递归神经网络数量的变化如图4所示。可以看到，当递归神经网络数量增加时，识别准确率变高，但准确率会在一定时候达到饱和。多尺度递归神经网络在采用很少的数量时已经能够达到很高的识别率，且饱和识别率要高于单尺度递归神经网络，这说明为提高识别准确率，增加单个递归神经网络的特征输出比仅仅增加递归神经网络数量的效果更好。接受域重叠的递归神经网络对特征图的特征提取更加密集，而且在更早的层输出特征，特征的数量更多，因此,在仅采用3个递归神经网络时，就已经达到了比单尺度和多尺度的饱和识别率更好的表现。但是接受域重叠的递归神经网络每个输出的特征维度很高，采用很多个时会带来内存的问题，因此，仅测试了数量从1～8的情况。

图4 3种不同递归神经网络结构分类准确率Fig 4 Classification accuracy of 3 different recursive neural network structures

实验也测试了第二级只采用卷积神经网络时的识别率。第二级卷积神经网络的滤波器接受域设置为4×4，卷积步长为1，因此,卷积之后特征图尺寸为24×24，采样范围设置为4×4，步长为2，采样之后特征图的尺寸为11×11，这些特征值直接输出用于分类，这时识别率达到97.79 %。

联合卷积和递归神经网络的效果也得到了测试。图4显示，提高多尺度或接受域重叠的递归神经网络数量时，识别率会很快达到饱和，为简单起见，这里仅采用了一个接受域重叠的递归神经网络。图5显示了联合卷积和递归神经网络的效果提升，从左到右依次为：第二级为一个接受域重叠的递归神经网络；第二级为一个卷积神经网络；第二级联合卷积和递归神经网络；用灰度图和彩色图分别训练一个联合网络，再将结果取平均。可以看到，单独的递归神经网络识别率为97.17 %，卷积神经网络识别率为97.79 %，但是将两者联合后，识别率提高到了98.15 %。联合卷积和递归神经网络在卷积神经网络中引入了递归神经网络能得到的图像低层特征的组合特征，因此对识别有很大的帮助。彩色图和灰度图是原始图片的2种模态，用它们分别训练一个联合网络，再将结果取平均，这样的一个组合分类器又能将结果提升至98.28 %。表1列出了不同方法在GTSRB上的表现，可以看到，联合卷积和递归神经网络的识别率已经很接近人类表现，虽然还达不到多纵卷积神经网络和多尺度卷积神经网络的表现，但是只需要简单地通过k均值聚类训练第一级滤波器，以及得到特征后向量后训练Softmax分类器，用灰度图和彩色图训练2个联合网络总耗时4.8h。

图5 联合卷积和递归神经网络的效果提升Fig 5 Effect improvement of joint convolutional and recursive neural networks

方法识别率(%)多纵卷积神经网络[2]99.46多尺度卷积神经网络[3]98.84人类表现98.31联合卷积和递归神经网络98.28随机森林[7]96.14

一些错识别的图片如图6所示。有些标志具有本身非常相似的其他标志，如限速标志都是一个红色的圆圈加圈内一个数字，当图像具有移动模糊，或者亮度极暗/亮的情况下，就容易错分，一般情况下，这种图片人眼一时也难以区分。

图6 错识别的图片Fig 6 Wrongly recognized images

4 结论

本文提出了一种联合卷积和递归神经网络的网络结构，引入了递归神经网络能学到的图像低层特征的组合特征，在大部分网络参数随机的情况下，该网络已经能够取得逼近人类表现的效果。无需复杂、需要很多工程技巧的全局变量训练，大大缩短了训练时间。本文还提出了一种多尺度的递归神经网络和一种接受域重叠的递归神经网络，在较少的网络数量时即取得很好的识别率。

[1] Stallkamp J,SchlipsingM,Salmen J,et al.Manvs.computer:Benchmarking machine learning algorithms for traffic sign recognition[J].Neural Networks,2012,32(8):323-332.

[2] Ciresan Dan,Meier Ueli,Masci Jonathan,et al.Multi-column deep neural network for traffic sign classification[J].Neural Networks,2012,32(8):333-338.

[3] Sermanet P,Lecun Y.Traffic sign recognition with multi-scale convolutional networks[C]∥Proceedings of International Joint Conference on Neural Networks,IJCNN 2011,2011：2809-2813.

[4] Saxe A,Koh P W,Chen Z,et al.On random weights and unsupervised feature learning[C]∥International Conference on Machine Learning,2011：1089-1096.

[5] Socher Richard,Huval Brody,Bhat Bharath,et al.Convolutional-recursive deep learning for 3D object classification[C]∥Advances in Neural Information Processing Systems,2012.

[6] Coates Adam,Ng Andrew Y . Learning feature representations with K-means[J]. Neural Networks:Tricks of the Trade,2nd ed,Lecture Notes in Computer Science,2012，7700:561-580.

[7] Zaklouta F, Stanciulescu B. Real-time traffic sign recognition using spatially weighted HOG trees[C]∥15th International Conference on Advanced Robotics(ICAR),2011.

Traffic sign recognition based on joint convolutional and recursive neural networks

XUAN Sen-yan， GONG Xiao-jin， LIU Ji-lin

(Department of Information Science and Electronic Engineering,Zhejiang University,Hangzhou 310027,China)

Propose a joint convolutional and recursive neural network structure,bring the combinational feature that recursive neural networks can learn into convolutional neural networks,that is,the raw image is first passed through a convolutional neural network stage with filters trained by k-means clustering,the result is then passed through a convolutional and a recursive neural network stage simultaneously,at last,the obtained feature vector is classified by softmax classifier.Experimental result shows that even with weights randomly set for the second convolutional and recursive neural network,the network reaches a recognition rate of 98.28 %,compared to other network structures,it greatly reduces training time and requires no complex engineering tricks.

convolutional neural networks; recursive neural networks; k-means clustering

10.13873/J.1000—9787(2014)08—0030—04

2014—01—10

TP 391.4

1000—9787(2014)08—0030—04

宣森炎(1988-)，男，浙江诸暨人，硕士研究生，主要研究方向为图像处理。