结合多通道深度学习和随机森林的地表分类

2019-12-19何银银赖水长侯建赭

软件 2019年11期

何银银赖水长侯建赭

摘要：地表分类技术对地面无人驾驶车辆的感知能力有着重要影响。而针对传统卷积神经网络CNN（Convolutional Neural Networks）地表分类效果不佳的问题，本文提出一种结合多通道深度学习和随机森林的地表分类算法。算法先通过图像计算得到人工设计的特征LBP;再采用多通道融合技术，将原彩色图像的RGB三通道和LBP通道加以融合形成融合图像;然后构建并预训练卷积神经网络，以此提取融合图像的关键特征信息;最后用随机森林分类器代替卷积神经网络输出层完成地表分类。实验结果表明，本文算法识别正确率达到98.56%，相比于传统卷积神经网络能取得更好的分类结果，具有一定的鲁棒能力。

关键词：卷积神经网络;多通道融合;地表分类;随机森林;LBP特征

【Abstract】： Surface classification technology has an important effect on perception ability of ground driverless vehicles. To solve the problem of ineffective land surface classification of traditional Convolutional Neural Networks （CNN）， the paper proposes a land surface classification algorithm based on multi-channel deep learning and random forest. The algorithm firstly obtains artificially designed feature LBP by image calculation， then fuses RGB three-channel and LBP channel of original color image to form the fusion image with multi-channel fusion technology， constructs and pretrains convolutional neural network to extract key feature information of the fusion image， finally replaces output layer of convolutional neural network with random forest classifier to complete surface classification. Experimental results show recognition accuracy of the algorithm reaches 98.56%. Compared with traditional convolution neural network， the algorithm can achieve better classification results and has some certain robustness.

【Key words】： Convolutional neural network; Multi-channel fusion; Surface classification; Random forest; LBP characteristics

0 引言

近年來，随着计算机硬件水平与模式识别技术的发展，无人驾驶车辆的研究得到了得到了重大发展[1-3]，其广泛应用于国防等各个领域。地表分类是无人驾驶车辆研究的一个重要课题，对于提升车辆的感知能力有重要影响。

目前，针对非结构化道路的地表分类技术还不成熟，因为在非结构化的行车环境下，场景结构复杂，光照条件多变，图像品质随感知距离增大而下降，非结构化环境感知成为亟待解决且极具挑战性的问题。文献[4]提出一种基于 PCA-SVM 准则改进区域生长的方法，因为降维可能会忽略原图像部分特征，导致对道路边缘相似地表的识别效果不佳。文献[5]提出多通道卷积神经网络模型，虽然处理的是完整图像，效果良好，但对纹理特征信息并不重视，针对复杂纹理地表图像的区分效果不佳。

上述的两种方法都使用了原图像作为输入，而如果直接对原图像进行处理是较为容易忽略部分关键特征的。而本文提出算法先对图像处理生成纹理特征，将其与原图像融合形成多通道的方法就可以在这方面做到比较好的解决，同时对非结构化道路的适应性更强，对于非结构化地表分类的研究有极大的参考价值。

本文算法采用多通道融合技术将RGB彩色图像和人工设计的特征LBP[6]加以融合，构建卷积神经网络提取融合图像的关键特征信息，再将关键特征信息输入随机森林分类器使其自分类学习，最终得到图像分类结果。

1 地表图像特征提取及分类

地表图像分类是根据地表图像及其反映的传统特征，将不同类别的地表图像进行区分。鉴于直接使用原彩色图像可能并不能很好地刻画纹理特征，我们先从原图像提取得纹理信息;再将其与原彩色图像加以融合[7]，利用深度学习技术对其再处理提取更为有效地的信息。

算法流程如图1所示。

整个算法由多通道融合特征模块、卷积神经网络提取模块以及随机森林分类器两部分组成。首先，由样本图像计算出LBP纹理特征，再将其与原彩色图像融合处理成新的张量。然后，采用预训练多通道卷积神经网络，经过多次卷积、池化和降采样操作，得到更关键的特征向量。最后将特征向量输入随机森林分类器，分类器进行运算与分类后，完成最终分类。

1.1 多通道融合特征

本算法采用多通道融合特征，包含地表原彩色图像以及LBP纹理特征图。

LBP（局部二值模式）算子主要用于描述图像的纹理特征信息，具有灰度不变性、旋转不变性等优点。

LBP算子是对图像中的任意像素都进行以下处理：以其为中心取一个3*3大小的矩形窗口，将其像素值设置为阈值pc，窗口内其他像素值x若大于此阈值则取一、小于其则取零，这样窗口内将产生八位二进制数字，按顺序组合起来则为中心像素的LBP值（取值范围为0-255），即反映了该区域的纹理特征。LBP的计算公式如下：

通过该算子对所有像素进行计算，每个像素填入LBP值，最终生成与原图大小一致的LBP特征图，作为第四通道数据。

最后将四个通道叠加，输入构建的卷积神经网络。采用RGBA图像格式可视化显示如图2所示。

1.2 构建卷积神经网络特征提取

卷积神经网络CNN[8-13]是一种经典神经网络，其模型是模仿人脑神经元细胞信息传递的机制，该模型对视觉信息处理非常有效，近年来被广泛使用在图像处理领域并取得显著成果。卷积神经网络对地表图像进行逐层特征处理，不断提取更为重要的特征数据输入到下一层中，直到最后一层通过全连接层转换到类别向量，与标记类别进行对比，并通过BP[14]算法将结果误差信息反馈给前层网络，使网络模型根据数据集不断学习，最终得到參数训练好的模型。

卷积神经网络包括输入层、卷积层、最大池化层、全连接层。输入层，将双通道融合特征图输入模型。卷积层，将前一层的特征图迭代乘上若干个卷积核，得多层特征图像。卷积层的计算公式如下：

如图3所示，为本文在调整Alexnet网络结构基础上构建的地表分类CNN模型结构。

相比于大卷积核，多个小的卷积核可以使模型引入更多的非线性，得到更多图像特征，同时减少模型参数量[15]，所以模型采用3*3的小卷积核。

Dropout层为随机失活层，即根据丢失几率随机将某全连接层的部分节点设置为不参与运算，以此来降低网络模型的过拟合几率，使网络更加健壮，对复杂数据具有更好的鲁棒性，所以模型在卷积层及全连接层中引入Dropout抑制过拟合。

在全连接层中，神经元个数减少的同时，特征语义性更强，但却导致部分低级语义特征丧失，对FC2层神经元个数的选取极为重要。通过调整FC2层神经元个数设计5种网络如表1所示，通过后序实验选择性能最优的网络。

由于卷积神经网络输出层softmax分类器较为简单，分类能力较弱，所以使用训练集预训练模型，获得模型参数后，将特征图输入模型后取出倒数第二层数据获得特征向量。使用其他分类器对特征向量进行分类。

1.3 随机森林分类器

分类模型选取了随机森林[16]分类器，即在训练集中随机重采样选出一定数量的样本（可重复采样），在所有样本上，对这些样本建立分类器，重复以上两步多次，获得相应个数的分类器。在测试实验中，将测试数据输入随机森林分类器，它会传入所有分类器，进行各自分类，最后根据分类器汇总的投票结果，选择票数最多的类别作为最终结果输出。

由于随机森林分类器实际上拥有多个分类器，所以对数据的泛化能力好，出错率低。

2 实验结果与分析

为了验证本文所提出的基于多通道卷积神经网络的地表分类模型的有效性，将本文中提出的方法在南京理工大学自然纹理数据库上进行了测试，并将测试结果与其他常用方法进行了对比。

2.1 数据集介绍

数据集选用南京理工大学自然纹理数据库进行实验，该数据库一共包含8997张分辨率为64X64的彩色地表图像，其中泥土图像2999张，草地图像2999张，沙砾图像2999张。将数据集按7：3的比例随机划分为训练集和测试集。部分数据集如图4所示。

为实现更好的分类效果，首先对训练集数据进行预处理，将图像RGB每个通道等分为16个灰度级，以该灰度占各通道比例做直方图，以该直方图为特征（图5所示）用kmeans进行聚类，肘方法（参

考文献）确定最佳的聚类簇数。将泥土样本分为2个子类，砂石样本分为3个子类，草地样本保持不变，一共6个类别，如图6所示。

2.2 实验设计与结果分析

实验使用搭载有NVIDIA Tesla T4的服务器进行训练，显存为16GB。使用tensorflow平台训练模型，实验批尺度为32，模型共迭代200次，设置初始学习率为0.001，为防止过拟合设置学习率衰减项为0.000001，动量为0.9进行优化。

针对表1中的5种网络，在南京理工大学自然纹理数据库上采用原图像RGB三通道加LBP人工设计特征通道共四通道为输入进行实验测试，得到结果如表2所示。

由表2可知，网络Ⅲ具有最好的分类性能，其FC2层的神经元个数为128个，说明在网络其他结构及输入输出相同的条件下，FC2层大小选择128较为合理。

以网络Ⅲ为卷积神经网络结构，在南京理工大学自然纹理数据库上采用RGB、LBP、HOG、gray等通道及支持向量机（SVM）、随机森林（RFC）分类器进行试验，为减少偶然性，每组实验做5次取平均，得到表3所示的结果数据。

表中给出了灰度图、RGB彩色图、HOG特征图、LBP特征图、RGB+HOG多通道图、RGB+LBP多通道特征图在不同分类组合下的测试集正确率，可以看出，相较于单一的灰度特征，颜色信息的加入对于地表分类效果有明显的提升，并且RGB颜色信息和人工设计的特征HOG、LBP的融合识别率也高于单独使用的实验结果，且采用LBP特征与RGB融合效果更好。同时，采用CNN作为特征提取器与传统分类器组合的方式优于单独使用效果，随机森林分类器的表现优于SVM。

使用本文提出的方法，得到最终各类别的识别正确率及混淆矩阵如表4和表5所示。

2.3 泛化性测试

为测试模型的泛化性，下面是在野外真实场景中进行分类的实验结果，其中，图7为分辨率为2048768的原图像，图8为由本文分类方法分类得到的图像，其中黑色为泥土区域，灰色为草地区域，白色为砂石区域。

图8可以看出，本文提出的基于RGB和LBP的多通道深度学习结合随机森林的模型能够较好地识别地表纹理图像。

3 结语

针对非结构化道路识别中特征繁多、分类困难，本文采用基于多通道深度学习的方法，在保留原始特征的同时，结合人工设计的特征LBP，加强了纹理特征的刻画，并采用随机森林完成最后分类，以提升分类能力。实验结果也表明该方法具有良好的分类性能，识别正确率达到98.56%。相较传统方法，本文方法可以更好提升地面无人驾驶车辆非结构化环境感知能力与水平。

参考文献

[1]Chavez-Garcia R O， Guzzi J， Gambardella L M， and Giusti A. Learning ground traversability from simulations [J]. IEEE Robotics and Automation Letters， 3（3）： 1695-1702， July 2018.

[2]Andrakhanov A， Stuchkov A. Traversability estimation system for mobile robot in heterogeneous environment with different underlying surface characteristics[C]. In Proceedings of CSIT， pp. 549-554， September 04-08， 2017， Lviv， Ukraine.

[3]刘家银，唐振民，吴国星. 基于MVSVM和超像素的可通行区域检测方法[J]. 华中科技大学学报（自然科学版）， 43（增刊I）： 345-249， 2015.

[4]王新晴，孟凡杰，吕高旺， et al. 基于PCA-SVM准则改进区域生长的非结构化道路识别[J]. 计算机应用， 2017（6）.

[5]崔巍，杨健，常合友. 基于多通道卷积神经网络的非结构化道路路表分析[J]. 计算机应用与软件，2016， 33（1）： 159-162.

[6]卢官明，左加阔. 基于二维局部保持鉴别分析的特征提取算法[J]. 南京邮电大学学报（自然科学版）， 2014， 34（5）： 1-8.

[7]毛莺池，王静，陈小丽，徐淑芳，陈豪. 基于特征组合与CNN的大坝缺陷识别与分类方法[J]. 计算机科学， 2019， 46（03）： 267-274.

[8]Ji S ， Xu W ， Yang M ， et al. 3D Convolutional Neural Networks for Human Action Recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2013， 35（1）： 221-231.

[9]Lee H， Grosse R， Ranganath R， et al. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations[C]//Proceedings of the 26th annual international conference on machine learning. ACM， 2009： 609-616.

[10]Gong Y， Jia Y， Leung T， et al. Deep convolutional ranking for multilabel image annotation[J]. arXiv preprint arXiv： 1312. 4894， 2013.

[11]Chan T H， Jia K， Gao S， et al. PCANet： A simple deep learning baseline for image classification？[J]. IEEE transactions on image processing， 2015， 24（12）： 5017-5032.

[12]Ji S， Xu W， Yang M， et al. 3D convolutional neural networks for human action recognition[J]. IEEE transactions on pattern analysis and machine intelligence， 2013， 35（1）： 221-231.

[13]Ji S， Xu W， Yang M， et al. 3D convolutional neural networks for human action recognition[J]. IEEE transactions on pattern analysis and machine intelligence， 2013， 35（1）： 221-231.

[14]LeCun Y， Boser B， Denker J S， et al. Backpropagation applied to handwritten zip code recognition[J]. Neural computation， 1989， 1（4）： 541-551.

[15]Simonyan K， Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint arXiv： 1409. 1556， 2014.

[16]李玲，李晉宏. 基于随机森林修正的加权二部图推荐算法[J]. 软件， 2018， 39（01）： 110-115.