基于卷积神经网络的沥青路面裂缝识别模型分析

2023-11-28许炜婷

四川水泥 2023年11期

许炜婷

（广东工业大学，广东广州 510006）

0 引言

改革开放以来，经过一代又一代公路建设人员的不懈奋斗，中国公路网络基本形成。2021年，我国公路养护里程525.16 万公里，占公路总里程的99.4%，接近100%。公路养护已由传统的“抢修时代”过渡到“全面养护时代”，高效又智能的公路养护方式成为新时代提升道路服务水平的关键。

根据实地调研，目前公路破损的检测方法仍以人工查看方式为主，即养护队伍驾驶养护车辆行驶在管养路段，通过养护人员的眼睛和经验判断路况是否良好。该传统方法相对落后，人工检测整体覆盖率小、精度差、误差率高，容易受养护队伍的工作认真程度、精神状态和专业养护经验的影响。在新时代大趋势下，若能用路面破损智能检测方法代替人工查看，在裂缝形成初期就及时被发现并进行养护处理，将大大提高公路养护成本和效率。基于卷积神经网络的路面裂缝研究方法应运而生，该方法可大大提高养护效率，降低人工成本。本文从卷积神经网络的基本概念出发，对五种不同的卷积神经网络模型和两种卷积神经网络框架进行分析，最后探讨4 种基于卷积神经网络的沥青路面裂缝识别模型。

1 卷积神经网络的基本概念

1.1 神经元

神经元即神经元细胞，它分为细胞体和突起，是神经系统最基本的结构，突起分为树突和轴突，神经元A的树突接受神经元B 的轴突传来的冲动，并传给神经元A的细胞体，可以看出树突有信息传递的功能。

1.2 神经网络

神经网络从生物学的神经元获得灵感，将多个神经元组合起来就构成了神经网络，图1（f 为激活函数）是一个前馈神经网络。前馈神经网络指的是信息数据从输入层开始输入，每一层都是接收上一层的输出作为输入，并将输出结果作为下一层的输入，整个网络没有循环。卷积神经网络是一个前馈神经网络。

图1 神经网络模型

1.3 卷积神经网络

卷积神经网络在1994 年被学者研究发现，它推动了深度学习的发展。原始数据通过不同的滤波器进行卷积，得到C1卷积层的三个特征映射图。C1层得到的特征映射图经过加权值，加偏执和激活函数（sigmoid）得到S2 层的特征映射图，以此类推，得到S4 层。最终将S4 得到的像素值光栅化，输入到传统的神经网络，得到输出，具体过程如图2所示。

图2 卷积神经网络结构

深度指网络层次数量，宽度指神经元数量，提升卷积神经网络性能最直接的办法是增加网络深度和宽度，但需要把握好度，原因是网络层数越多，梯度越来越弥散；网络越大（神经元数量越多），参数越多，计算难度大，会出现过拟合现象。针对过拟合现象，可以采用最大池采样方法来解决。最大池化指的是取某个小区域中数值最大的点。最大池采样可以降维，使降维后的图像特征更容易分类。

2 卷积神经网络模型对比分析

卷积神经网络模型一般由输入层、隐藏层和输出层构成，隐藏层包括卷积层、池化层、全连接层等。卷积层进行卷积运算，类似滤波器，作用是提取特征；池化层用最大值或者平均值的方式对图像进行池化，作用是降低维数，减少计算量，使模型有抗噪能力；全连接层作用是对卷积层提取到的图像特征进行分类。

2.1 LeNet网络模型

LeNet 网络模型可以算是卷积神经网络的开端，LeNet-5和LeNet有一点差别，LeNet-5把tanh激活函数换成了ReLU。LeNet 网络模型一共有6 层，3 层卷积层，2 层池化层，1 层全连接层，经典的卷积神经网络LeNet结构如图3所示。

图3 LeNet卷积神经网络结构模型图

2.2 AlexNet网络模型

2.4 GoogleNet网络模型

GoogLeNet 卷积神经网络模型的创新点有：一是将全连接变成稀疏连接，作用是可以减少参数。二是加入了Inception 结构，与其他卷积神经网络结构中卷积层与卷积层、卷积层和池化层之间都是串联不同，GoogLeNet卷积神经网络中的卷积层和池化层是并联。

AlexNet 网络模型[1]一共有8 层，前5 层是卷积层，后3 层是全连接层，如图4 所示。AlexNet 网络模型用两块GPU 来运算，可以提高运算的效率。AlexNet网络模型的创新点大致有四个：一是用线性整流函数（RELU）激活函数取代传统激活函数，解决梯度发散的问题，可以减少计算量；二是局部响应归一化（Local Response Normalization），因为ReLU激活函数得到的值域没有区间，所以要对值域进行归一化；三是在第二个全连接层和第三个全连接层设置dropout，可以防止出现过拟合的情况；四是数据扩张（data augmentation），通过对原始数据进行适当的变换，得到差异更大的数据，和dropout 一样，数据扩张也是一种防止出现过拟合的方法。

图4 AlexNet网络结构模型图

2.3 VGGNet网络模型

VGGNet 卷积神经网络模型[3]和AlexNet 网络模型一样，有5 个卷积层，3 个全连接层，如图5 所示。文章里VGGNet 尝试了6 种不同的模型结构，分别是VGG11、VGG11-LRN、VGG13、VGG16-1、VGG16-3 和VGG19（VGG11-LRN 表示第一层卷积采用了LRN，如图6 中A-LRN 类所示；VGG16-1 表示后三组卷积块中最后一层卷积采用卷积核尺寸为1 示后，如图6 中C 类所示。因为大部分计算机硬件只能优化密集矩阵计算，同时大量实验证明：将稀疏矩阵聚类为较为密集的子矩阵可以提高计算性能，所以加入了Inception 结构即可以减少计算量又可以提高计算性能。三是使用大量1 用大的卷积核进行降维，修正relu 激活函数，减少计算量，如图7 所示。四是加入2 个辅助分类器，用于向前传导梯度，减轻梯度消失现象。

图6 VGGNet卷积神经网络模型分类

图7 加入1入助的卷积核后的Inception结构模型图

2.5 深度残差网络（ResNet）

2015 年，ResNet 提出将输入信息直接传给输出的思想，将直接学习目标值转变为学习输入值与输出值的残差。输出h(x)=x＋f(x)，f（x)残差=h(x)-f(x)。可见学习目标是f(x)，f(x)相比h(x)，更容易优化。残差单元由卷积层（Conv）、归一化层（BN）、激活函数（ReLU）等组成。归一化操作是将数据用某种算法处理后，一般对每一层网络层都进行归一化处理，使每一层网络层数据更加独立。使激活函数对特征进行非线性变换，使神经网络有更高的拟合性。残差神经网络是由多个残差单元组成，可以解决解决深度增加后，梯度消失或者是网络退化的问题。残差单元和残差网络的结构对网络的学习能力和泛化能力影响很大。

2.6 卷积神经网络模型的对比

表1 是常见的卷积神经网络模型的对比，模型相互之间有共同的地方，基本都有卷积层、池化层、全连接层，而深度残差网络（ResNet）则跳出原来的思维模式，将输入信息直接传给输出，作为初始输出结果，在实际应用时，应该根据实际问题选择适合的网络模型。

表1 卷积神经网络模型对比

3 卷积神经网络框架

3.1 Caffe框架

Caffe 是快速特征嵌入的卷积结构，完全开源的Caffe 框架的核心语言是C++，适合二维图像数据的特征提取。Caffe 的核心模块有三个，分别是 Blobs、Layers 和Nets。Blobs 模块可以对数据进行存储、交互和处理，确定了数据内存的接口。Layers 定义了许多层级结构，它将Blobs 视为输入输出。Nets 是一系列Layers的集合，将这些层结构形成一个网图。

3.2 TensorFlow框架

TensorFlow 支持很多平台，如GPU、CPU 等绝大多数平台都可以。TensorFlow 相对Caffe 工作流程简单、开源、框架具有高度灵活性、自动求微分等优点。

4 基于卷积神经网络的沥青路面裂缝识别模型

4.1 基于Caffe框架的改进后的LeNet-5网络模型

李楠[3]利用Caffe框架，对LeNet-5网络模型进行轻微调整后对图像进行裂缝有无识别，实验结果显示，将激活函数Sigmoid 换成Relu 的LeNet-5 网络模型能较好的识别裂缝。该网络由两个卷积层，两个池化层和两个全连接层。李楠一共用900 张沥青路面的图像，其中750 张用于训练（350 张有裂缝，400 张无裂缝），150 张用于测试（75 张有裂缝，75 张无裂缝）。作者首先对图像进行归一化和匀光处理，然后再采用lmdb 格式的Caffe 框架上对图像进行归一化均值处理。经过超过500 次迭代后卷积神经网络已收敛，可以较好的对裂缝图像和完好图像进行分类，实验结果准确率可达到0.92。

4.2 基于Caffe框架的改进的AlexNet网络模型

车艳丽[4]研究的是将AlexNet网络模型改进后的卷积神经网络，改进后网络层数更少、计算参数更少、模型训练速度更快，识别精度更高。作者用20000 张图像作为训练集，10000 张作为测试集，这30000 张图像可以分为裂缝图像和无裂缝图像。

首先她对图像预处理，目的是降低图像的噪声，让图像的裂缝与图像的背景形成比较强的对比度。她用到的方法有用Canny 算子检测边缘，用改进的Ostu 算法阈值分割，用高斯滤波平滑纹理获取图像背景，用改进后的亮度高程模型进行匀光处理。她采用的是Caffe平台框架，因为需要先对沥青裂缝图像进行数据格式转换，作者选择用LMDB 数据格式，因为该数据格式精简、高效和省内存，如图8 所示是作者改进后的卷积神经网络。

图8 优化后的AlexNet网络结构

4.3 基于Caffe框架的改进后的VGGNet网络模型

赵珊珊等[5]基于Caffe 框架，对3000 张大小为2400×3150像素的图像进行研究。首先对图像进行预处理，用的方法是强度归一化（去除路面光照不均带来的影响）和像素饱和化。然后对VGGNet网络模型进行改进：一是把原始网络convl_l,conv2_2,conv3_3,conv4_3直接与最后一个卷积层连接；二是去掉原始网络的第5个卷积层、第5 个池化层和全连接层，因为作者认为第5 个卷积层、第5 个池化层会生成小又模糊的特征图，影响结果；全连接层计算耗时长，去掉可以减少训练时间。该方法对有明显裂缝的路面图像识别效果好，但对复杂的破损图像难识别，该模型可用于简单的裂缝识别。

4.4 基于Tensorflow 框架的改进后的VGGNet 网络模型

王丹等[6]基于Tensorflow 框架，对1006 张图像进行研究。首先对图像采用旋转、镜像、随机裁剪等方式进行数据增强，将原有的1006 张图像增加到8048 张。然后对VGGNet网络模型进行改进：一是将原有的三个全连接层全部替换成卷积层，变成全卷积神经网络（FCN）；二是利用相对深层的网络特征感受野大但容易丢失细节，相对浅层的网络特征感受野小但能突出细节的规律，作者将浅层网络特征和深层网络特征融合，这样即能提高改进后的网络模型对细节的提取能力。三是用空洞卷积代替池化层，保留图像细节，作者用的是改进后（三个并行通道）的多尺度空洞卷积。

5 结束语

综上所述，卷积神经网络模型种类多，卷积神经网络框架各有优缺点，可派生出多种沥青路面裂缝识别模型。本文对这些模型分析后的结论是：应用基于卷积神经网络的沥青路面裂缝识别模型时，在实际收集路面裂缝图像过程中，容易受到标线、井盖、路面垃圾等杂物的影响。如何去除杂物对裂缝图像处理的影响，是未来的路面破损图像处理的重要研究课题，也是提高路面裂缝检测精度的关键。研究者需要选择合适的算法、合适的网络模型以及合适的网络框架。随着计算机技术的发展，希望能开发对全过程路面病害进行智能监测和识别的一体机，实现智能检测。

四川水泥

2023年11期