基于深度残差网络的轨道结构病害识别

2020-09-07侯博文

铁道学报 2020年8期

侯博文，杨晓，高亮，肖宏，马帅

(1. 北京交通大学土木建筑工程学院，北京 100044；2. 轨道工程北京市重点实验室，北京 100044)

相较于高速及重载铁路技术的迅猛发展，轨道检测技术的发展相对滞后，目前大部分轨道结构检测工作仍然由铁路工人通过目测的方式进行[1]。这种低效、高风险的检测方式使得轨道结构损伤自动检测技术越来越受到重视，同时随着计算机性能的提高和机器视觉算法的优化，机器视觉检测以其速度快、结果直观和无损等优势在轨道检测领域受到了越来越多的重视。

国内外学者针对轨道结构图像检测做了大量工作，Hsieh等[2]通过阈值分割等技术获得扣件的二值图像，并以此识别扣件状态。刘甲甲[3]提出一种基于权重累积的稀疏表示分类识别算法，实现对扣件缺陷的自动检测。上述方法需要理想的背景环境或要事先对图像进行定位和分割等预处理操作，而定位和分割操作的准确性又很大程度上影响了后续的识别率，使得整个分类识别过程不具备较强的鲁棒性。赵鑫欣[4]使用AlexNet卷积神经网络对扣件状态进行二分类，因AlexNet的特征学习能力受限于8层的网络结构，其识别准确率为90.02%。在现有研究基础上，本文提出一种基于深度残差网络(ResNet)的轨道结构病害检测方法，该方法可自动从图像中提取最有效的特征并分类，且不需要任何预处理，同时层数更深、结构更复杂的ResNet 具有更强的分类性能。

ResNet目前已成功应用于医学图像分类、语音识别等场景，本文将其应用到轨道结构病害检测中，在构建的轨道结构图像数据库中进行了大量实验，对ResNet的特征提取过程进行可视化，并从准确率、损失函数值等方面对应用效果进行评价，验证方法的有效性。

1 建立数据库

列车在运行过程中，钢轨、扣件和支承块结构直接决定了行车的平稳性，其在长期服役过程中也极易发生劣化。其中钢轨的剥离裂纹、剥离掉块和钢轨擦伤与扣件的弹条断裂以及支承块掉块是最为典型的病害。

剥离裂纹是一种常见于曲线、坡道地段沿钢轨全长分布的疲劳裂纹，它由轨头在轮轨接触应力反复作用下产生，剥离裂纹会造成降低线路舒适度以及干扰钢轨探伤等多个方面的影响，并且会很快发展成剥离掉块，进而导致核伤等[5]。轨面擦伤若不及时采取措施则会导致踏面碎裂掉块或发生疲劳断裂。

弹条是联结钢轨和轨道板的关键部件，对保持钢轨的几何形位有重要的作用，但是其在拉应力与环境腐蚀共同作用下易发生锈蚀和脆性断裂，造成线路不平顺，甚至影响行车安全。

弹性支承块式无砟轨道因其良好的减振性能得到广泛的应用，但其在长期的列车荷载作用下会发生支承块掉块病害，增大轨道板的振动响应，从轨道结构的耐久性和使用寿命考虑，支承块掉块后应及时补修。

使用ImageNet预先训练的ResNet模型对上述病害进行分类识别，训练模型的过程需要大量的图像数据，但是ImageNet数据库中缺少相应轨道结构的数据。为此，以某客货共线线路隧道(图1、图2)的钢轨踏面、钢轨扣件和支承块图像建立数据库,见图3～图5。

图1 隧道口

图2 隧道内

图3 轨面图像数据库

图4 扣件图像数据库

图5 支承块图像数据库

该线路段多发剥离裂纹、扣件断裂和支承块掉块等病害，这提供了相当数量的损伤轨道结构的图像集，这有利于深度残差网络对轨道病害图像的特征提取，从而提高识别的准确率。构建轨道结构病害数据库，根据轨道结构以及病害类型划分为三个。第一个为钢轨踏面图像数据库，其中包含正常轨面、剥离裂纹轨面、剥离掉块轨面和轨面擦伤的图像,见图3。第二个为轨道扣件的图像数据库，其中包含正常扣件和弹条断裂扣件的图像，见图4。第三个为轨道板支承块的图像数据库，其中包含正常支承块和掉块支承块的图像，见图5。同时，数据库中的图像文件以结构所在的里程位置进行命名，当图像显示的轨道结构被判定为有伤损时，输出其文件名称即可获知病害发生的位置，以便及时进行养护维修。表1列出了各数据库中各类图像的数量。

表 1 轨道结构图像数据库

2 提出方法

传统的图像分类算法在用支持向量机(SVM)等分类器对图像实现分类之前，还必须借助SIFT、HoG等算法人为提取具备较高区分性的特征[6]，这些方法在ILSVRC(ImageNet Large Scale Visual Recognition Challenge)大赛的最好结果的错误率也在26%以上，而且常年难以突破。

ILSVRC2012中Alex Krizhevsky等首次将深度学习运用在大规模图像分类领域，提出的AlexNet仅有16.4%的错误率，该错误率相较于使用传统算法的第2名参赛队伍减少了大约10%[7]。同时鉴于卷积神经网络无需对图像进行繁琐的预处理，能够直接输入原始图像进行分类，使得它成为目前众多科学领域的研究热点之一，特别是在模式分类领域。

选取2015年在ILSVRC中获得冠军的ResNet作为分类模型，并使用迁移学习的方式，将其迁移应用到对钢轨病害图像进行分类识别，并对识别效果进行评估和分析。

2.1 卷积神经网络结构

局域感受野、权值共享和池化操作使得卷积神经网络能够实现识别位移、缩放和扭曲不变性[8]。局域感受野即各网络层的神经元仅与前一层一个小邻域内的神经元联系，从而每个神经元可以提取初级的视觉特征[9]。卷积神经网络通过权值共享可以减少训练所需的数据量，因为它使得网络具有更少的参数。池化操作可以降低特征的分辨率，实现对位移、缩放和其他形式扭曲的不变性。为了提高计算效率和建立空间和结构上的不变性，通常在卷积层后设置一个池化层[10]，见图6。

图6 卷积神经网络结构

(1)卷积层

卷积核与前一层的特征图卷积的结果经过激活函数后输出构成该层的特征图，该层特征图与前一层的几个特征图的卷积建立关系。通常卷积层的形式为[11]

(1)

(2)池化层

对输入特征图进行池化操作，输入特征图经过池化层后变小，但其个数不变。通常池化层的形式为[11]

(2)

2.2 ResNet

CNN模型的深层结构对其特征学习能力至关重要，但随着卷积神经网络模型层数的增加，准确率会先上升至饱和，若继续增加网络层数则会使得准确率下降，即出现“退化”现象[12]。为此He等[12]提出了一个如图7所示的残差块结构，残差块可表示为

y=σ[F(x,{Wi})+x]

(3)

式中：x和y分别为残差块的输入和输出; σ为ReLU[13]激活函数；Wi为残差块的参数；F(x,{Wi})为网络要学习的残差映射。

网络原本要学的函数H(x)由于引入了一个恒等映射，转换成F(x)+x，该结构将在保证表达效果不变的前提下，大幅提高了网络的训练效率，重要的是其避免了网络层数增加导致的退化问题。

图7 残差块结构[12]

深度残差网络由一组残差块组成，每个残差块包含几个堆叠的卷积层[14]。论文选用的ResNet-18、ResNet-34和ResNet-50网络结构的详细信息如表2所示。

表 2 ResNet-18、ResNet-34、ResNet-50残差网络结构

2.3 迁移学习

深度卷积神经网络训练是一个非常耗时、耗资源的过程[15]。实际情况下，很少有人从头开始训练整个卷积网络，因为很难获得足够数量的训练图片，容易造成网络过拟合[16]。所以，通常在一个非常大的数据集(如ImageNet图像，包含120万张图片和1 000个种类)上预训练卷积神经网络，然后将其作为参数初始化或固定特征提取器应用到其他场景中。

本文采用两种迁移方法：一是全局微调(Finetuning the Convent)即用预训练网络的权值来初始化，来代替原先的随机初始化操作，其余训练过程照常。二是局部微调即将预训练网络作为特征提取器(ConvNet as Fixed Feature Extractor)，具体是指冻结所有网络的权重，除了最后的全连接层，对全连接层的权重做随机初始化后开始训练，训练过程中只更新全连接层的参数。

3 实验

第1节构建的数据库中1 622张图像尺寸均为4 128×2 322像素，如图8所示。而卷积神经网络通常使用固定大小和方形的图像作为输入，故将轨道结构图像在输入到神经网络之前进行数据增强，如图9所示。首先将矩形图像放缩至256×256像素的方形图像，然后进行随机裁剪，得到224×224像素的图片，并对剪裁后的图片进行镜像、旋转和图像归一化等数据增强操作，从而大大降低过拟合现象。

图8 数据库中的原始输入图像

图9 数据增强

对一张钢轨表面擦伤的图像在ResNet神经网络中的特征提取过程进行可视化，结果如图10所示。

图10 神经网络卷积提取的特征映射图

(4)

总损失函数为

(5)

反向传播时，将输出误差按原通路反传计算，通过中间层反向传递直至输入层，误差在反向传递过程中分摊给各层的各个参数，每个参数得到相应的误差信号。任意参数w的更新估计式为

w←w+Δw

(6)

该计算过程以目标的负梯度方向对参数进行调整，即梯度下降策略。对于式(5)的损失函数L，若规定学习率为γ，有

(7)

权值和阈值通过信号正向传播与误差反向传播不断调整，使损失函数持续减小并趋于稳定，直至训练次数达到预先设定的值，本项研究中训练次数均设置为25次。权值和阈值反复调整的过程，就是网络的学习与训练过程[18]。本项研究将构建图像数据库的70%设置为训练集，30%设置为测试集，两个集合之间没有交集。上述网络训练过程只在训练集中进行，在训练集中训练后的网络再到测试集中进行测试，测试过程中不进行参数调整,即训练集用来调整模型参数，而测试集则用以检验模型分类准确率。

4 结果与分析

4.1 不同深度残差神经网络应用效果对比

ResNet-18、ResNet-34和ResNet-50的训练、测试准确率曲线如图11所示，对比三者的训练准确率曲线，可知层数越深的残差神经网络在模型训练过程中，训练准确率增长最快，且最终的收敛测试准确率越高，这说明了网络层数更深的ResNet-50能够更有效地提取钢轨病害的特征，对比图12中的训练损失曲线可以得到一致的结论。由表3不同深度残差网络应用结果可知，三者的测试准确率接近，表明层数较少的18层残差神经网络也已经具备非常好的区分效果，再进一步加深网络层数对识别效果的提升有限。所以为进一步提高神经网络的准确率，可以通过优化神经网络的网络结构，使其能够抽象出更加有效、丰富的高阶特征。

图11 不同深度残差网络的准确率

图12 不同深度残差网络的损失函数值

表 3 不同深度残差网络应用情况

4.2 不同数据库的应用情况

ResNet-18在数据库1～3中的测试正确率及测试损失曲线如图13、图14所示，网络收敛时的损失函数值及准确率见表4。对比图13中ResNet-18分别在数据库1和数据库2中的测试准确率曲线可以发现，数据库2的准确率增长较快，且最终收敛准确率高于数据库1，这是由于数据库1中包含钢轨表面的四种状态：正常轨面、剥离裂纹轨面、剥离掉块轨面和轨面擦伤；而数据库2中只有正常扣件和弹条断裂扣件两类图像。对于ResNet-18，数据库1的分类任务更复杂，故其在数据库1中的分类准确率较在数据库2中低。对比图13中ResNet-18分别在数据库1和数据库3中的测试准确率曲线发现：数据库3的测试准确率曲线低于数据库1。分析其原因：虽然数据库3中只有正常支承块和掉块支承块两类数据，但是该数据库中的支承块图像由于拍摄高度过高导致支承块图像中同时包含扣件、钢轨等干扰因素，影响ResNet-18对支承块特征的提取。图14中数据库3的测试损失曲线明显高于其他两条曲线，同样说明这个问题。

图13 ResNet-18在各数据库中测试准确率

图14 ResNet-18在各数据库中测试损失函数值

表 4 ResNet-18在不同数据库中的应用情况

4.3 两种迁移方式应用效果

ResNet-18在数据库1中的两种迁移学习方式即全局微调和局部微调的正确率和损失函数曲线如图15、图16所示，网络收敛时的损失函数值及准确率见表 5。全局微调和局部微调均取得了超过95%的测试准确率，但因为预训练的ResNet-18已经在ImageNet上把参数学习的很好，在有限数据量的条件下进行全局微调会破坏这种参数结构，所以全局微调的测试准确率略低于局部微调。