APP下载

基于改进SSD的动车组底部异常检测方法研究

2022-07-12耿庆华刘伟铭刘瑞康

铁道标准设计 2022年7期
关键词:动车组注意力列车

耿庆华,刘伟铭,刘瑞康

(华南理工大学土木与交通学院,广州 510640)

引言

动车组列车在长途客运过程中,由于振动、磨损或腐蚀而引起的列车底部异常,如列车底部螺栓丢失、列车底部出现布条和纸屑等,给铁路客运安全运输工作带来了巨大隐患。将动车组运行故障动态图像检测系统(TEDS,Trouble of moving EMU Detection System)应用于铁路系统中,检修人员通过检查由TEDS捕获的动车组序列图像来代替现场检测,从而实现动车组运行状态监控。图1为TEDS示意,线扫描相机安装在轨道底部和轨道两侧,以捕获动车组列车整车图像,并将捕获的序列图像传输到检测中心,检查人员将判断是否存在机械零部件故障[1];这种人工检查的方式仍然需大量训练有素的技术人员来完成故障检测与确认,检测效率和准确性易受到检查人员工作状态的影响,存在效率低、成本高和漏检率高的缺点。

图1 动车组运行故障动态图像检测系统示意

近年来,图像处理与模式识别技术在铁路维护中获得了很大成功,大大提高了机械零部件故障检测效率。目前,针对铁路机械零部件故障检测方法主要分为基于人工特征描述子的方法、基于图像对齐与背景差分的方法[1]和基于深度学习的方法。基于人工特征描述子[2-4]的方法需根据目标的具体特征选择最优特征提取算法来提取目标的特征,以确定检测目标,并通过分类器完成目标检测任务。ZOU等[5]提出采用梯度编码直方图和支持向量机相结合的方法,来检测角度旋塞手柄的状态(故障或无故障)。基于人工特征描述子的检测方法需根据不同类型目标设计出不同的特征描述子,具有很大的局限性,且特征提取过程复杂,难以设计出最优特征描述子。基于图像对齐与背景差分的方法仅能检测是否存在异常,而无法对异常进行分类。基于深度学习的方法,特别是卷积神经网络(CNN)技术可为不同类型的检测目标自适应地选择相应的特征,且能够同时检测不同类别的目标。因此,卷积神经网络技术已广泛用于图像分割[6-8]、对象检测[9-10]、图像分类[11]和其他领域。基于深度学习的经典的目标检测方法主要包括SSD[12]、YOLO[13]、 R-CNN[14]、FasterR-CNN[10]和FPN[15]等。PAHAWA等[16]采用两级CNN实现了轨道阀的高精度图像分割;ZHOU等[17]提出一种检测螺栓故障的CNN模型,该模型以Resnet101作为骨干网络,结合在线难例挖掘和变形卷积网络方法,从而提高小目标的检测精度;刘伟铭等[18]针对动车组裙板螺栓丢失问题,采用K-Means聚类分析,并在YOLOv2中添加Spatial Pyramid Pooling(SPP)层的方法,提出了一种改进的YOLOv2算法。SSD与YOLO无需事先生成候选区域(RoI),因此,检测速度较快。在实际应用中,将线扫描相机捕获的动车组列车序列图像存储在工作站中以进行离线分析,但由于动车组列车的序列图像属于高分辨图像,数据量很大,而在检测过程中,又对时间有一定要求。因此,选择检测速度较快的SSD算法,并在SSD算法中融合多层特征信息、同时引入注意力机制以提高目标检测精度与召回率。

在自然语言处理(NLP)领域,已广泛采用自注意力机制对句子深层次的依存关系进行建模。Transformer[19]作为一种新的简单网络架构,消除了重复与卷积,完全基于注意力机制在输入和输出之间建立了全局依赖关系。受此启发,引入注意力机制以在特征图的所有特征像素之间建立深层次的依存关系。与Transformer类似,本文算法能够在特征图的不同区域建立深层次依存关系,从而更有效地进行目标检测,减少在检测过程中存在误检和漏检情况,降低动车组列车底部出现异常不能及时被确认而导致交通事故的概率。

以Resnet-101作为基本骨架,采用特征融合与注意力机制相结合对SSD网络进行改进,并结合TEDS捕获的动车组列车序列图像,实现对动车组列车底部异常自动检测。该检测任务主要特点是异常目标尺度多样化,如输入图像为1400×2048像素,最小异常(螺钉丢失)尺度约为40×40像素,仅占整幅图像的0.05%,最大布条尺度为384×293像素,占整幅图像的3.924%,多尺度异常目标检测成为动车组列车底部异常检测的一个挑战,尤其是对小目标异常的检测。

1 改进后SSD模型

原始SSD算法包含VGG基础网络和目标检测网络,并融合不同特征层上的特征以有效检测不同尺寸的目标。但原始SSD算法浅层特征的语义信息不够丰富,对小目标检测效果不够理想。提高小目标检测效果的方法是构建更多的卷积神经网络层,以细化特征图特征,或将语义信息从深层融合到浅层。为提高SSD算法对小目标的识别能力,对原始的SSD进行了改进,改进后的网络结构如图2所示。

注:a为注意力机制图2 本文网络结构

1.1 用Resnet-101替换VGG-16

改进后SSD算法借鉴了残差网络的思想,以Resnet101代替VGG16作为SSD的骨干网络。通过学习残差加深神经网络的层次结构可有效避免过拟合和网络梯度消失的问题,从而提取更多纹理特征和语义特征,增强特征的表达能力,提高目标分类和定位能力。

残差网络Resnet-101比VGG-16更能细化特征图的特征[11],此外,相比其他网络,Resnet-101的结构较为简单,确保了网络的实时性。Resnet-101采用捷径连接(shortcut connection)架构,这使其能够解决随网络层次加深时性能下降问题。残差映射公式为

y=F(x)+x

(1)

式中,x为单位映射;y为最优解;F(x)为最优解和单位映射之间的残差。

1.2 特征融合

引入多尺度特征融合的方法,提高特征表达能力,增强语义信息,进一步改善SSD算法对小目标检测效果差的问题。原始SSD将多尺度特征层的特征信息用于目标检测,却忽略了不同特征层的特征信息之间的关系,而每一层特征图都包含特殊的特征信息;低层特征图分辨率高,包含丰富的位置、细节信息,这有利于目标定位,但缺乏语义信息而不利于目标分类;顶层包含丰富的语义信息,这有利于目标分类,但分辨率较低,细节感知能力弱而不利于目标定位[20]。如采用一种有效策略来融合不同特征层的特征信息,可使底层特征图包含丰富的位置信息、细节信息和语义信息。因此,对原始SSD算法进行了改进,使底层特征图包含丰富的位置信息、细节信息和语义信息。

融合过程包括上采样和融合。上采样的方式很多,如最近邻近插值、双线性插值和三次插值,本文选择了双线性插值和最大池化。对于融合方法,采用基于特征图矩阵拼接的方式,在特征融合过程中,所有特征图的大小必须相同,通过上采样来调整每个特征层的形状,特征图融合的细节如图2所示。完成特征图的特征信息融合后,使较低层的特征图包含了更加丰富的位置、细节和语义信息。为使较高层的特征层与较低特征层具有相同的形状,对较高层的特征层使用大小调整策略;由于每层特征值分布具有很大差异,在融合之前须进行规范化操作,通过上采样来调整每个特征层的形状,并对特征图矩阵进行拼接,即完成了特征图的特征信息的融合,从而使较低特征图包含了更加丰富的位置、细节和语义信息。

本文多尺度特征图的特征信息融合,充分利用了不同尺度特征图的特征信息之间的关系。将顶层特征图的语义信息融合到低层特征图中,这有助于采用低层特征图的特征信息以利于检测小目标。多尺度特征图的特征信息融合使得前端预测网络能够兼顾不同尺度的目标,模型的泛化能力得到了增强。语义融合过程表述为

(2)

式中,Xσ∈RCσ×Nσ为σ层融合前的特征图;Yσ∈RCσ×Nσ是σ层融合后的特征图;Wσ∈RCσ×C′和bσ∈RCσ。在融合操作中,以第8层与第9层融合为例,融合前第9层通过双线性插值进行上采样,以使其特征图尺寸与融合前第8层的特征图尺寸对齐,并与融合前第8层特征图融合。改进后的SSD遵循文献[12]中SSD的锚框生成方法来设置锚框大小。具体而言,在尺度不同的特征图上设置大小和纵横比均不同的锚框。锚框计算公式如下

(3)

1.3 注意力机制

引入注意力机制,将注意力机制单元置于特征图和预测模块之间,在其中执行检测框回归和目标分类。在浅层,注意力单元指导模型将注意力集中在小目标上;而在深层,注意力单元会突出大尺寸的目标。

将文献[18]中解决序列转导问题的自我注意机制应用到本文目标检测中。在序列转换过程中,自我注意机制利用一个注意函数建立了输入和输出序列之间的全局依赖关系,该函数将查询和一组对应的键值映射到输出。在自我注意力机制中,输入特征激发了注意力,注意力又被用于细化这些输入特征。将问题视为类似的查询问题,并从输入特征中获取相关信息,以在全局建立像素级的特征相关性。

(4)

将输入特征Xσ转换为Q和K的原因是为了减少计算量。Q和K矩阵运算可获得特征的相似度,并创建一个揭示特征关系的N×N注意力图。此类逐像素之间的关系是通过网络学习获得的。接下来,在V与softmax(aσ)之间应用矩阵乘法,获得更新的特征图,并将其作为每个位置处的特征加权和。最后,在矩阵乘法结果中减去融合后的特征图矩阵Yσ。

O=(softmax(aσ)VT)T-Yσ

(5)

softmax(aσ)关联了所有位置特征的深层次关系,因此,可得到特征图全局的上下关系。它突出显示了特征图的相关部分,并通过细化信息指导目标检测。

1.4 损失函数

训练目标是使损失函数最小化,这一点与SSD中的损失函数相同,损失函数是定位损失(loc)和置信度损失(conf)二者的加权和

(6)

式中,N为成功与真实框匹配的默认框数量。如果N=0,则设损失函数为0;x为区域候选框和不同类别的真实框的匹配结果,如果匹配,x=1,否则x=0;l为预测框的位置偏移信息;g为真实框与区域候选框的偏移信息;α为通常设置为1的位置损失权重。

2 数据集和训练设置

2.1 数据集

由于动车组列车底部出现异常只是偶尔现象,因此,很难搜集到足够多的包含螺栓丢失、布条和纸屑的动车组列车底部序列图像,以完成本文算法模型的训练。为此,通过剪切、复制、变形及旋转等操作,使得数据集包含螺栓丢失、纸屑和布条的数量分别达到了914,916和920,满足本文算法模型训练的需要,建立了动车组列车底部异常数据集(EMU Anomaly Detection Dataset,EMUADD)。图3展示了动车组列车底部常见异常,红色标记部分为布条,绿色标记部分为丢失的螺钉,黑色标记部分为纸屑。如图3所示,动车组列车底部螺栓丢失占据的区域很小。根据PASCAL VOC数据集的格式标记了所有图像,并随机选择90%图像进行训练,其余10%进行测试。

图3 动车组列车底部异常标记

2.2 训练设置

计算机硬件资源为CPU,Intel Core i9 7920X;内存,48G DDR4;GPU,3个Nvidia Geforce GTX2080Ti;操作系统,64位Ubuntu 18.04;实验框架为Pytorch开源框架。随机梯度下降法将用于模型训练,总训练周期设置为1500,初始学习速率为0.001,当迭代次数为500、1000个循环时,学习速率降低10倍。其他训练参数设置如下:动量0.9,权重衰减系数0.0001,batch_size为32,IoU的阈值0.5。

3 试验与结果

研究最终目标是正确检测所有异常,并降低漏检率和误检率。为更好地评估模型,定义TP(真正样本)代表真实类别,即模型正确预测的正样本;FP(伪正样本)代表正样本由模型预测为负样本;FN(伪负样本)代表负样本被模型预测为正样本;TN(True Negatives)代表负样本类别被预测为负样本。准确率和召回率公式为

(7)

3.1 消融试验

本小节进行消融试验,以探索注意力机制和特征融合对检测速度和mAP的影响。在EMUADD测试集上研究了4个模型,即SSD513、SSD513+特征融合、SSD513+注意力机制、SSD513+特征融合+注意力机制如表1所示。从表1可以看出,仅融合模块并没有明显提高mAP,相反,它带来了更多的计算开销;注意力机制可以显著提高性能;当将注意力单元与融合模块结合在一起时,性能进一步得到提升。据此可以推测,注意力机制具有分析不同层级语义信息的能力,并选择有用的信息,因此,获得了更好的检测能力。

表1 EMUADD测试数据集的消融研究

3.2 FFA-SSD与Faster R-CNN、SSD 和YOLOV3对比试验

本文算法是对SSD算法的一种改进,为体现本文算法在检测动车组列车底部异常时的优越性,选择与一些经典神经网络算法FasterR-CNN、SSD 和YOLOV3进行对比试验,实验结果如表2所示。

表2 不同检测模型在列车底部异常数据上的检测结果

由表2可以看出,本文算法的mAP与FasterR-CNN、SSD和YOLOV3的mAP相比,分别提高了18.14%、5.26%和3.85%,其中,螺钉丢失的AP值分别增加了2.76%、2.66%和1.22%,纸屑的AP分别增加了51.66%、13.11%和10. 32%,这表明本文算法提高了小尺度目标的检测精度。通过对比不同深度学习模型检测速度(表3)可知,YOLOV3、SSD和本文算法的检测速度几乎相当,均明显优于FasterR-CNN,可实现实时检测。

表3 不同深度学习模型检测速度

本文算法3个类别的PR曲线如图4所示。可以看出,该网络对多类别多尺度动车组列车底部异常检测具有较好的检测效果,蓝色曲线代表螺钉丢失的PR曲线,红色曲线代表布条的PR曲线,黑色代表纸屑的PR曲线。

图4 本文算法3个类别的PR曲线

4 结论

将改进后的SSD模型用于动车组列车底部异常检测,在复杂领域中实现了较好的检测性能,这归因于对SSD的改进。本文算法用残差网络Resnet-101替换VGG-16,以更好地细化特征图特征;引入新的特征融合策略,可有效利用SSD浅层细节信息和深层语义信息;引入注意力机制,以有助于在特征图的空间中建立特征之间的关系,突出相关特征,抑制不相关的信息,为异常检测提供可靠指导,并以此对原始SSD算法进行改进。与FasterR-CNN、SSD和YOLOV3相比,本文算法的mAP分别提高了18.14%、5.26%和3.85%,螺钉丢失的AP值分别提高了2.76%、2.66%和1.22%,纸屑的AP分别提高了51.66%、13.11%和10. 32%,这表明本文算法提高了小尺度目标的检测精度。本文算法的检测速度与YOLOV3和SSD几乎相当,均明显优于FasterR-CNN,可实现实时检测。

猜你喜欢

动车组注意力列车
让注意力“飞”回来
登上末日列车
关爱向列车下延伸
石太客专动车组低速过调谐区收H码停车问题分析
如何培养一年级学生的注意力
“95后”动车组女司机的首个春运
“湖南造”首列CJ6动车组上线运营
穿越时空的列车
高速动车组高压安全防护应用研究
A Beautiful Way Of Looking At Things