基于卷积网络的受电弓图像目标检测与矫正方法研究

2021-11-13庞鸿宇高仕斌

电气化铁道 2021年5期

庞鸿宇，于龙，高仕斌

0 引言

受电弓滑板监测装置（5C）通过拍摄列车车顶图像指导故障消缺[1]，是受电弓自动化监测的重要设备之一。受电弓所在车顶区域构件繁多，检测容易受到复杂背景干扰。在拍摄角度和车速的影响下，车顶图像还会出现歪斜畸变，对受电弓的状态识别带来困难。为提高自动化检测效率，首要任务是实现车顶图像中受电弓的定位与矫正。

目前，针对受电弓检测的传统方法大部分基于形状特征的提取，如Canny 检测[2，3]、HOG+SVM检测[4，5]、霍夫变换[6]等。这些方法利用图像的外观特征对受电弓进行检测，算法实现简单，然而车顶各类钢架、横梁繁多复杂，针对受电弓的检测精度低，误检率高。近几年，基于卷积神经网络的目标检测方法取得了较好的效果，如基于潜在区域推荐的Fast R-CNN[7]和Faster R-CNN[8]目标检测框架，以及基于回归的YOLO[9]系列网络等。基于卷积神经网络的目标检测方法相对传统方法而言，能够提取深度特征，具有良好的鲁棒性。文献[10]提出改进的YOLO V2 算法，对受电弓进行实时检测。文献[11]改进YOLO V3 网络的结构，对接触网绝缘子进行目标识别与定位。上述基于卷积神经网络的目标检测方法都是通过预设不同尺度及位置的锚点框获取描述目标的特征向量实现检测，在图像歪斜畸变角度不大时可以实现受电弓的定位，但目标的检测结果是外接矩形框，对于因拍摄角度造成的透视畸变的目标而言检测结果不准确，更无法进行图像的矫正。目前尚缺乏针对受电弓的精确检测及图像矫正方法，国内外相关研究也近乎空白。

针对上述研究现状，本文提出一种基于卷积神经网络的受电弓精确检测与图像矫正方法。该方法能够直接预测受电弓区域的4 个顶点坐标，将顶点围成的四边形作为受电弓的精确检测结果，提高受电弓的检测精度。同时，还可利用顶点坐标进行透视变换，完成倾斜矫正，为后续受电弓的状态判断提供更良好的数据集。

1 受电弓滑板监测装置

受电弓滑板监测装置（5C）包括高清摄像机、摄像云台、视频传输系统、视频显示系统、视频分析处理系统等，安装于车站、车站咽喉处和动车段出入库线上[1]。列车进出站时自动触发装置获取列车车顶高清图像，拍摄图片尺寸为2 048×3 000。5C 装置的拍摄方式与所拍部分图像分别如图1、图2 所示。

图1 5C 装置安装位置及拍摄示意图

图2 5C 装置拍摄的图像

2 受电弓检测与矫正方法

本文所述方法的整体网络由特征提取网络与转置卷积网络构成，如图3 所示。特征提取网络用于提取图像特征，将原始图像转化为含有丰富特征信息的特征图。转置卷积网络用于处理小分辨率特征图得到大分辨率特征图，以此生成检测受电弓4个顶点的热图，热图反映了受电弓区域4 个顶点可能出现的位置的概率；最后根据预测的顶点位置坐标进行透视变换，得到更良好的受电弓区域图像。

图3 受电弓检测网络结构

2.1 特征提取网络

近年来，很多学者设计了丰富的网络结构用于图像识别[12]、目标检测[7]以及实例分割[13]等领域。从最早出现的LeNet[14]网络到后来的VGGNet[15]，可以观察到网络的性能随着网络深度的加深而不断提高，但是当网络层数增长到一定数量后，网络深度再加深会产生性能下降的现象。实验证明这种现象是梯度消失造成的，文献[16]提出的深度残差网络（ResNet）结构解决了这一问题，解决问题的核心是残差块。一个残差块的结构如图4 所示，其中BN 为批量归一化操作，ReLU 为激活函数。

图4 残差模块结构示意图

残差块由恒等映射和残差两部分构成，一个残差块可以表示为

残差函数不仅可以减小网络计算量，还可用于训练网络参数，简化学习难度。本文采用ResNet网络作为特征提取网络，去掉最后的池化层与全连接层，形成的特征图作为转置卷积网络的输入。

2.2 转置卷积网络

转置卷积网络由若干个转置卷积层组成，用于将低维向量映射到高维向量，提高特征图的分辨率。卷积与转置卷积运算如图5 所示。由图5（a）可以看出，卷积运算将特征图缩小。图5（b）中转置卷积运算将特征图分辨率扩大。由于受电弓区域的顶点占用图像像素比例极小，本文采用转置卷积操作，以获得更多顶点的特征信息。

图5 卷积与转置卷积示意图

特征图分辨率扩大的倍数与转置卷积层的数量及运算的步长有关，其输入输出关系如下：

o=s(i- 1) + 2p-k+ 2 （4）

式中：i、o分别为转置卷积的输入与输出；s为步长；k为卷积核大小；p为边界填充大小。

本文采用的转置卷积网络包含3 个转置卷积层，主要结构如表1 所示。3 个转置卷积层的每层有256 个4×4 大小的卷积核，之后通过卷积核大小为1×1 的卷积层生成热图。

表1 转置卷积层结构

2.3 损失函数

在实际任务中，受电弓的顶点无法被某一个像素位置定义，标注顶点周围的像素点与标注点十分相近，若将其直接归为负样本会对网络的训练造成干扰。本文采用高斯函数对顶点作“软标注”，以对应顶点的真实位置为中心的高斯函数响应值作为目标热图，使网络更容易收敛。“软标注”处理方法如式（5）所示。

式中：(Win,Hin)为网络输入图像的尺寸；(Wout,Hout)为网络输出特征图的尺寸；(xt-o,yt-o)为顶点在输入图像上的位置；(xt-p,yt-p)为顶点在特征图上对应的位置；g(x,y)为标签特征图上(x,y)位置的标签响应值；σ为高斯函数的方差，σ的设定与输出特征图尺寸有关。本文设置若输出特征图尺寸Hout为64，则σ为2；若Hout为96，则σ为3；若Hout为128，则σ为4；以此类推。

采用均方误差（MSE）作为网络的损失函数，如式（6）所示。

式中：f(x,y)为网络输出特征图上(x,y)位置的响应值。

2.4 受电弓透视矫正

由于5C 装置安装时无法对安装角度进行准确调整，列车行进方向与图像坐标轴呈一定夹角，对后续受电弓检测造成干扰，因此需要对图像进行透视矫正，保持受电弓滑板平行于图像坐标轴。对受电弓检测出的4 个顶点进行透视变换即可得到矫正后的受电弓区域图像。透视矫正算法计算式为

式中：(x,y,w)为预测的顶点在原图的坐标，实际常取w= 1；(x′,y′,w′)为预测的顶点变换后的坐标。

因此，根据透视变换前后4 个顶点的坐标即可求取4 组变换公式，获得变换矩阵，最终得到透视变换后的图像。

3 实验

3.1 实验数据集及模型参数设置

本文选取实际线路上5C 装置拍摄的1 000 张图像作为样本库，图像尺寸为2 048×3 000。以ResNet-101 网络作为模型的核心网络，将模型输入尺寸设为288×384，从而减小模型运算的时间与复杂度。模型训练集、验证集、测试集所用样本数量比例为8∶1∶1。网络训练过程中超参数的设置如表2 所示。

表2 网络训练超参数设置

3.2 实验评价标准

由于线路或拍摄角度不同，受电弓区域在图像中的大小是不同的，因此采用对受电弓顶点预测的绝对偏差进行评价是不合理的。本文采用式（11）中的相对偏差得分（score）对检测网络预测的位置进行评价。相对偏差得分能够有效消除拍摄角度不同所造成的影响，其计算式为

定义预测的4 个顶点坐标构成的外接四边形表示为R，根据人工标注的真实受电弓滑板4 个顶点组成的外接矩形表示为Rgt，则受电弓检测的精度可以用交并比（IOU）来表示：

3.3 检测性能结果分析

本文以受电弓滑板4 个端点作为顶点进行定位实验，显卡为 GTX1080Ti，软件平台为Python3.5.0，算法框架为Tensorflow1.3。测试集样本100 张，每个测试样本标注受电弓的4 个顶点，则测试集共有400 个点。受电弓滑板区域4 个顶点的标注坐标与模型预测坐标结果如图6 所示，其中圆形点为预测坐标点，“×”形点为标注点。可以看到，模型预测坐标结果从视觉上与标注坐标十分接近，并且能够很好地反映受电弓所在区域，在视觉上具有良好的预测效果。

图6 标注坐标与预测坐标示意图

为了从数值上分析模型的预测效果，表3 展示了图6 中4 个预测点的绝对距离偏差与相对距离偏差的计算结果。

表3 顶点预测位置的偏差结果

测试集所有样本顶点的绝对偏差与相对偏差的整体分布如图7 所示。相对距离偏差的柱状分布如图8 所示。

图7 测试集中顶点的预测结果整体分布

图8 顶点的预测结果中相对偏差距离分布

由图7 可以看到，所有顶点的检测结果位于对角线周围，代表测试集中受电弓滑板区域面积大小接近。绝对偏差大部分集中于40 个像素点以内，相对偏差大部分集中于0.05 以内。由图8 可得，顶点的检测结果中相对偏差在0.01～0.02 的有167个，占比最大（41.75%）；相对偏差在0.05 以上的有6 个，占比最少（1.5%）。定义相对偏差得分阈值不超过0.05 的检测点为正确检测点，则模型对受电弓顶点的检测准确率为98.5%。

为进一步验证本文所述受电弓检测方法在精确度上的提升，将本文方法与文献[10]中针对受电弓检测的YOLO V2目标检测算法进行对比。将100张测试样本划分为两类：普通受电弓图和歪斜畸变受电弓图，其中歪斜畸变图有62 张。计算两种方法在测试集上的平均IOU结果如表4 所示。