APP下载

基于特征融合Faster R-CNN 的电力塔基目标检测

2021-12-15曹志勇毛文利李治国张小燕赖怀景

浙江电力 2021年11期
关键词:锚框塔基卷积

曹志勇,丰 佳,毛文利,李治国,张小燕,赖怀景

(1.国网浙江省电力有限公司电力科学研究院,杭州 310014;2.国网浙江省电力有限公司,杭州 310007;3.深圳大学 计算机与软件学院,广东 深圳 518052)

0 引言

输变电线路建设过程中出现的电力塔基水土流失问题日益得到相关部门的重视。为了获取输电铁塔的位置并了解输电铁塔环保缺陷、塔基水土流失情况,对电力塔基进行巡检是非常有必要的。传统的电力塔基环保缺陷识别和塔基水土保持检测通常依靠人力巡视来记录并收集电力塔基图像数据。而对分布在高山、密林中的输电铁塔进行巡视非常不方便,因此近年来随着无人机技术和图像识别技术的发展,研究者们更倾向于应用无人机收集电力杆塔的图像数据,同时通过图像识别技术来进行自动诊断[1]。

近年来,随着人工智能的高速发展,深度学习的目标检测方法层出不穷,让基于无人机图像数据的电力杆塔检测成为了可能[2-4]。随着深度CNN(卷积神经网络)的兴起,使基于CNN 的深度学习算法迅猛发展。目前应用较为广泛的深度学习目标检测算法可分为单阶段网络和双阶段网络。双阶段网络为基于区域的目标检测算法,代表算法有Faster R-CNN(快速区域卷积神经网络)[5]、Mask R-CNN(实例分割框架卷积神经网络)[6]等,该类算法有较高的检测精度,但检测速度较慢;单阶段网络为基于回归的目标检测算法如YOLO(目标检测算法)[7-9]、SSD(单发多盒探测器)[10]等,它们的特点是采用端到端的检测,具有较快的检测速度。

文献[11]提出一种基于单目视觉的无人机近距离对电力杆塔检测的方法,采用启发式提取塔架的显著线特征并进行匹配,然后对线的交点特征进行处理,实现无人机近距离检测电力杆塔;文献[12]提出了新的基于二维特征描述符网格的电力杆塔检测方法;文献[13]提出了一种新的电力杆塔检测方法,让铁塔在背景杂波和多目标情况下也能有较好的检测性能;文献[14]采用CannyEdge 检测器和霍夫变换提取电力塔基的直线特征。虽然上述研究者们都对电力杆塔的检测做出了贡献,但是针对无人机拍摄图像的电力塔基地面目标检测尚未提出可行的解决方法。

在电力塔基的地面目标检测中,图像数据通常包含着各种复杂的背景,如农田、草原、树木、房屋等复杂背景,影响电力塔基的检测精度。为了提高航拍图像中电力塔基的检测精度,本文在改进的Faster R-CNN 算法中引入多尺度特征融合技术[15-16]和SE(通道注意力机制)[17]模块,提出了一种基于特征融合Faster R-CNN 算法的电力塔基地面目标检测方法,提高了航拍图像中电力塔基的检测准确率。

1 基于特征融合的Faster R-CNN 的电力塔基目标检测方法

图像目标检测是深度学习的一个重要应用,指在图片中将想要的物体识别出来,并标出物体在图像中的位置。由于物体的尺寸变化范围很大、摆放角度多变、姿态不定,而且物体有很多种类别,还可以在图片中出现多种物体、出现在任意位置,因此,目标检测是一个非常复杂的问题。R-CNN(区域卷积神经网络)算法通过对原始图像生成候选区域然后通过卷积神经网络提取图像特征,最后进行分类判断,很好的实现了图像的目标检测。Faster R-CNN 算法是从R-CNN 算法发展而来的一种双阶段网络目标检测算法,相比R-CNN 算法具有更高的检测精度和检测速度。本文对传统的Faster R-CNN 算法进行适当的改进,进一步提高了对电力塔基的检测精度和检测速度。

1.1 整体网络结构的改进

本文提出的基于多尺度特征融合技术的Faster R-CNN 电力塔基目标检测方法,其主干网络由改进的ResNet-50[18]代替VGG-16(卷积神经网络结构)。这主要是因为ResNet-50 是每隔2 层或3 层进行相加求下一步的输入,而不是像VGG-16 每一层直接进行卷积送入下一层;而且不同于VGG-16 固定每一层的核大小原则,ResNet-50 网络结构在设计过程中根据不同的特征图尺寸改变滤波器的数量,以便保持每一层的时间复杂度,确保当检测精度达到最高后,不会随着继续训练导致精度下降。完整的网络结构如图1 所示。由图1 可以看出,在ResNet 网络中引入SE 模块后,可以对网络中的各大卷积层所产生的特征图进行特征重新校准,选择性地强调信息特征并且抑制无用的特征;为了防止信息丢失过多,在卷积过程中使用了多尺度特征图融合技术,结合浅层和深层特征图,从而得到信息更为完整的图像特征。

图1 改进的Faster R-CNN 算法整体网络结构

1.2 对损失函数的改进

RPN(候选区域网络)是一种用于自动在原图上生成大量候选区域的卷积神经网络。原图经过基础特征图的每一个像素点的映射后,在原图上会生成不同比例大小的锚框。在训练时,为RPN网络生成的每个锚框都分配一个二进制类标签。通过判定锚框与真实标注框之间的IoU(重叠度)对锚框是否在最终检测结果中起作用进行筛选。IoU 的阈值是一个可优化的参数,计算公式为:

式中:A 为人为在训练集图像中标出的要检测物体的范围;B 为算法得出的结果范围;是范围A 与范围B 的交集;是范围A 与范围B 的并集。

当锚框与真实标注框的IoU 最高或者锚框和真实标注框的IoU 大于0.7 时,将锚框的标签设置为正标签;如果一个非正锚的IoU 比率低于0.3,本文将给它分配一个负标签。非正或者负标签的锚框对于本文训练的目标没有任何的贡献,所以可以舍弃这类锚框。

通过这些定义,图像损失函数可以表示为:

式中:i 为在小批量中某一锚框的索引值,第i 个锚框的预测分类概率为pi,其对应的真实标注框标签为,如果锚框的标签是正标签,则对应的值为1,否则为0;ti是一个向量[3],表示第i 个锚框预测的定界框的参数化坐标,其对应的真实标注框的坐标为;Lcls为对数分类损失;Lreg为边框回归损失,对于Lreg(ti,)=R(ti-),其中R为smooth L1 损失函数;表示回归损失仅对正标签锚框计算,此时的值为1,而在其他情况下禁用,此时的值为0;Lcls和Lreg分别为分类层及边框回归层输出归一化之后的结果,并由一个平衡参数λ 加权,默认情况下,设置λ=10。

1.3 对SEResNet-50 主干网络的改进

在本文中,加入SE 模块的SEResNet-50 作为Faster R-CNN 的主干网络,相比以VGG-16 作为主干网络的原始Faster R-CNN 来说,ResNet-50有50 层。更深的网络结构,使得其在特征提取阶段表现更为出色,可以提取出比VGG-16 更加精细的图像深层特征。

SE 模块作为一个通道注意力机制,通过赋予不同通道特征以不同的权重,使得算法更加有效地关注有用通道的特征信息,抑制无用信息的影响。

1.4 引入多尺度特征图融合技术

随着网络的加深,在网络进行特征提取阶段,每层卷积层在产生特征图时,会不可避免的丢失之前卷积层所产生的某些特征图信息,最后导致信息丢失越来越多,使得最后一层得出的特征图信息并不完全。为了解决这个问题,本文引入了多尺度特征融合技术。通过采用多尺度特征图融合技术,将每一层所产生的特征图与之前各层所产生的特征图进行融合,获得浅层的特征信息,从而得到更好的检测效果。

从图1 可以看出,算法将ResNet-50 的conv2、conv3 所产生的特征图,通过最大池化的方式,将其分辨率缩小到与conv4 所输出的特征图相同的大小,将3 个特征图进行连接操作,并对结果进行L2 归一化,接着输入到1×1 的卷积中进行通道降维,最后将结果送入RPN 网络产生ROIS(关注区域),使用产生的ROIS 对融合后的特征图进行池化操作,将所得结果送入后面进行最后检测。

2 电力塔基数据集的搭建

在最近的电力塔基研究中,尚未发现有类型丰富、角度多样的无人机航拍电力塔基地面目标检测的数据集。因此,为了解决电力塔基地面目标检测问题,本文在多个自然地点采用无人机拍摄采集实验数据。为了数据多样性以及增强目标检测算法对于不同拍摄角度的鲁棒性,本文从各个角度对电力塔基进行拍摄。

在本文的数据集中,原始电力塔基图片共有898 张,每张图片原始像素是4 000×3 000。使用公开的LabelImg 标注软件为每一张图片的电力塔基区域进行人工手动标注,并生成与之对应的XML 格式的文件作为数据集的标签文件。为了增强模型的泛化能力,在数据预处理阶段,将图像压缩为600×600 像素的图像,同时将图像进行随机缩放、随机平移、随机旋转、垂直和水平翻转等数据增强操作,最终得到3 457 张图片,其中训练集1 358 张图片,验证集339 张图片,测试集1 760 张图片。同时按照PASAL VOC2007 数据集的格式进行保存和实验。

3 实验结果与分析

3.1 实验环境

本文实验均在64 位的Ubuntu 16.04.5 系统下完成,Python 的安装版本为3.7.4,PyTorch[19]深度学习框架的版本为1.3.1,添加英伟达CUDA的版本为10.2.108。实验的训练、测试以及验证的硬件设备:Intel Xeon(R)CPU E5-2690 v4@2.60 GHz 十四核,配备251.8 GB 内存以及英伟达TESLA P100 PCIe GPU ACCELERATOR(16 GB显存)。

3.2 模型训练与测试

本文对改进的Faster R-CNN 模型进行了155 个Epoch 的训练期,批尺寸设置为1,初始学习率为1×10-4,且学习率在每个Epoch 结束时,按照原学习率的94%进行衰减,同时模型采用Adam 的优化器。算法的锚框大小设置为8×8、16×16、32×32 三种尺度,纵横比设置为1∶2、1∶1、2∶1 比例。测试过程置信度为0.5,基于SERes-Net-50 进行图像特征提取。

图2 所示为随迭代次数增加与平均损失的变化曲线,在迭代次数达到155 时,损失函数趋于收敛。

图2 损失变化曲线

在本文中,分别实验了使用ResNet-50、SEResNet-50 作为主干网络,以及分别增加多尺度特征融合技术的Faster R-CNN 的检测方法。

表1 表示了4 种检测方法的检测时间以及AP(平均精度)值。其中:VAP50表示当设置IoU 阈值为0.5 时4 种检测方法的AP 值,VAP75表示当设置IoU 阈值为0.75 时4 种检测方法的AP 值,FPS(每秒帧率)表示每秒识别的图像数量。当设置IoU 阈值为0.75 时,描绘4 种检测方法各自的PR(精确率-召回率)曲线,如图3 所示。

表1 不同检测方法和IoU 阈值下的AP 值及检测时间

图3 P-R 曲线

从图3 和表1 中可以看出,在设置IoU 阈值为0.75 时,本文通过使用SERetNet-50 结合多尺度特征融合技术的Faster R-CNN 检测方法相比网络为RetNet-50 的Faster R-CNN 检测方法,AP 值提高了2.9%。同时可以看出,加入了SE 模块的Faster R-CNN 检测方法也提高了检测的准确率。当设置IoU 阈值为0.5 时,4 种检测方法效果较为接近,改进方法对精度提升的效果并不明显。当提高IoU 阈值到0.75 时,4 种检测方法的检测精度均明显下降,但改进方法对精度的提升效果较IoU 阈值为0.5 时变得明显。IoU 取值范围对平均精度的影响还有待进一步研究。

通过使用训练好的权值,本文可以得到如图4 的检测效果。由图4 可知,该算法对由无人机拍摄的图片上的电力塔基目标检测效果较好。

图4 测试效果

3.3 算法对比以及分析

本文通过不同IoU 阈值下的AP 值作为评估指标对Faster R-CNN、SSD 以及YOLOv4 三种目标检测方法进行对比分析。表2 显示了在同样的实验环境中,改进的Faster R-CNN、SSD、YOLOv4的AP 值。从表2 中可以看出,当IoU 阈值设置为0.5 时,本文使用SEResNet-50 网络并结合多尺度特征融合技术Faster R-CNN 的目标检测方法AP 值最高,比原始的SSD 高出了5.61%。这主要是因为Faster R-CNN 本身具有良好的鲁棒性,改进的Faster R-CNN 算法进一步提高了原有算法的检测准确率,使得其AP 值高于YOLOv4 和SSD 算法。

表2 不同算法和IoU 阈值下的AP 值

4 结语

本文提出了一种基于多尺度特征融合的Faster R-CNN 算法的电力塔基检测方法。该方法首先将模型主干网络换成SEResNet-50;其次结合多尺度特征融合技术,将各卷积层输出的特征图通过最大池化操作,将特征图分辨率进行统一;接着将特征图连接在一起并进行L2 归一化后,使用1×1 卷积将通道数调整到适合的数量,将结果传输到RPN 网络和最后的检测模块。通过对比Faster R-CNN、SSD、YOLOv4 三种目标检测方法,可知:改进的Faster R-CNN 算法在适当的IoU 阈值范围内具有较高的检测精度。

但是由于该检测方法分两阶段进行,相对其他算法来说,所需检测时间略长,因此,本文提出的SEResNet-50 网络结合多尺度融合技术的电力塔基检测方法在一定程度上,是以牺牲检测时间为代价来提高检测率的。

但应用该算法可使通过图像识别技术进行识别塔基环保缺陷及检测塔基周围的水土保持情况成为可能,进一步的实验验证有待后续研究进行。

猜你喜欢

锚框塔基卷积
基于YOLOv3锚框优化的侧扫声呐图像目标检测
锚框策略匹配的SSD飞机遥感图像目标检测
基于SSD算法的轻量化仪器表盘检测算法*
基于GA-RoI Transformer的遥感图像任意方向目标检测
基于3D-Winograd的快速卷积算法设计及FPGA实现
复杂边界条件下异形塔式起重机基础设计施工
从滤波器理解卷积
不下沉式塔基在建筑施工中的应用
基于傅里叶域卷积表示的目标跟踪算法
斜交塔基局部冲刷规律研究