APP下载

基于DeepLabv3+的轻量级电力线语义分割方法

2023-09-25方家吉赖一波唐正涛喻擎苍

计算机时代 2023年9期

方家吉 赖一波 唐正涛 喻擎苍

摘  要: 针对电力巡检中传统视觉电力线识别精度不高,现有基于深度学习的电力线分割速度慢的问题,提出一种基于DeepLabv3+的轻量级电力线语义分割方法。首先使用Mobilenetv2替换原始主干网络Xception,并对ASPP模块进行先降维后升维的操作,在不降低模型感受野和分割精度的情况了减少了模型的参数量。使用Focal Loss和Dice Loss组合的损失函数加强了模型对电力线的分割效果,最后采用多尺度特征融合和注意力机制进一步减少了分割结果中的图像噪点。改进的DeepLabv3+相较于原网络分割速度提升了108.65%,mIoU和mPA分别提升了1.58%和2.09%。

关键词: 语义分割; 电力巡检; DeepLabv3+; 电力线提取

中图分类号:TP391.41          文献标识码:A     文章编号:1006-8228(2023)09-19-05

Lightweight power line semantic segmentation method based on DeepLabv3+

Fang Jiaji, Lai Yibo, Tang Zhengtao, Yu Qingcang

(School of Computer Science and Technology, Zhejiang Sci-Tech University, Hangzhou, Zhejiang 310018, China)

Abstract: Aiming at the problems of low accuracy of traditional visual power line recognition and the slow speed of existing power line segmentation methods based on deep learning, a lightweight semantic segmentation method for power line recognition method based on DeepLabv3+ is proposed. Firstly, the original Xception backbone network is replaced with Mobilenetv2, and the ASPP module is operated by dimensionality reducing and then dimensionality increasing, which reduces the number of parameters without reducing the model's receptive field and segmentation accuracy. The combination of Focal Loss and Dice Loss as the loss function enhances the model's segmentation performance on power lines. Finally, multi-scale feature fusion and attention mechanism are used to further reduce the noise in the segmentation results. Compared to the original network, the improved DeepLabv3+ has increased the segmentation speed by 108.65%, mIoU by 1.58%, and mPA by 2.09%. It meets the requirements for the speed and accuracy of power line segmentation.

Key words: semantic segmentation; power inspection; DeepLabv3+; power line extraction

0 引言

輸电线路的定期巡检是保证国家供电稳定的重要工作,巡检内容主要包括线路相关组件巡检和电力线周边危险地物巡检。电力线是输电线路的主要构成部分,确保电力线安全是输电线路巡检的重中之重[1]。

输电线路环境复杂,人工巡检效率低,并存在着较大的安全风险。随着无人机技术的发展,无人机能更方便地采集输电线路相关信息,但在巡检过程中无人机容易与电力线发生碰撞等危险事故,对无人机的飞行安全具有极大的威胁。无人机使用激光雷达[2-3]所检测电力线的精度较高,但所需要硬件的成本也相对较高,相比之下,相机成本更低并且容易在无人机上安装。

现有通过相机进行的电力线识别方法可分为传统视觉方法和基于深度学习的方法。传统视觉方法主要分为基于边缘检测算子的识别算法和基于联合特征的识别算法。边缘检测算子可以通过先验知识,再加上直线检测来识别电力线。基于联合特征也是通过线检测器,再加上全局辅助物或者上下文信息进行识别。文献[4]中使用Roberts算子和Hough变换来锁定电力线范围,之后使用总体最小二乘法来提取电力线,在背景较为简单的时候有不错的提取效果。文献[5]提出了一种具有空间对称结构的DLCI算子,拥有非常高的识别精度,但DLCI算子最大只能容忍设计角度20°的偏差。传统图像方法由于人为地加入了一些先验知识和辅助物,导致某一种算法只在特定场合下能有较高的识别精度,在其他复杂背景下很容易失效。

目前基于深度学习的语义分割方法主要有FCN、SegNet、U-Net、PSPNet以及DeepLab系列等。Choi等[6]通过FCN网络来分割电力线,其主要目的是为了降低海量电力线数据集的标注成本,模型参数较大。Zhang等[7]选取了VGG-16来分割电力线,其所使用的数据集较少,但VGG-16的参数量也非常庞大,不满足实时分割的要求。Yang等[8]提出了PLE-Net模型,在复杂的自然背景下分割电力线效果较好,但没有对比模型之间的预测速度,无法得知其具体运行速度表现。

本文针对现有电力线识别方法存在的问题,提出了一种基于DeepLabv3+的轻量级电力线语义分割方法。该模型包含了融合不同尺度特征的模块;用于减少参数量的改进ASPP模块;用于减少分割结果中的图像噪声的注意力机制。同时,使用DiceLoss损失函数来解决样本数据不平衡问题,采用了FocalLoss损失函数来让模型进一步关注困难样本,在提升了预测速度的同时提高了电力线分割的精度。

1 基础模型理论

1.1 DeepLabv3+模型

DeepLabv3+是目前主流的语义分割网络架构之一,它在DeepLabv3的基础上增加了解码器模块来增强分割效果。该网络的编码器部分使用了主干网络Xception来提取主要特征,此外,ASPP模块中的不同速率的并行空洞卷积被用来获取高维特征并通过1×1卷积进行通道压缩。在解码器部分,主干网络中提取的低维特征与ASPP模块输出的高维特征融合,然后利用3×3卷积和上采样精细目标边界,从而输出预测结果。图1为DeepLabv3+的模型结构。

1.2 轻量级主干网络Mobilenetv2

Mobilenetv2是一种轻量级的卷积神经网络架构,目的是为了在移动设备上实现高效的预测。Mobilenetv2在Mobilenet的基础上引入了倒残差块,从而在仍保持效率的同时提高准确性。倒残差块主要是使用深度可分离卷积,即逐点卷积和逐通道卷积的组合来捕捉更复杂的特征。表1为Mobilnetv2模型结构。

表1中:

t是扩展因子,第一层1×1卷积层中卷积核的扩展倍率。

c是输出特征通道数量。

n是bottleneck的重复次数。

s是步距(仅在操作中第一层卷积的時候生效)。

2 基于DeepLabv3+的轻量级图像语义分割算法

2.1 总体框架

基于DeepLabv3+的轻量级图像语义分割算法,是基于以下方式实现的:先使用Mobilenetv2替换原本的Xception主干网络大幅降低参数量;再通过改进ASPP模型在感受野不变的同时降低了参数量;最后通过多尺度特征融合和注意力机制模块进一步提高了分割精度。改进算法的网络结构如图2所示。

2.2 改进ASPP模块

左安全等人[9]提出的DeepLabv3+模型中提到了瓶颈级联ASPP模块,将原DeepLabv3+模型的空洞率从原先的6,12,18改为3,6,9,12,提取更细小的目标和特征的同时扩大了感受野,通过空洞卷积分支和级联空洞卷积加强对电力线的细节特征提取,减少漏分割现象。

感受野是指在深度神经网络中,输出的某个特征图像素在输入图像上映射区域的大小。感受野大小对于深度神经网络的性能非常重要,较小的感受野可能会导致网络无法捕捉到输入图像中的局部特征和上下文信息,而较大的感受野则可能会导致网络对于噪声和细节过于敏感。因此,在设计深度神经网络时通常需要平衡感受野大小和模型的计算复杂度。空洞卷积的感受野[r]计算公式为:

[ri=k+j=1i-1k-1×dj]  ⑴

其中,[k]是卷积核的大小,[dj]是第j层卷积层的空洞率,[ri]是第i层卷积层在输入前的感受野大小。

对比原DeepLabv3+模型,空洞率为18的3×3空洞卷积分支参数代入式⑴可求得经过卷积后的感受野为39×39。对比之下,改进的空洞率为9的3×3空洞卷积分支串联卷积后感受野也为39×39。

通过在空洞卷积前后使用1×1卷积先降维后升维的方式来减少训练参数量,参考了文献[9]中所提出的4层卷积分支,对比了3层卷积分支,在本文数据集中并没有过于明显的提升,如表2权衡了参数量和效果后,本文使用了3层卷积分支的ASPP改进模型,如图3所示。

2.3 瓶颈注意力模块BAM

瓶颈注意力模块(Bottleneck Attention Module,BAM)是一种用于加强卷积神经网络特征表达能力的注意力机制。BAM模块主要由两部分组成:通道注意力模块和空间注意力模块。通道注意力模块用于自适应地调整不同通道特征的重要性,而空间注意力模块用于调整特征图的空间分布。

2.4 损失函数

电力线的像素点通常在图像中所占的比例较小。当使用标准的交叉熵损失函数(Cross Entropy Loss, CE Loss)进行模型训练时,损失函数会更倾向于像素点占比更高的背景,模型难以学习到电力线的特征信息。Li等[10]提出,在NLP的场景中这种类别数据不均衡的问题是十分常见的,比如机器阅读理解(MRC),损失函数负样本数量远超过正样本,导致容易的负样本会主导了模型的训练,因此提出了Dice Loss[11],本文使用其简化的Dice Loss形式,表达式为:

[LDice=1-2tiyi+γti+yi+γ]  ⑵

其中,其中[yi]为网络预测值,取值范围为(0,1)。[ti]为target值,取值非0即1。[γ]是一个极小数,称为平滑系数,主要是为了避免负样本的作用为0,让训练更加平滑。

何凯明团队在CE loss基础上增加动态调整因子,提出了Focal Loss[12],用来处理样本不平衡的场景,同时也让模型更关注样本的难易程度。表达式为:

[LFocal=-αt1-ptγlogpt]  ⑶

其中,[αt]为权重因子,[1-ptγ]为调节因子,[pt]为对应类别的预测概率,[γ]为聚焦参数。总损失函数表达式为:

[L=LDice+LFocal]  ⑷

如表3所示,对于原DeepLabv3+(Mobilenetv2)模型使用不同的损失函数组合进行训练,Focal Loss+ Dice Loss的组合要比CE Loss+Dice Loss的组合更好一点,说明了Focal Loss在处理数据集中困难样本的时候有一定的效果。

3 实验结果与分析

3.1 实验数据集

现有的电力线公开数据集较少,故本文的电力线数据集一部分是无人机拍摄采集的54张8000×6000图片,从中裁切出391张1500×1000分辨率的天空、草地、树林和复杂背景的图片,并使用Labelme进行标注;另一部分是从现有公开集Wire Dataset[13]中选取的462张图片。本文将数据集中的100张作为测试集,其余图片进行随机旋转、水平或垂直翻转、裁切、改变亮度和对比度的方式增强至3012张,将这3012张按照9:1的比例划分为训练集和验证集。图5为本文数据集中自己拍摄的电力线图片样本。

3.2 实验环境

本文的实验环境为Windows10,内存配置32GB,CPU配置为AMDRyzen5 3600,显卡为NVIDIA GTX 1660super(6G),深度学习网络框架为Pytorch 1.8.1,训练轮数为100轮。

3.3 实验评价指标

本文使用平均交并比(mean Intersection over Union,mIoU)和平均像素精度(mean Pixel Accuracy,mPA)作为语义分割算法分割精度的评价标准。mIoU为各个类别的真实值和预测值的交并集之比,用来反应预测结果与原始图像中真值的重合程度,表达式为:

[mIoU=1n+1i=0npiij=0npij+j=0npji-pii]  ⑸

其中,n表示标签的类别数量;n+1表示包含背景的标签类别数量;[pii]中第一个i表示实际的标签类别,第二个i表示预测的标签类别,即[pii]表示实际为i类,预测也为i类的像素数量;[pij]表示实际为i类预测为j类的像素数量;[pji]表示实际为j类预测为i类的像素数量。mIoU的取值范围是[0,1],mIoU的值越大,说明图像各个类别平均分割效果越好。

平均像素精度(mPA)是正确分类的像素数量与所有像素数量的比值后的平均值,表达式为:

[mPA=1n+1i=0npiij=0npij]  ⑹

其中,参数与式⑸一致。

3.4 实验与结果分析

3.4.1 不同分割网络模型的对比

图6展示了各个网络模型在测试集上的一部分分割结果。可以看到,原DeepLabv3+(Mobilenetv2)和DeepLabv3+(Xception)模型已能够识别出每根电力线,但当背景较为复杂或者背景颜色比较接近电力线的时候,分割出的电力线会有漏分割和错分割的现象,如图6(a)中组中草地和水泥地面的混合干扰和图6(c)中汽车边框线条的干扰。改进后的模型能减少错分割的现象,并一定程度上减少电力线中断的情况。这是由于改进后的模型在提取高维特征的同时融合了经过注意力机制的低维特征,使得模型在获取电力线区域特征的时候,注重了局部细节特征,减少了分割结果中噪声的出现。

表4展示了各个网络模型在测试集上分割精度、预测速度以及参数量上的区别。进一步结合图6可以看出,改进的DeepLabv3+在预测速度和分割精度上取得了一定的平衡,并在分割效果上优于原模型。在对比实验中,U-Net(vgg)取得了最好的效果,在分割精细度上优于其他模型,甚至在图6(b)中能够分辨出最左边的电力线有两根,但由于vgg网络庞大,在参数量和预测速度上明显不符合轻量级的定义,故不适合在移动端使用。PSPNet在resnet50和Mobilenetv2两种主干网络下提取复杂背景下的电力线特征效果并不好。由于图6(a)分辨率是[1500×1000],在传入PSPNet前做了resize,原本细小的电力线变得更细,PSPNet无法做出预测,对比主干网络同为Mobilenetv2的DeepLabv3+有較大的差距。而在Wire Dataset数据集上的图像,PSPNet虽说可以分割出导线,但仍由于分割精度的不足,分割出的电力线持续中断,且边缘过于粗糙。

3.4.2 消融实验与对比

为了进一步验证对DeepLabv3+的改进有效,做了消融实验,如表5中“√”表示使用了改进策略。

4 结束语

在电力线识别上,针对传统视觉方法精度不高和现有神经网络不能兼顾分割速度和精度的情况,本文提出一种轻量级的电力线分割网络模型方法。使用轻量级网络Mobilenetv2来替换DeepLabv3+原始主干网络Xception,改进ASPP模块来进一步降低整体分割模型的参数量。提取低维特征进行多尺度融合来提高电力线边缘的分割精度,并加入注意力机制来减少电力线错分割和漏分割现象,最后通过消融实验来验证了改进策略的有效性。与其他分割模型对比,改进后的模型在电力线的分割精度和速度上拥有更好的平衡性,与原DeepLabv3+(Xception)相比,本文模型预测速度提升了108.65%,mIoU和mPA分别提升了1.58%和2.09%。本文改进的电力线语义分割模型兼顾精度和预测速度,可以应用于电力线的实时分割场景,意义非凡。本文模型在识别更精细的电力线时仍有较严重的漏分割现象,后续研究可尝试数据集尺度多样化,在不降低预测速度的前提下改进模型,对更细的电力线实现准确分割。

参考文献(References):

[1] 赵乐,王先培,姚鸿泰,等.基于可见光航拍图像的电力线提取算法综述[J].电网技术,2021,45(4):1536-1546.

[2] 朱钱鑫,朱钱肖,张丙珍,等.复杂地物背景下的无人机激光雷达电力线提取方法[J].电工技术,2022,567(9):54-56.

[3] 屈年赦,白晶石,曹铁军.激光雷达在输电线路巡线中的应用[J].电力勘测设计,2022,168(6):6-9,40.

[4] 操昊鹏,曾卫明,石玉虎,等.基于Hough变换和总体最小二乘法的电力线检测[J].计算机技术与发展,2018,28(10):164-167.

[5] 赵乐,王先培,姚鸿泰,等.基于局部上下文信息的电力线提取算法[J].高电压技术算法,2021,47(7):2553-2566.

[6] Choi H, Koo G, Kim B J, et al. Weakly supervised power line detection algorithm using a recursive noisy label update with refined broken line segments[J]. Expert Systems with Applications,2021,165:113895.

[7] Zhang H, Yang W, Yu H, et al. Detecting power lines in UAV images with convolutional features and structured constraints[J]. Remote Sensing,2019,11(11):1342.

[8] Yang L,Fan J,Huo B,et al. PLE-Net: Automatic power lineextraction method using deep learning from aerial images[J]. Expert Systems with Applications,2022,198:116771.

[9] 左安全,秦伦明,王悉,等.基于改进DeepLabv3+模型的电力线语义分割方法[J].无线电工程,2023,53(1):96-104.

[10] Li X,Sun X, Meng Y,et al. Dice loss for data-imbalanced NLP tasks[J]. arXiv preprint arXiv:1911.02855,2019.

[11] Milletari F,Navab N, Ahmadi S A. V-net: Fully convolutional neural networks for volumetric medical image segmentation[C]//2016 fourth international conference on 3D vision (3DV). Ieee,2016:565-571.

[12] Lin T Y, Goyal P, Girshick R, et al. Focal loss for denseobject detection[C]//Proceedings of the IEEE international conference on computer vision,2017:2980-2988.

[13] 黃巨挺,宏力,戴志坤.基于编码解码结构的移动端电力线语义分割方法[J].计算机应用,2021,41(10):2952-2958.