APP下载

融合多尺度特征的前景分割方法在高压开关柜异物遮挡检测中的应用

2021-08-06姜鸿飞晏忠泰杨科彭德中

现代计算机 2021年16期
关键词:开关柜异物卷积

姜鸿飞,晏忠泰,杨科,彭德中

(1. 四川大学计算机学院,成都 610065;2. 中国烟草总公司四川省公司专卖监督管理处,成都 610094;3. 中国烟草总公司四川省公司法规处,成都 610094)

0 引言

变电站是电力系统中电力输送和转换的枢纽,在整个电力系统中有着非常重要的作用,变电站中的高压开关柜控制和保护着电力的传输与配送,需要对其运行状态进行实时的检查。由于开关柜元器件设备种类繁多且状态复杂,传统中对开关柜的检查依靠人力巡视来实现,其中一项重要的任务是检查开关柜是否有被异物覆盖;与此同时,近年来随着智能化的推广,越来越多的变电站采用无人化的智能巡检实现对变电站设备尤其是高压开关柜的检查,基于监控图像利用计算机视觉的方法进行状态识别是最常用的实现方法之一,而在进行状态识别之前,也有必要首先进行一次异物的遮挡检测确保算法可以得到完整的设备图像。

恒定环境状态下的开关柜异物遮挡检测本不是一件非常困难的事情,然而当环境光变化较大、摄像头分辨率低且畸变严重等情况下,情况将变得比较复杂,一些传统的异常检测方法在这样的环境下容错率将变得很低。为了解决这个问题,本文尝试将视频中运动目标检测的基于深度神经网络的前景分割方法应用于静态视频帧的异物遮挡检测,并通过实验验证其可行性。

1 相关工作

1.1 异物检测

异物检测是一项常见的图像处理与计算机视觉的任务,广泛应用于铁路侵限异物检测、电力系统输电线异物检测、溶液异物检测等场景。

基于传统计算机视觉算法的异物检测方法大量应用于这些场景,例如,在变电站智能巡检机器人异物检测任务中,赵小鱼等人[1]针对巡检机器人拍摄的图像存在视角变化的问题,首先从图像中提取SIFT特征并在模板图片中进行配准,然后再对图像进行二值化处理,利用“不变矩”算法进行相似度评价,从而对图像中是否存在异物进行判断;在输电线异物检测任务中,Huang等人[2]将任务分为两步,首先采用基于LSD的级联拓扑滤波提取出输电线的轮廓,并通过线段聚类来找出输电线区域,然后利用显著性计算来提取输电线区域上的异物;针对无人机拍摄图像,Cao等人[3]利用OTSU阈值分割方法对图像进行二值化将待测输电线从天空等背景中提取出来,然后运用形态学闭合运算结合形态学特征约束方法将异物从前景中分割出来实现异物的检测。这些传统异物检测算法的设计通常依赖于特定的应用场景,并且对于复杂场景检测效果欠佳。

近几年,许多研究尝试将深度学习目标检测方法应用于异物检测,例如,Wang等人[4]将SSD、DPM和R-CNN三种目标检测模型应用于输电线异物检测,通过实验对比验证了深度学习目标检测方法在异物检测任务中的可行性;Li等人[5]在YOLOv3网络的基础上,结合深度可分卷积和特征金字塔提出了用于检测飞机机身、发动机叶片等结构裂纹的检测网络YOLOv3-lite,在几乎不损失精度的情况下大幅提高了检测速度。然而,目标检测算法通常适用于检测预先指定的异物类型,并不适用于检测模型未见过的随机异物。

1.2 前景分割

监控视频中的运动目标分割近年来是计算机视觉领域一项研究热点,在交通车辆跟踪、行人动作识别、异常行为检测等场景有着广泛的应用,一种主流的方法是前景分割。传统方法多采用背景建模,例如Stauffer和Grimson[6]最早使用高斯混合模型(GMM)对视频帧中的背景像素进行概率建模,此后基于高斯混合模型的背景减除法凭借其优秀的自适应能力和分割性能得到广泛的关注,至今仍然是主流的前景分割方法之一,该方法需要通过连续的视频帧来更新背景模型,也因此在静态视频帧的分割任务中效果欠佳。

近年来深度学习在计算机视觉各领域任务大放异彩,也包括运动目标分割任务。Braham和VanDroogenbroeck[7]首次将卷积神经网络(CNN)应用于前景分割,提出了ConvNet模型,该模型提取每个像素周围的图像块(Imagepatches)结合对应的背景模型图像块输入网络对该像素进行分类,判断该像素是否属于前景,但受限于图像块的大小,模型对于大目标分割效果不佳。针对这个问题,Wang等人[8]提出了一个多尺度输入的级联分割网络模型,通过输入三个尺度的输入提高大尺寸目标的分割准确率,并利用网络级联取代条件随机场(CRF)来提高像素间的关联关系,大幅度提高了分割精度,但这种基于图像块的像素分类模型主要适用于前景物体在颜色、尺寸以及形状等相似的情况,对于差异较大的物体分割效果较差。于是,Lim和Keles[9]在多尺度输入结构的基础上,提出了一种基于encoder-decoder结构的分割网络FgSegNet,通过decoder网络生成前景概率图,有效地提高了在前景物体差异较大时的分割能力;随后,Lim和Keles[10]在FeSegNet模型基础上引入了特征池化模块(FPM)取代多尺度输入,提出FgSegNet-S模型,在不损失分割精度的基础上有效降低了计算复杂度。

1.3 本文方法

变电站高压开关柜的异物遮挡检测难点主要有四点:

(1)复杂的背景环境,包括拥有许多颜色、形状各不相同元器件的开关柜面板,随时都有可能发生状态改变的元器件,以及不稳定的环境光,会对异物检测产生干扰;

(2)异物的种类是随机的,在颜色、形状、尺寸等特征上差别较大,部分异物与背景的开关柜面板中的元器件特征相似,难以通过一种有效的特征进行描述;

(3)摄像头可能会产生焦距、对焦位置、旋转位置的变化;

(4)缺乏有效的训练数据集。

以上,传统的计算机视觉算法难以有效适应复杂背景,基于深度学习的目标检测算法难以检测随机异物,现有方法无法满足该场景下的异物遮挡检测;考虑异物检测的目标,即从相对固定但存在部分光线和干扰物变化的背景中将前景的遮挡异物检测出来,与运动目标分割任务的目标相似,于是考虑将运动目标分割任务中的基于深度神经网络的前景分割方法应用于异物检测。

本文尝试以FgSetNet-S[10]为基础模型,针对异物形状和尺寸多样的问题,引入多尺度特征融合,针对缺乏有效数据集的问题,人工合成开关柜异物分割数据集,并通过实验验证模型的可行性。实验表明,本文所述模型相比其他模型在异物分割数据集上拥有更好的分割效果。

2 模型结构

模型由特征提取器、多尺度特征卷积模块和反卷积解码器三个部分组成,如图1所示。

图1 模型总体结构图

2.1 特征提取

特征提取器用于提取输入图像的特征,并用于后续的高层次语义操作。卷积神经网络在图像特征提取方面的能力大大强于传统基于手工设计的图像特征提取器,例如在场景语义分割网络SegNet[11]中,模型采用了修改的VGG16[12]网络作为特征提取器,该网络移除了VGG16网络中的全连接层,保留了所有的卷积层和池化层,并设计了与之结构对称的decoder网络。鉴于异物分割任务的特殊性,为了防止基于单一背景的数据训练产生模型过拟合,本文所述模型采用的特征提取器在移除VGG16网络全连接层后,继续移除第4、5卷积块,仅保留前3层卷积块。3层卷积块分别输出3个尺度的特征图,这些特征图将被用于后续的多尺度特征融合。

2.2 多尺度特征卷积

输入图像经过特征提取网络多次卷积运算提取特征之后,在网络的输出层转化为高维度特征图,高维度特征图包含丰富的图像语义信息,但会由于经过了多次池化采样操作而在一定程度上丢失一些细节信息,不利于模型对小尺寸的目标进行分割。FgSegNet-S[10]通过特征池化模块(FPM),运用膨胀卷积,在最后一层特征图进行运算得到5个感受野不同的特征图,并合并为最终的多尺度特征图,但膨胀卷积仅扩大了感受野,并未针对小目标的分割有实质提升。于是,本文提出多尺度特征卷积模块,在特征池化模块(FPM)的核心结构基础上,融合低层特征,以期同时针对大尺寸目标和小尺寸目标进行效果提升。

多尺度特征卷积模块如图2所示,特征提取模块输出了三个尺度的特征层,定义为F1、F2、F3,三者尺寸相对于输入图像分别为1/2、1/4和1/8。F1通过一个步长为2的3×3卷积操作,尺寸减半,输出尺度为1/4的特征图f1;F2通过步长为1的3×3卷积操作,尺寸保持不变,输出尺度为1/4的特征图f2;对于F3,特征图分别通过一个3×3普通卷积、一个膨胀率为8的3×3膨胀卷积和一个膨胀率为16的3×3膨胀卷积操作得到三个拥有不同感受野的1/8尺度的特征层,后分别经过三个步长为2的3×3反卷积操作,尺寸提升一倍,输出尺度为1/4的特征图f3、f4和f5。输出的5个特征图的通道数均为64,最后将这5个特征图进行拼接合并,得到一个尺度为1/4、通道数为320的合并特征图Fout。Fout后续进行批归一化(BatchNormalization)操作来对来自不同分支输出数据组成的训练批数据进行分布归一化,提高模型的收敛速度,然后通过线性整流函数(ReLU)提高模块的非线性,最后进行dropout操作随机冻结训练时的模型参数防止模型过拟合。

图2 多尺度特征卷积

2.3 反卷积解码

反卷积解码模块用于将多尺度特征图进行多次上采样实现特征信息的解码,生成尺寸同输入图像的描述前景和背景目标性的概率图,概率图经过阈值过滤得到像素级别的二分类结果,得到最终的前景mask。

模块的结构如图3所示,网络包含4个反卷积块,其中t_block 1、t_block 2、t_block 3拥有相似的结构。以t_block 1为例,来自多尺度特征卷积模块的尺度为1/4、通道数为320的特征图首先通过步长为1的1x1反卷积操作降维到64通道,目的是降低计算复杂度提高计算效率;随后特征图通过步长为1的3×3反卷积操作,保持尺寸和通道数不变;最后特征图通过步长为1的1×1反卷积进行维度扩大,通道数提升到512。t_block 2的结构大致与t_block 1相似,不同的是特征图在经过1×1反卷积降维后,通过步长为2的3×3反卷积操作,尺寸扩大一倍,输出尺度为1/2的特征图。t_block 4拥有两个反卷积层,特征图首先通过步长为2的3×3反卷积操作,尺寸进一步扩大,随后经过1×1反卷积操作降维到1,输出尺度为1、通道数为1的特征图,最后特征图的每一个像素通过sigmoid函数计算得到像素二分类概率,得到最终的分割概率图,概率图的每一个像素值代表输入图像中对应像素属于前景的概率。

图3 反卷积解码模块

3 异物分割数据集的构建

异物检测不同于运动目标分割,现有的针对运动目标分割的研究大多是在CDNet2014[13]和SBI2015[14]等开源数据集上进行模型构建,模型大多在同一段视频中抽帧进行训练和测试。开关柜异物检测的一个难点是,分割任务是在离散的视频帧上进行的,并且异物的种类和形状是多样且随机的,难以构建足够多的有效的真实数据集用于模型的训练和测试。针对这个问题,本文尝试利用开关柜背景图片和异物图片,设计数据集合成算法人工合成开关柜异物检测数据集。

3.1 合成素材

数据集的合成素材包括作为背景的开关柜离散帧和作为前景的随机异物。开关柜背景图分8次采集,其中前五次于同一天按照固定时长的不同时间段采集,每隔3分钟采集一次;后每隔一周在同一开始时间各采集一次,共采集3次。高压室中共有33个监控摄像头,除其中一个摄像头监测1个开关柜,其余32个摄像头各监控两个相邻的开关柜,共采集到33×8幅视频帧,包含开关柜65×33个,作为合成素材,另外单独采集一批质量较好的视频帧,经过人工校正和标注开关柜位置后作为模板图片用于图像校正。异物前景图像采集于MSCOCO[15]数据集,COCO数据集是微软构建的用于图像目标检测、分割和关键点检测等任务的大型数据集,共包含91个类别30余万张图像,本文从COCO 2017训练集中选取包含book、kite、cat和bird 4个类别的图像,利用分割数据标签裁切出4个类别的目标图像共计9837张,这些目标图像将被作为异物图像用于数据集的合成。

3.2 合成流程

数据图像合成的流程如算法1描述。异物图像集F由异物图像及其蒙版构成的二元组组成,蒙版m根据f的分割标签生成,用以过滤f中的背景。开关柜图像集Bn为n个由对应开关柜图片组成的集合,这些图片由开关柜所在的视频帧根据对应标注截取而得。GTn为经过人工矫正的开关柜模板图像,与Bn对应。预处理集P包含随机亮度、随机对比度、随机高斯噪声、随机模糊等预处理操作。

算法1:合成数据集输入:异物图像集F开关柜数量n开关柜图像集Bn开关柜模板图像GTn图像预处理函数集P要生成的每个开关柜的样本数s过程:1 生成的数据集G=Ø2 for i=1,2,3,…,n do3 for j=1,2,3,…,sdo4 从F中随机选取(f,m)5 从Bi中随机选取b6 选取GTi为gt7 以gt为模板对b进行单应性变换校正8 随机缩放比例λ=rand(100,500)/ f的高度9 对f和m按比例λ缩放

4 实验

4.1 实验数据

本文实验所用数据集由上一章节提到的合成算法合成。数据集共包含130000张图片,由65种带有合成异物的不同开关柜图片组成,每一种开关柜各包含2000张图片。数据集按照4 ∶1的比例从各开关柜子数据集种划分组成训练集和测试集,分别共包含104000张图片和26000张图片。数据集部分样本如图4所示。

图4 部分数据样本

4.2 实验参数设置

本文模型使用PyTorch深度学习框架进行搭建。模型中的dropout参数设置为0.5,训练batch_size设置为8,图像输入尺寸为224×448,对模型输出的概率图施加阈值为0.5的阈值过滤来对像素进行二分类,模型采用Adam优化器来最小化损失,学习率设置为0.0001,最大训练轮次设置为100,训练过程中保存F1值最大的模型。模型采用加权交叉熵损失函数,对假阴性施加更高的惩罚以解决类别不平衡的问题,对于第i幅输入图片,模型的损失函数为:

(1)

4.3 对比试验

本文将所提模型与CascadeCNN[8]、FgSegNet-M[9]和FgSegNet-S[10]三种主要模型在合成的数据集上进行实验对比,通过F-measure、PWC和MCC三种指标进行对比。

F-measure由precision和recall两个指标通过调和平均计算而来,通过对两个指标的综合衡量缓解单一准确率或召回率无法准确评价模型性能的问题,取值范围为[0,1]。在给定混淆矩阵的TP、TN、FP、FN值的前提下,F-measure、precision和recall可分别通过以下公式计算而来:

(2)

(3)

(4)

PWC即Percentage of Wrong Classification,表示分类错误样本占总数的百分比,取值范围为[0,100],定义如下:

(5)

F-measure指标对类别不平衡非常敏感,例如当一幅图片中全部为背景时,如果分类结果完全正确F-measure的值反而为0。为了解决这个问题,引入对不平衡样本不敏感的MCC指标进行评价:

(6)

MCC的取值范围为[-1,1],值为1时表示分类结果与标签值完全一致,为-1时表示分类结果完全相反。

4.4 实验结果

实验结果如表1所示。

表1 各方法的实验结果对比

实验结果显示,本文方法在F-measure、PWC和MCC三种指标上均优于对比的三种方法。FgSegNet两种模型方法结果相近,表明通过特征融合获得多尺度特征的方式与通过多尺度输入平行运算的方式在分割结果上效果相近,而特征融合相比平行运算有效降低了计算复杂度,提高了训练和预测速度,说明通过特征融合的方式获得多尺度特征的方式在开关柜异物遮挡数据集上是可行的。FgSegNet两种模型的效果均优于CascadeCNN,两者最大的一个区别是CascadeCNN核心思想是基于图像块的像素分类,FgSegNet系列是基于encoder-decoder结构的编码重建像素分类,相比前者,后者通过高层特征重建更容易获得更大的感受野和更强的像素间的相关性。本文方法基于FgSegNet-S模型,针对开关柜异物遮挡任务进行改进,效果优于上述三种方法。开关柜异物遮挡检测任务的不同之处在于:其一,输入图像是离散的抓取视频帧,且异物的状态和形状不定;其二,模型是在由65个不同开关柜视频帧组成的数据集上进行训练和测试,并非单一背景。因此,对比模型并不完全适用于开关柜异物遮挡检测任务,不同开关柜背景大致相同,但会在元器件状态、文字等细微部分存在差别,本文方法通过融合低维特征提高了模型对细微背景差别的分割精度,降低了假阳性分类,提高了分割的精确率。

5 结语

本文针对变电站高压开关柜异物遮挡检测的任务,通过人工合成的方式构建了一个开关柜异物遮挡数据集用于模型的训练、测试和评价,将运动目标分割任务的前景分割方法应用于异物遮挡检测,并针对视频帧离散、背景不固定等问题进行模型结构的调整和改进,融合多尺度特征信息提高对背景细微差别的分割精度,并通过实验验证了该思路是可行的。本研究的一个不足之处是人工合成的数据集图片由于背景模板的选取不够丰富和前景异物相较于背景颜色差异过于明显等原因相较于真实情况存在较大的分布差异,导致在合成数据集上训练的模型难以直接应用于实际场景,若要解决这个问题,可以考虑的方法有:采集更多的开关柜背景图片;通过光照归一化和风格迁移调整前景异物同背景光照和颜色一致;采集一定量的人工标注的真实遮挡图像融入合成数据集提高数据集的真实性等。

猜你喜欢

开关柜异物卷积
基于全卷积神经网络的猪背膘厚快速准确测定
基于FPGA的卷积神经网络加速优化方法
基于图像处理与卷积神经网络的零件识别
如何处理异物进入眼睛
基于深度卷积网络与空洞卷积融合的人群计数
10kV高压开关柜故障原因及防范措施分析
眼耳鼻进异物咋处理
浅析10kV高压开关柜故障原因及防范措施
35kV开关柜绝缘性能的提高方法探析
超声定位诊治非金属微小异物嵌入伤的临床评价