多旋翼无人机巡检图像的部件识别应用

2021-03-18罗艺王乾龙晏凯

云南电力技术 2021年1期

罗艺，王乾龙，晏凯

（云南电网有限责任公司曲靖供电局，云南曲靖 655000）

0 前言

电力巡线无人机有广阔的应用前景。一方面，无人机巡线具有野外作业风险低、成本低以及作业灵活的特点；另一方面，产生的海量数据需要经过人工判读才能得到最终的巡检报告，因此采用图像识别的方法对这些数据进行部件检测识别具有十分重要的意义。与传统的小部件识别相比，无人机巡检得到的图像具有背景复杂、小部件与背景对比度低、不同地区不同季节背景差异较大、存在大量干扰等难题。传统的电力部件识别算法主要采用人工设计的特征，如SIFT(Scal invariant feature transform)[1]、边缘检测[2]、HOG(Histogram of Oriented Gridients)等，不能很好地适用于电力部件，采用的分割算法主要基于部件外围轮廓骨架[3]、自适应阈值[4]等进行图像分割[5]。但这些方法在设计原则上往往是基于特定类别来实现的，其准确率低，不具有可扩展性；而且方法结构松散，缺少对低层特征进行综合利用进而达到全局最优识别的目的。但这些方法尚不具备随样本数量增多提升识别准确率的能力。

2012 年起，深度学习引起了广泛关注，并在图像识别与检测中取得了良好的识别效果。本文研究了深度学习在电力部件识别中的应用，以及采用优化算法对参数进行调优，并比较了DPM、RCNN(Regionbased Convolutional Neural Network)[6]的SPPnet(Spatial pyramid poolingnetworks)[7]和Faster R-CNN[8]算法，针对电力小部件识别问题分析了不同算法的效果和性能。

1 经典DPM方法和RCNN

对于目标识别主要包括目标位置的确定和目标类别的判别。根据确定目标位置的方式不同，可以分为2 类：

1）采用滑动窗口的方式，逐窗口判断是否存在目标对象；

2）采用区域提议的方式，先集中生成可能包含目标对象的区域框，再逐一判断每个候选框是否包含目标对象。滑动窗口方式识别方法的典型算法是可变形部件模型DPM；区域提议方式识别的典型算法是基于区域的卷积神经网络RCNN。

1.1 可变形部件模型

可变形部件模型DPM 方法是由P.Felzenszwalb 提出的经典目标识别算法。在检测阶段，DPM 在图像特征金字塔上作为一个滑动窗口运行，图像特征金字塔通常由HOG 特征建立。DPM 通过优化一个综合部件变形代价函数和图像匹配得分的得分函数来给每个滑动窗口赋予一个得分。

1.2 区域提议卷积神经网络

Ross 等2014 年提出的基于区域的卷积神经网络方法RCNN，成为基于区域提议方式进行识别的典型方案。在检测阶段，RCNN 分为4个步骤：

1）使用视觉方法( 如Selective Search) 生成大量候选区域；

2）对每个候选区域用CNN 进行特征提取，形成高维特征向量；

3）将这些特征量送入一个线性分类器计算属于某个类别的概率，用于判断所包含对象；

4）对目标外围框的位置和大小进行一个精细的回归。

与DPM 使用滑动窗口进行遍历搜索的方式相比，RCNN 第一步的区域提议是选择性搜索，使用得分最高的前2000 个区域可以有效减少后面特征提取的计算量，能很好地应对尺度问题；CNN 在实现上采用GPU 进行并行计算，计算效率明显优于DPM 方法( 实现上采用单CPU计算)；外围框回归使目标定位的精确性进一步提升。在训练阶段，RCNN 也有4 个步骤：

1）使用选择性搜索集中生成每张图片的候选区域，并对每个候选区域用CNN 提取特征，本文CNN 采用的是训练好的ImageNet 网络；

2）利用候选区域和提取出的特征对ImageNet 网络进行调优，调优依据标准的反向传播算法进行，从特征层开始向后调整各层权重；

3）以特征层输出的高维特征向量和目标类别标签为输入，训练支持向量机；

4）训练对目标外围框位置和大小进行精细回归的回归器。

RCNN 方法在准确率和效率上远远超过DPM 方法，成为基于深度学习进行识别的典型方案。2014 年和2015 年，Ross 和微软亚洲研究院的研究者陆续提出了改进的RCNN 方法[9]：SPPnet 首次引入空间金字塔池化层从而放宽了对输入图片尺寸限制并提高准确率；Fast-RCNN 采用自适应尺度池化能够对整个网络进行调优从而提高深层网络识别的准确率；Faster R-CNN 通过构建精巧的区域提议网络来代替时间开销大的选择性搜索方法，从而打破了计算区域提议时间开销大的瓶颈问题，使实时识别成为可能。本文主要研究了利用Faster R-CNN方法对电力部件进行识别。

2 电力部件识别定位

与SPPNet 和Fast-RCNN 相比，Faster R-CNN方法既突破了计算区域提议的时间瓶颈，又能保证理想的识别率。因此，本文以Faster R-CNN识别方法为主，提取电力小部件的识别特征并进行目标识别验证。

2.1 电力部件识别的网络训练

Faster R-CNN 方法包含2 个CNN 网络：区域提议网络RPN(Regional Proposal Network)和Fast R-CNN 检测网络。训练阶段的主要步骤如图1 所示。对RPN 网络和Fast-RCNN 检测网络进行联合训练，如图2 所示。

2.1.1 预训练CNN模型

RPN 网络和检测网络都需要对预训练的Image Net 网络进行初始化，通常采用的网络主要有ZFnet 网络(Zeilerand Fergus) 和VGG16网络。因本文数据集规模较小，故选用ZFnet网络。ZFnet 包含5 个卷积层，有些卷积层后面添加池化层和3 个完全连接的特征层。利用ILSVRC 2012 图像分类任务中的训练数据(120万张图像，l000 类)对ZFnet 模型进行预训练。区域提议网络和检测网络都是在ZFnet 输出后添加特定的层得到。这些特定层可以对输入图片提取可能含有目标的区域，并计算出以该区域为目标的概率。

图1 部件识别的联合网络训练过程

图2 网络训练过程示意图

ZFnet 的最后一个卷积层( 即第5 个卷积层) 包含256 个通道，被称为特征图(Feature Map)。特征图为输入图像的深层卷积特征，同类物体的深层特征十分接近；而不同类物体的深层特征差异很大，即在特征图上物体具有很好的可分性。

2.1.2 RPN网络训练

用电力部件图像构建图像训练集，但电力部件图像集与预训练图像集无论是类别数量还是图像样式都存在很大的差别。在用电力部件图像集训练RPN 网络时，直接用上一步预训练的ZFnet 模型初始化RPN，使用反向传播算法对区域提议网络进行渊优。RPN 网络以任意大小的图像为输入，之后输出一系列可能包含目标的区域框。如图3 所示，在ZFnet 的CONV5后面添加一个小的卷积层，这个小的卷积层采用滑动方式运作，对于特征图上的每一个位置(对应原始图像上一个位置)，南小卷积层进行卷积运算，即在此位置开一个小窗口进行卷积运算，得到同一个位置对应的256 维向量( 由于有256 个通道)，该向量反映了该位置小窗口(对应原始图像上某一窗口)内的深层特征。由这个256 维的特征向量可以预测：①该位置小窗口属于目标／背景的概率值，即得分；②该位置附近包含目标的窗口相对于该位置小窗口的偏差，用4 个参数表示，2 个平移，2 个放缩。采用3 种不同尺寸和3 种不同比例(1:l，l:2，2:1)组合成的9 种基准小窗口对包含目标的窗口位置进行预测，可以使区域提议更准确。

图3 检测识别过程

2.1.3 Fast R-CNN检测网络训练

根据步骤(2) 生成的区域提议结果是基于Fast。RCNN 方法训练独立的检测网络，检测网络也利用ZFnet 预训练模型初始化。对输入图像进行5 层卷积网络的特征提取，第5 层特征图(CONV5) 是一个256x256 的特征图，取CONV5 上对应的深度特征，将256 个通道内的全部特征串联成一个高维(4096 维)特征向量，称为FC6 特征层，后面添加另一个4096 维的特征层，形成FC7，FC6 和FC7 之间采用完全连接。由FC7 特征层可预测：①候选区域框属于每个类别的概率，即得分；②目标对象外围框的更合适的位置，用它相对于候选区域框的2 个平移和2 个放缩共4 个参数表示。通过预先标记的信息利用反向传播算法对该检测网络进行微调。

2.1.4 2个网络的CNN共享和联合调优

将2 个网络单独训练并未实现卷积网络的参数进行共享。利用步骤(3)训练的检测网络来初始化RPN 网络，并固定共享的深度卷积层，对RPN 网络的特殊部分进行调优，为了与检测网络对应，称此部分为RPN 网络的FC 层，这样2 个网络就共享了深度卷积层。最后，固定共享的卷积层，对Fast R-CNN 的FC 层进行调优。这样2 个网络就共享了卷积层并形成了一个联合的网络。

2.2 检测识别过程

由上面的训练可知，2 个网络最终可共用同一个5 层的卷积神经网络，这使整个检测过程只需完成系列卷积运算即可完成检测识别过程，彻底解决了原来区域提议步骤时间开销大的瓶颈问题。检测识别的过程如图3 所示，其实现步骤为：

1) 对整个图像进行系列卷积运算，得到特征图CONV5；

2) 由区域提议网络在特征图上生成大量候选区域框；

3) 对候选区域框进行非最大值抑制，保留得分较高的前300 个框；

4) 提取特征图上候选区域框内的特征形成高维特征向量，检测网络计算类别得分，并预测更合适的目标外围框位置。

3 结果与分析

无人机拍摄影像具有分辨率较高、包含目标较小的特点，拍摄影像的角度具有多样性和一定随机性。本文识别3 类小型电力部件一间隔棒、防震锤和均压环。

3.1 训练样本处理

数据集来源于多旋翼无人机巡检图像，从季节上覆盖了春、夏、秋、冬4 个季节。原始影像大小为5184x3456，截取以目标为主体的正方形小块图像，统一放缩至512x512，作为训练样本。

表1 训练图像样本数量表

3.2 训练集和测试集构建

本次试验，对于间隔棒、均压环和防震锤的每一类部件，分别收集三个种类在春夏秋冬四个季节不同背景真实样本，分别有2088、2197、2195 张图片来构筑样本库，样本分布和数量如表1 所示。训练测试数据集分布比例按照8:2 随机按比例分配。对训练集中每张图片里完整出现的没有被遮挡的小型电力部件标记其外围框样本，而对测试集，要标出每张图片里出现的所有电力部件，包括不完整的和被遮挡的。

测试时，当识别出的外围框与标记的外匍框重叠面积达到标记外框的90%以上时，视为一次成功识别。本次试验中，用正确率和召回率来评判识别的准确性，其中正确率为目标类别标记正确的外同框个数除以所有标记的外同框个数；召回率为目标类别标记正确的外框个数除以所有标准的外围框个数。由于本次试验识别的类别仅有3 种类型，因此分别对每一类电力部件识别的正确率和召回率做统计件。

3.3 实验结果

本文使用Caffe 框架实现卷积神经网络模型。使用3.2 节构建的训练集和测试集，首先研究了多个Faster R-CNN 参数对mAP( 平均准确率均值)的影响，然后将Faster R-CNN 方法与基于Selective Search 方法进行区域提议的SPPnet 方法和DPM 方法进行对比。Faster R-CNN 涉及到一些参数，例如dropout 比例、最大迭代次数、批处理尺寸、nms(非极大值抑制)前后区域保留个数，这些参数对mAP 有较大影响。测试结果随着nms 数量的减小，mAP也逐渐减小，这是因为经过nms 后，保留的候选区域也随之减小，导致检测结果准确度下降。因此较高的nms 可以得到较好的检测结果。

根据实验数据，当dropout 的比例从0.2 增大至0.8 时，mAP 总体上是下降趋势，但是在0.6 时有一个最高值。目前并无相关理论解释dropout 对mAP 的影响，通常取经验值。令dropout 取值为0.6，改变nms 前后候选区域数量，测试其对mAP 的影响，随着nms 数量的减小，mAP 也逐渐减小，这是因为经过nms 后，保留的候选区域也随之减小，导致检测结果准确度下降。冈此较高的nms 可以得到较好的检测结果。

令nms 前后候选区域个数分别取2000 和300，改变批尺寸，测试其对mAP 的影响，结果如表4 所示。不同的批尺寸得到不同的mAP。随着批尺寸逐渐变小，mAP 逐渐增大。

表2 不同dropout对mAP的影响

表3 不同nms数目对mAP的影响

表4 不同批尺寸对mAP的影响

表5 在测试集上的准确率召回率对比

有理论表明，当batchsize 为1 时，优化速度最快。根据mAP 最大时对应的参数，对测试集使用Faster R-CNN 与SPPnet、DPM 进行部件识别，对应的3 类电力部件的正确率和召回率如表5 所示。从表5 可看出，Faster R-CNN方法识别的准确率明显高于SPPnet 和DPM，而DPM 方法准确率最低。这主要是由于区域提议网络可以产生比SPPnet 更精准的候选框，而DPM 方法采用滑动窗口进行检测，其特征为HOG 特征，而不是深度训练特征。此外，Faster R-CNN 在网络训练的第(2) 步对全部特征层和卷积层的权重进行调优，而SPPnet 仅调优特征层，从而限制了识别准确率。值得注意的是，Faster R-CNN 采用的区域提议网络和检测网络具有很好的泛化能力，能够识别出部分被遮挡和中间穿过铁杆的间隔棒，且对各种不同方向的部件都可正确识别。

4 结束语

本文在总结分析当前几种典型的目标检测识别方法的基础上，验证了利用RCNN 等深度学习算法对电力小部件识别的准确性和效率，并分析了不同参数对Faster R-CNN 检测结果的影响。实验表明，利用特定的GPU 计算单元可以实时目标检测和识别，可为后期无人机巡检图像的智能化处理及巡检无人机的精确拍摄奠定良好的基础。

此外，根据深度学习的特点，构建更大的样本库可能进一步提高准确率。下一步的工作是构建更精细的识别类别，包括某些部件的缺陷图像都可看做一种类型，这样不但可以实现目标部件的分类，还可实现部件的缺陷识别。