基于改进生成对抗网络的无人机电力杆塔巡检图像异常检测

2022-05-13仲林林刘柯妤

电工技术学报 2022年9期

仲林林胡霞刘柯妤

（1. 东南大学电气工程学院南京 210096 2. 东南大学-蒙纳士大学苏州联合研究生院（东南大学）苏州 215123）

0 引言

电力杆塔常年暴露在自然环境复杂恶劣的野外，易受山体滑坡、冰雪覆盖、地震、台风等自然灾害影响[1]，导致杆塔塔基不稳、塔身倾斜，影响电能正常传输，甚至造成经济损失[2-4]。因此，快速、有效地检测电力杆塔的倾斜异常，不仅是电力线路运行维护的重要环节，也是保障电力安全传输的基础[5-6]。

近年来，随着无人机巡线技术的普及，电力运维部门开始通过无人机搭载各类传感装置对电力杆塔等目标物体进行信息采集和检测[7-9]，产生了大量以图像和视频为主的航拍数据，但仍普遍存在“重数据采集、轻数据分析”的问题[10]。随着人工智能技术的发展，无人机巡检图像的智能化分析处理正逐步成为取代人工判断、提升电网运维水平的重要手段[11-12]。文献[13-15]分别改进SSD（single shot detector）、YOLOv3（you only look once version 3）、faster R-CNN（faster Region-based convolutional neural network）等目标检测器，实现了无人机航拍图像中绝缘子的实时自动检测，并引入金字塔网络自底向上映射多尺度特征，在保证检测速度的同时，提升了不同尺度绝缘子的检测精度。这些方法在样本充足且类别均衡的条件下表现良好，但对于正负样本不均衡且负样本较少的异常检测缺乏普适性。文献[16]结合CIoU（complete-intersection over union）和FocalLoss构建了一个新的损失函数，在正负样本不均衡条件下，有效提升了输电线路异物检测的精度。文献[17-18]均针对输电线路异常样本少的问题，采用图像旋转、改变图像亮度和颜色饱和度、添加高斯噪声等数据增强方式扩充数据集，在一定程度上提升了异常样本的检测精度。这些研究虽然有助于改善特定场景下异常检测的性能，但未能从本质上改进网络结构以实现异常检测精度的大幅提升。

2014年,I. Goodfellow等[19]提出的生成对抗网络（Generative Adversarial Network, GAN）为解决异常检测或故障诊断问题提供了新的思路，并在接下来的几年里提出了一系列GAN的变体[20-21]。文献[22]采用改进的辅助分类生成对抗网络（Auxiliary Classifier Generative Adversarial Networks, AC-GAN）来诊断风机主轴承故障。文献[23]提出基于贝叶斯优化及Wasserstein距离改进辅助分类生成对抗网络（WAC-GAN）模型的齿轮箱故障诊断方法，实现了在不平衡数据集下的数据增强且保持了原有的故障识别准确率。文献[24]提出一种快速异常生成对抗网络（fast Anomaly GAN, f-AnoGAN），使用重构误差和特征残差快速准确识别异常。该模型最早应用于医学影像领域，在光谱单一的医学图像上检测效果显著[25]，但对于大多数光谱复杂、波谱宽度较大的可见光图像检测效果较差，直接跨域迁移算法无法有效区分正常和异常样本。

基于上述分析，本文提出一种基于压缩激活改进的快速异常检测生成对抗网络（Squeeze-and Excitation improved fast unsupervised Anomaly detection with Generative Adversarial Network, SE-f-AnoGAN）模型，用于无人机电力杆塔巡检图像的异常检测。该方法的主要贡献包括：①在常规 f-AnoGAN编码器中加入基于通道注意力的SENet，提取可见光图片的显著性信息，降低背景噪声干扰，从而使得网络能够聚焦杆塔检测；②提出了结合生成对抗网络的无监督学习和二分类器的有监督学习，综合无监督学习的特征提取优势和监督学习的判别优势，以弥补判别器检测效果不佳的缺点；③在改进的生成对抗网络基础上，通过借助基于迁移学习的优化训练策略进一步有效提升模型在大规模数据集上的泛化性能。最后，本文通过实验证明了改进模型的有效性和检测精度。

1 f-AnoGAN模型介绍

1.1 生成对抗网络

生成对抗网络（GAN）[19]是一种无监督学习模型，由生成器G和判别器D两部分组成。其中，G用于产生与真实图片分布接近的生成图片，D则用于分类真实图片和生成图片。其模型结构如图1所示。首先，固定G的参数训练D，将真实图片或生成图片输入D中得到判别损失，反向传播更新D的参数；然后，固定D的参数训练G，将满足高斯分布的随机噪声z输入生成器中得到生成图片，随后将带有真实标签的生成图片输入D得到判别损失，反向传播更新G的参数。二者迭代训练，对抗优化，直至产生以假乱真的生成图片。

图1 GAN模型结构 Fig.1 Model structureof GAN

GAN、生成器、判别器的目标函数分别为

式中，x为满足dataP或PG分布的向量；Pdata为真实图片分布；PG为生成图片分布；E为期望。GAN的优化目标是最小化生成图片分布和真实图片分布之间的KL（Kull-Leibler）散度；判别器的优化目标是最大化真实图片得分期望值且最小化生成图片得分期望值；而生成器的优化目标则是产生与真实图片分布相似的生成图片并期望判别器给出较高的得分。二者交替训练直至模型收敛，最终达到纳什均衡。

1.2 f-AnoGAN模型

f-AnoGAN是一种基于GAN的无监督学习模型，用于判别图像是否异常。区别于异常生成对抗网络（Anomaly detection with Generative Adversarial Networks, AnoGAN），该模型在生成器前引入了编码器，使得图片能够快速映射得到潜在空间中的特征表示，舍去了推理阶段通过不断迭代优化来寻找最佳映射的过程，极大地提升了检测速度。此外，由于GAN中的KL散度无法衡量两个不重叠分布之间的距离，因此f-AnoGAN引入了带梯度惩罚的Wasserstein 生成对抗网络（Wasserstein Generative Adversarial Network with Gradient Penalty, WGAN-GP），即

式中，前两项的组合为WGAN损失，后一项为梯度惩罚损失。Ppenalty为位于真实图片分布与生成图片分布之间的惩罚分布；∇xD(x)为判别器的梯度；α为权衡参数。用Wasserstein距离代替KL散度，并在损失函数中加入梯度惩罚来平滑目标函数，解决了GAN中训练不稳定、模式崩溃、梯度消失等问题。

在f-AnoGAN中，编码器损失函数EL由图片重构损失和特征残差损失两部分组成。

式中，前一项表示图片重构损失，后一项表示残差损失。G为生成网络；x为原始图像；为经过编码网络后的特征向量；nd为经过判别器中间层后的向量长度；f为非线性函数；n为原始图像大小；λ为超参数。

2 基于SE-f-AnoGAN的无人机电力杆塔巡检图像异常检测

2.1 SE-f-AnoGAN网络结构

本文在f-AnoGAN的基础上，提出了用于无人机电力杆塔巡检图像异常检测的SE-f-AnoGAN。SE-f-AnoGAN模型结构如图2所示，SE-f-AnoGAN模型由基于通道注意力的编码器、生成器、判别器和二分类器构成。具体包括卷积层（Conv）、二元自适应均值汇聚层（AdaptiveAvgPool2d）、全连接层（Dense）以及批量归一化操作（Batch Normalization, BN）。其中，BN用于解决卷积层和全连接层中的内部协变量偏移（Internal Covariate Shift, ICS）问题，避免前层网络参数的微小变化对后层参数产生较大的影响，从而使得网络难以训练。二元自适应均值汇聚层可根据输入输出数据的大小，实现卷积核大小和步长的自适应计算，进而提升网络优化效率。此外，在二分类器中引入残差单元可解决网络退化问题，并在一定程度上有效减少网络参数，提高训练效率。网络使用的激活函数包括线性整流函数（ReLU）、带泄露线性整流函数（LeakyReLU）、双曲正切函数（Tanh）和逻辑斯谛函数（Sigmoid）。网络具体参数见表1。

2.2 基于通道注意力的编码器

图3为基于t分布随机邻域嵌入（t-Distributed Stochastic Neighbor Embedding, t-SNE）[26]算法对电力杆塔图像进行降维后的二维散点分布图，图中红点表示正常杆塔，绿点表示异常杆塔。从图中可以看出，二者存在部分重叠，且异常杆塔在二维空间中的分布较为分散，说明杆塔图像背景复杂，降维后的杆塔特征不突出，直接采用非线性降维算法在低维空间中不具备良好的可分性。此外，由于自编码器（Autoencoder, AE）本身是一种有损压缩算法，若采用该模型进行降维，可能会出现信息丢失，导致无法准确重构图像。

图2 SE-f-AnoGAN模型结构 Fig.2 Model structure of SE-f-AnoGAN

表1 SE-f-AnoGAN网络参数 Tab.1 Parameters of SE-f-AnoGAN

图3 基于t-SNE的电力杆塔图像降维散点图 Fig.3 Scatter plot for dimensionality reduction of power tower images based on t-SNE

基于上述两方面原因，本文借鉴注意力机制思想，在f-AnoGAN的编码器中引入基于通道注意力的压缩激活网络（Squeeze-and-Excitation Network, SENet），通过聚合空间信息扩大感受野，从全局角度捕获高维特征图中各个通道的重要信息。改进后的编码器如图2左上角所示，主要包括两部分：①编码网络：将编码器中原第1、2层中的全连接层替换成卷积层，加深数据维度，增强特征提取能力，提高运算速度；在卷积层后接入批量标准化层，使每一层网络的输入都保持相同分布，从而避免激活函数值落入梯度饱和区域，造成网络难以训练。②通道注意力：不同于以往对不同通道进行特征融合的方法，SENet采用特征重标定策略，让神经网络自动学习各个通道中的关键信息，根据权重大小来抑制背景噪声并突出杆塔区域。

SENet网络结构如图2左下角所示，由压缩（Squeeze）、激活（Excitation）、权重分配（Reweight）三部分构成。首先进行如式（6）的压缩操作。

式中，W1和W2为全连接层的权重参数；z为特征图通道语义信息值。其中，第一个全连接层用于压缩特征图通道数量，减少运算量，并将结果输入ReLU激活函数中进一步提升非线性；第二个全连接层则用于将压缩后的特征图恢复至原始空间维度，然后用Sigmoid函数对通道的权重进行归一化。最后是权重分配操作，将经过激活操作后得到的权重与原始图像逐通道相乘，完成对不同通道特征的重新标定[27]

式中，sc为第c个通道的权重；uc为第c个通道的特征图；xc为第c个通道提取到的显著特征图。

2.3 结合监督学习和无监督学习的异常检测

由于生成对抗网络的训练目标是让生成器能够产生尽可能真实的正常图片，而不是判别器能成功判别正负样本，这导致判别器不能直接作为性能良好的二分类器[19]。而基于监督学习的二分类器可以借助标签信息为网络提供有效的梯度，在训练中使模型参数达到最优，最终具备良好的分类性能。基于上述分析，本文在2.2节的基础上，提出了结合生成对抗网络的无监督学习和二分类器的有监督学习，充分利用无监督学习的特征提取优势和监督学习的判别优势，既能重构出较为理想的正常样本图片，又能训练得到检测精度较高的二分类器，弥补判别器在分类任务上的不足。本文使用经判别器倒数第二层提取到的真实图片与生成图片的特征差作为二分类器的输入，进一步增加两类数据的分布距离，并以最后一层全连接层输出的结果作为异常分数。二分类器采用交叉熵作为损失函数，通过监督学习不断优化分类器参数。

2.4 基于迁移学习的参数初始化

虽然SE-f-AnoGAN能成功判别小样本数据集，但对于大规模数据集中的多种倾斜姿态杆塔的判别性能会有所下降。其主要原因是用于训练二分类器的正负样本数量较少且不均衡，导致复杂模型仅能较好地拟合少量训练样本而预测新样本的能力较弱。为此，本文采用迁移学习[28-29]方法对二分类器进行参数初始化，借助源域中已提取到的特征进一步展开参数微调，这有助于降低模型参数发生严重偏移的风险，并提升模型找到最优解的可能性。具体做法为：利用通用手写数字数据集（MNIST）训练本文提出的SE-f-AnoGAN模型，得到具备一定异常检测能力的二分类器。其中，标签为“1”的数字作为正常样本，其余类别的数字作为异常样本。然后采用少量不均衡的正常异常杆塔图片对得到的二分类器进行参数微调。

2.5 算法流程

SE-f-AnoGAN的训练流程如图4所示。

（1）使用无人机采集的正常电力杆塔图片训练WGAN-GP模型。由于生成器的权值更新由判别器决定，为了训练得到高质量生成器，迭代训练多次判别器后再进行一次生成器训练，最后保存模型参数。

（2）固定WGAN-GP参数，使用经归一化处理后的正常电力杆塔图片训练编码器，并保存编码器的参数。其中编码器、生成器、判别器共同构成了特征提取网络，用于学习正常杆塔的数据分布。

（3）采用迁移学习方法，先用f-AnoGAN提取MNIST数据集的特征，经过判别器倒数第二层后获得真实图片和生成图片的一维特征，将两者特征相减并调整大小为16×16的二维矩阵，输入到二分类器中进行优化训练，最后保存二分类器参数。

（4）固定步骤（2）中训练得到的f-AnoGAN参数，并用步骤（3）中模型收敛后的权重来初始化二分类器参数，然后采用少量不均衡的正负样本对其进行参数微调，最后二分类网络的输出结果即为异常判别分数。

（5）确定异常类别的判别阈值，并基于该阈值输出判别结果。异常阈值设定方法参考文献[30]中平衡点的计算方法：首先计算异常分数的受试者工作特性（Receiver Operating Characteristic, ROC）曲线与直线y=-x+1的交点，作为真阳率和假阳率达到相对最佳时的平衡点，通过该点计算区分正负

式中，uc(i,j)为第c个通道特征图上(i,j)位置处的像素值；H、W分别为特征图的长和宽；zc为第c个通道的全局平均池化结果；Rc表示所有通道特征图实数集。

然后是激活操作，引入两个全连接层来自动学习不同通道的权重。样本的异常分数阈值。若输出分数大于阈值，则为异常样本，反之为正常样本。

图4 SE-f-AnoGAN的训练流程 Fig.4 Training flow chart of SE-f-AnoGAN

3 实验结果与分析

3.1 实验数据集

为了验证SE-f-AnoGAN的有效性和检测精度，本文基于无人机电力杆塔巡检图像开展了实验研究。数据来自多旋翼无人机在巡线模式下拍摄的电力杆塔图片，如图5所示。由于原始图片像素尺寸较大，从中裁剪出包含杆塔的最小闭包框，并调整图片大小为28×28像素。数据集由训练集、测试集以及分类集组成。其中，训练集中包含4 416个正常样本，用于学习正常样本特征分布；测试集分为小规模和大规模数据集，其中，小规模数据集中包含222个正常样本和45个异常样本，大规模数据集中包含4 633个正常样本和3 510个异常样本，用于检测逐步改进后的模型性能；分类集中包含370个正常样本和279个异常样本，用于微调经过迁移学习后的二分类器模型参数。此外，对图片随机水平翻转进行数据增强，并对RGB三个通道分别归一化至[-1,1]，使原始图片满足正态分布，减小后期训练中因特征量纲不同对模型训练造成的影响。

图5 正常与异常杆塔样本 Fig.5 Normal and abnormal power towers

3.2 生成对抗网络的训练结果

图6分别描述了判别器、生成器的目标函数曲线以及编码器的损失函数曲线在训练过程中的变化情况。其中，编码损失函数中的λ=0.01，WGAN-GP中的α=10。可以发现，判别器的目标函数曲线呈上升趋势，表明判别器正朝着最大化目标函数的方向优化；生成器的目标函数值起初迅速下降，随后在上下波动中收敛；编码器的损失值则随着不断迭代训练，最终保持小幅波动。上述变化均与1、2节的理论分析一致。

图6 SE-f-AnoGAN训练损失值 Fig.6 Training loss of SE-f-AnoGAN

为了对比WGAN-GP与AE两种方法生成的图片质量，本文对生成图片进行了可视化，分别在不同迭代次数下随机输出25张图片，结果如图7所

示。在AE模型中，随着迭代次数的增加，部分图片可以被完整重构，但仍有一半的图片较为模糊，只能看到白色杆塔轮廓和绿色背景阴影，这验证了自编码器是一种有损压缩算法，降维后的隐向量丢失了图片中的一些细节，导致在重构时无法复现部分图像的原始特征。而在WGAN-GP模型中，随机生成的图片与数据集中的图片特征相似，但并不完全一样，图片多样性提高了。尽管部分图片的分辨率欠佳且网络收敛速度较慢，但相比于AE，能够显示更多细节，说明WGAN-GP模型可以提取到正常样本的关键特征。

图7 重构图片可视化 Fig.7 Visualization of reconstructed images

3.3 不同模型评估结果

基于第2节所述方法，在不同数据集规模下初步测试了模型改进前后的性能，并在图8中以异常分数统计直方图的形式直观地显示了正负样本的异常分数分布差异。直方图纵轴高度表示对应异常分数下样本出现的频率，其绘制方法如下：首先，根据所有样本异常分数的取值范围进行等间隔分段，然后统计落入每个间隔的数量，并保证。其中，N为分段总数，hi为第i个间隔对应的高度，ix为第i个间隔大小。此外，为了方便比较正常与异常样本的分布情况，将异常样本（橙色）叠加在与其同一异常分数的正常样本（蓝色）高度之上。

图8 不同模型的异常分数统计直方图 Fig.8 Anomaly score statistical histogram of different models

由图8a和图8c可以发现，原始f-AnoGAN网络由于受自身网络结构限制，并不适用于光谱复杂、波谱宽度较大的可见光图像，正常样本与异常样本的分布几乎重叠在一起，模型无法区分正常样本与异常样本。而比较子图8b和图8d可知，SE-f-AnoGAN网络能够扩大正常样本与异常样本的分布距离，提升了模型的判别能力，这种性能提升在小规模样本测试集上更为显著。而在大规模测试集上，两类分布之间的距离虽有增大，但仍存在部分重叠。通过引入迁移学习，如图8e所示，SE-f-AnoGAN在图8d的基础上进一步拉大了正负样本之间的距离，在大规模测试集下依然可以成功分离正常与异常样本。

为进一步分析第2节提出的三种改进策略，本文采用平均精度（Average Precision, AP）、曲线下方面积（Area Under Curve, AUC）、受试者工作特征（ROC）曲线依次评估了逐步改进后的模型性能。计算方法如下：对每个样本的异常分数进行排序，然后逐样本取正例，计算对应的混淆矩阵。根据混淆矩阵，真阳率（True Positive Rate, TPR）、假阳率（False Positive Rate, FPR）、精确率（Precision）和召回率（Recall）为

式中，TP为真阳数；FP为假阳数；FN为假阴数；TN为真阴数。将每个（TPR，FPR）坐标点绘制在图中，然后连接这些点构成ROC曲线，曲线越靠近左上方，模型性能越好。AUC值为ROC曲线与两坐标轴所围成的面积。PR曲线绘制方法同理，连接每个（Recall，Precision）坐标点构成PR曲线。AP值等于PR曲线下方的面积。

将小规模和大规模测试集分别输入到不同模型中，得到ROC曲线如图9所示。从图9a中可以看出，同时添加SENet和二分类器的模型，其ROC曲线位于原始f-AnoGAN和仅考虑SENet模型曲线的左上方且曲线下方面积更大，初步证明了本文提出的SE-f-AnoGAN模型的有效性。但随着测试集规模扩大，如图9b中的黑色曲线所示，ROC曲线下方面积减小，模型性能下降。当引入迁移学习后，ROC曲线向左上角膨胀，曲线下方面积增大，表明引入迁移学习并微调的策略可以增强SE-f-AnoGAN的鲁棒性。

图9 小、大规模数据集下不同模型的ROC曲线 Fig.9 ROC curves of different models with small and large datasets

图10则从混淆矩阵的角度分别展示了小规模和大规模测试集上正常与异常样本的分类准确率。由图10a、图10b、图10c中可以发现，在小规模测试集下，原始f-AnoGAN可以检测出绝大多数正常样本，但对异常样本的检测结果较差。当在模型中逐步加入SENet和二分类器后，异常样本的召回率分别提升了31%和53%。而在大规模测试集下，如图10d、图10e、图10f所示，原始f-AnoGAN相比于小规模测试集上的结果，其正常样本的召回率下降了46%，异常样本召回率虽稍有提升，但仍然低于50%。采用本文提出的SE-f-AnoGAN模型并引入迁移学习后，正负样本的召回率相较改进前均有大幅提升，分别达到96.05%和95.36%，总体样本的检测准确率可达到95.74%，详细结果见表2。

图10 小、大规模数据集下不同模型的混淆矩阵图 Fig.10 Confusion matrix of different models with small and large datasets

表2 不同模型的正负样本召回率和准确率 Tab.2 Recall and accuracy of different models for positive and negative samples

最后，本文定量评估了三种改进策略对模型性能的提升，结果见表3。在小规模测试集实验中，模型2相比模型1的AUC值提高了0.258 6，AP值提高了0.318 9，这表明SENet在一定程度上可以降低背景噪声的干扰，从而聚焦杆塔检测，提升模型性能。模型3在模型2的基础上加入了二分类器，其AUC值和AP值分别达到0.997 3和0.985 7，相较于模型1和2有了大幅提升，说明本文提出的结合生成对抗网络的无监督学习和二分类器的有监督学习对异常检测是有效的。在大规模测试集实验中，通过对比表3中第1、4行与第3、5行的结果，可以发现模型1、3的AUC值分别下降了0.083 3和0.110 8，说明模型1、3的泛化能力有限，更适用于特定的小数据集。而模型4在模型3的基础上引入了迁移学习，结果显示采用迁移学习训练的SE-f-AnoGAN的AUC值和AP值均接近1，表明迁移学习可以有效解决少样本、多参数带来的过拟合问题，从而进一步提升模型性能。