基于深度学习的电力设备红外可见光图像智能配准方法研究

2022-08-30白德盟刘晓东张利孟丛培强

山东电力技术 2022年8期

林颖，刘萌，白德盟，刘晓东，张利孟，丛培强

（1.国网山东省电力公司电力科学研究院，山东济南 250003；2.国网山东省电力公司日照供电公司，山东日照 276800；3.国网威海市文登区供电公司，山东威海 264400）

0 引言

红外检测技术作为一种常见的带电检测手段，可以有效发现设备内部的缺陷问题，及时对缺陷进行处置［1］。近年来，随着人工智能技术的飞速发展，基于人工智能图像处理技术的红外图像缺陷分析，在电力系统中的应用越来越多［2］。

当前的大多数红外热像仪可同时采集红外图像与可见光图像。红外图像记录的是物体的辐射信息，能够直接反映变电设备及环境的温度，便于发现因电流致热等导致的过热缺陷。但红外图像是基于温度信息显示的，当设备部件具有相近温度时，难以与前景区分。与之相反，可见光图像记录的是物体的反射信息，能够清晰地呈现设备的外观及轮廓，便于定位设备部件或发现可视缺陷。因此，将红外图像与可见光图像进行融合分析，可以有效利用两种模态的优点，从而提高设备定位的精度和缺陷诊断的准确度。

然而，由于红外镜头与可见光镜头所在位置不同，并且两者的焦距、图像分辨率及畸变参数等不同时，同一红外热像仪采集的两种模态图像之间存在偏移、缩放等形变问题。将红外图像与可见光图像进行融合分析，首先需要对两种模态的图像进行准确配准。

现有的红外图像与可见光图像配准的方法大致可分为两大类：基于全局信息的方法和基于局部特征的方法［3-8］。基于全局信息的方法包括互信息法、变换域分析法和梯度图像相关法等［3，8］，利用优化全局目标函数进行配准，其算法复杂度高。因此在实际使用中，该类方法常采用金字塔模型来提升速度。基于局部特征的方法利用稀疏的特征如点、线特征等进行配准［8-10］。该类方法通常包含特征提取、特征匹配、和变换参数估计等步骤，算法的计算复杂度相对较低。在现有方法中，局部特征最常使用的是SIFT、SURF 等人工设计的点特征［11-12］，这些特征虽然具有较好的尺度与旋转不变性，对单模态图像中的视角变化等亦具有一定的鲁棒性，但对红外图像与可见光图像等不同模态的变化，往往不够鲁棒。此外，在特征匹配中，通常采用最好优先（Best Bin First，BBF）策略等，这些策略在匹配时孤立地处理每个特征点，而忽视了邻近特征点的上下文信息，亦容易导致匹配错误。

针对上述问题，提出采用基于局部特征的方法进行红外图像与可见光图像的配准。针对人工设计的特征对模态变化缺乏鲁棒性的问题，提出采用基于深度自监督学习的SuperPoint 点特征提取与描述方法［13］；同时，采用基于深度图卷积网络的SuperGlue 匹配方法［14］，有效利用特征点的上下文信息，提高特征匹配的准确度。此外，在参数估计中，采用渐近采样一致性的PROSAC 方法［15］，相较于现有配准工作中使用的随机采样一致性方法RANSAC［16］，提升了参数估计的准确度。实验结果表明，对比现有的稀疏特征点提取与匹配算法，本文所设计方法对红外与可见光两种不同模态图像的配准，具有更好的鲁棒性。

1 红外图像与可见光图像配准算法

红外图像与可见光图像的配准方法涉及图像特征提取与描述、图像特征匹配、图像参数估计3 个关键步骤，整体流程如图1所示，主要包括以下步骤：

图1 红外-可见光图像配准流程

1）利用深度自监督学习的SuperPoint方法，对红外与可见光图像进行稀疏特征点提取，并对特征点进行描述；

2）利用深度图卷积网络的SuperGlue 方法对红外与可见光图像中的稀疏特征点进行匹配；

3）根据匹配的特征点对在两幅图像中的像素坐标，利用渐近采样一致性PROSAC 算法估计红外图像到可见光图像的变换参数；

4）根据变换参数，将红外图像的坐标变换到可见光图像坐标系下，实现配准。

1.1 SuperPoint特征提取与描述

鉴于人工设计的点特征提取与描述方法如SIFT、SURF 等对模态的变化缺乏鲁棒性，采用基于深度学习的SuperPoint 方法对红外图像与可见光图像两种不同模态图像进行特征点提取与描述。

SuperPoint 是由DeTone 等人在2018 年提出的一种基于自监督学习的深度特征点提取与描述方法［13］。其网络结构如图2 所示，由一个编码器和两个解码器构成。编码器是一个类似VGGNet［15］的卷积网络，包含多个卷积层和池化层，用于对尺寸为W×H的输入图像进行编码。两个解码器则分别用于特征点提取和特征点描述。其中，特征点提取解码器由卷积层、Softmax 层和Reshape 层构成，输出一张W×H× 1的图像，其中每个像素的值表示该像素是特征点的概率。特征描述解码器由卷积层、双线性插值层和L2 模归一化层构成，最后输出一张W×H×D的特征图，其中每个像素对应一个D维的特征向量。

图2 SuperPoint特征提取与描述网络

由于特征点的真值难以进行人工标注，该方法设计了一种不需要真值的自监督学习策略。首先，构建一个包含三角形、四边形、立方体、和棋盘格等简单形状的合成图像集，这些图像具有明确的角点信息。然后，对图像随机进行多种单应变换并加噪处理。由于这些单应变换是仿真生成的，所以变换后图像中的特征点位置可以准确获得。最后，利用各种仿真图像及其角点信息，对特征提取网络进行监督，学习得到MagicPoint 网络［17］。然后用该MagicPoint 对真实的图像进行标记，进一步训练得到SuperPoint网络。

1.2 SuperGlue特征匹配

鉴于现有的特征匹配方法多是对每个特征点独立匹配因此易导致错误的问题，受Transformer 的自图像以及跨图像间注意力机制的启发［18］，本项目采用基于深度图神经网络的SuperGlue 方法，利用特征点之间的空间几何关系，提升特征匹配的准确度。

SuperGlue是由Sarlin 与DeTone等人在2020 年提出的一种基于深度图神经网络的特征点匹配方法［14］。其网络结构如图3 所示，主要由注意力图卷积网络和优化匹配层两个模块构成。其中，注意力图卷积网络的输入为图像A和图像B中的特征点位置与描述向量的集合，输出空间信息聚合后的特征描述符。优化匹配层的输入为注意力图卷积网络输出的特征描述符，输出匹配结果。

图3 SuperGlue特征匹配网络

在此，我们对两个模块进行简要介绍。假设图像A和图像B的特征点总数分别为M和N。图像A中的特征点位置和描述向量记为：{，i=1，2，…，M}和{，i=1，2，…，M}；图像B中的特征点位置和描述向量记为：{，i=1，2，…，N}和{，i=1，2，…，N}。

在注意力图卷积网络中，首先将特征点的位置经过一个由多层感知器（Multilayer Perceptron，MLP）构成的特征点编码器进行升维，得到高维向量后与特征描述符向量进行相加，得到每个特征点的初始表示。即：

然后，构建一个多元图。该图的顶点为两幅图像中的所有特征点，边则包含图像内边和跨图像边两类。其中，图像内边连接的是单幅图像内的特征点对，而跨图像边则连接来源于两幅图像的特征点对。构建图后，利用消息传递机制对图中所有顶点的特征进行消息汇聚与更新。其更新方式为

式中：[ ·||· ]表示联结；mε→i为通过自注意力机制从图中所有其他节点传递到节点i的信息。通过信息聚合更新后，得到每个特征点的描述向量为

由此，每个特征向量汇聚了其所在图像内所有特征点和另一图像中所有特征点的空间和描述信息。

优化匹配层根据更新后的特征，计算一个M×N的相似度矩阵S，矩阵中的每个单元(i，j)表示的是图像A中的特征和图像B中的特征的相似度，即：

由于遮挡或视野范围不同等原因，一幅图像中的特征点在另一幅图像中可能不存在匹配的特征点。为此，将矩阵S扩展为(M+1)×(N+1)的矩阵，其中新增的一行与一列用来描述特征点不存在匹配的情况，即：

随即，特征点匹配的问题转化为了一个最优运输的问题，可利用Sinkhorn 算法进行求解。由于Sinkhorn 算法具有可导性，因此可以用一个网络层实现。

1.3 PROSAC变换参数估计

在得到红外图像与可见光图像中匹配的特征点对后，可根据特征点对所在的像素坐标，估算图像间的变换参数。由于红外镜头和可见光镜头之间的偏移相对拍摄的物体距离来说很小，因此可近似为共光心，利用单应性变换矩阵H，将红外图像变换到可见光图像的坐标系下。在齐次坐标系下，两幅图像中的像素坐标变换可表示为以下关系：

其中，单应性变换矩阵H中的h33=1。所以，变换矩阵的参数自由度为8，可利用四对或以上的特征点对进行估计。

由于存在匹配噪声甚至错误匹配的外点，因此常用最小二乘法或RANSAC 方法［18］等进行参数估计。然而，在RANSAC 中，每对特征点对同等对待，并且从整个特征点对的集合中随机选取样本，存在估算结果的随机性且收敛速度偏慢等问题。为此，本文采用PROSAC［15］算法进行变换参数的估计。

PROSAC 算法设计了一种半随机的方法，对所有匹配点对进行质量评价计算得到Q值，然后根据Q值降序排列，每次迭代优先在高质量点对中进行随机采样，进行模型假设与验证，从而降低算法复杂度，提升效率，并且避免了RANSAC 随机算法面临的无法保证收敛的情况。PROSAC 算法的步骤可分为以下几步：

1）利用半随机采样的方法，选择样本集；

2）根据选取的样本，计算变换矩阵H；

3）根据估算的变换矩阵H选择内点集；

4）判断收敛条件是否满足，若未满足，重复上述步骤；否则，返回估算结果。

2 实验分析

在自行采集的变电设备红外图像与可见光图像数据集上进行实验验证。首先，对本文采用的SuperPoint 特征点提取与描述方法与传统的SIFT 算法进行比较。然后，对本文采用的SuperGlue 特征匹配算法与传统的BBF 方法进行比较。最后，比较了使用最小二乘、RANSAC 和PROSAC 算法的参数估计结果。

2.1 特征点提取方法比较

首先，对本文采用的SuperPoint特征点提取方法和传统的SIFT算法在红外图像与可见光图像上的结果进行比较。如图4 所示，与SIFT 特征点相比，SuperPoint 提取的特征更多地分布在物体边缘或角点位置，具有更好的模态不变性。也因此在红外与可见光两种不同模态的图像中能够得到更多可匹配的特征点对。

图4 特征点提取算法比较

2.2 特征匹配方法比较

在SuperPoint 特征点提取的基础上，对所采用的SuperGlue 特征匹配算法与传统的BBF 算法进行比较。图5 展示了两种算法的匹配结果。从图中可以看到，SuperGlue 算法能够得到更多匹配的特征点对，匹配结果的准确性也更高。

图5 不同的特征匹配算法比较

2.3 参数估计方法比较

利用SuperPoint 特征点提取及SuperGlue 特征匹配得到的结果，采用PROSAC 方法对单应性矩阵的参数进行估计，后将红外图像转换到可见光图像坐标系下，并叠加在可见光图像上，得到如图6 所示的配准结果。为了展示PROSAC 方法的有效性，将其与最小二乘估计、最小中值估计及RANSAC 方法估计变换参数得到的配准结果进行比较。如图6 所示，PROSAC的方法较之其他方法，配准结果更加准确。

图6 不同的参数估计方法比较

2.4 更多结果展示

图7—图8 展示了更多的红外-可见光图像的特征点提取、匹配和图像配准的结果。从图中可以看到，对于不同角度拍摄的不同变电设备场景的图像，所采用的方法均能得到不错的特征点提取和特征匹配结果，并得到准确的图像配准结果。

图7 变电设备红外与可见光图像配准示例

图8 变电设备红外与可见光图像配准示例

3 结语

提出一种新的红外图像与可见光图像配准的方法，鉴于红外与可见光两种模态的差异性，采用基于深度自监督的SuperPoint 特征点提取与基于深度图卷积网络的SuperGlue 特征匹配方法，具有较好的模态鲁棒性。采用的渐近采样一致性PROSAC 方法亦得到了更准确的参数估计结果。

实验结果表明，所提方法相对于传统的方法，具有更好的性能。并且，对于所给样例中绝大多数不同角度拍摄的不同变电设备的图像，均能得到准确的配准结果。融合的图像中，既清晰地呈现了设备的外观形状，又体现了其温度信息，可用于在保证设备定位的精度的前提下，提升缺陷诊断的准确度。

本文工作的局限性为，所有基于深度学习的模块的训练是基于海量可见光图像对的，训练得到的模型具有足够的泛化性以及对切换到红外模态的鲁棒性使得我们得到了尚可的配准结果。但如果使用更具有针对性的基于红外图像和可见光图像对的训练数据集，使用相对较小规模的训练集就有望得到更好的结果。而这类数据集目前仍待进一步补充，同时在该类数据集上进行训练的方法仍待进一步研究。