基于ResNet 模型的回环检测算法

2022-07-29党淑雯

智能计算机与应用 2022年8期

陈勇，党淑雯，聂铃

（上海工程技术大学航空运输学院，上海 201620）

0 引言

随着人工智能的发展，移动机器人已成为热门研究课题。为实现自主导航任务，移动机器人需要执行实时定位、路径规划等操作，在此过程中即时定位和建图（SLAM）起着至关重要的作用。按传感器不同，SLAM 可分为激光SLAM 和视觉SLAM。由于RGB-D 相机的更新换代，兼且还具有体积小、重量轻、造价低廉等诸多优点，就使视觉SLAM 引起了学界的广泛关注与浓厚兴趣。回环检测作为视觉SLAM 的关键组成部分，可以识别机器人以前经过的地方，从而减少机器人移动过程中产生的累积误差。现有的回环检测方法可以分为基于图像特征和基于外观不变性两种。其中，基于外观的回环检测目前获得了较为广泛应用，该方法从本质上比较了视觉系统中2 幅相邻图像之间的相似性。

在基于外观的方法中，较为通用的是基于词袋模型的回环检测算法。基于词袋模型的回环检测算法的主要运行步骤是：首先利用算法（SIFT、SURF、ORB ）从采集到的环境信息中提取特征向量作为“单词”，即通过提取图像中具有局部不变的特征点作为视觉词汇；其次，根据K 均值聚类算法与相近的单词结合构成词表，并分组到一个词典中；最后，统计单词在采集环境信息中出现的次数，用维数值向量表示图像。但BOW 模型中手工标记的特征有一定局限性，即这些特征忽略了图像中的一些有用信息，因此可能会产生精度较低的回环检测。

1 基于ResNet 模型的回环检测算法

虽然传统的回环检测算法能在视觉SLAM 系统中检测出回环，但需要经过大量训练来提取特征，且在不同场景下准确率较低。近些年，研究人员尝试将神经网络应用于计算机视觉领域，且有大量实验已经证明了在计算机视觉中神经网络有着良好表现。Lecun 等人将卷积神经网络（CNN）应用于视觉中。实验证明，CNN 能有效提取特征，应用深度学习网络，能成功检测出视觉SLAM 的回路，为解决回环检测问题提供了一种选择。Gao 等人提出了一种基于良好训练的神经网络的深度特征提取方法。但该方法训练整个网络耗时长、效率低，不适用于实时的SLAM 系统。Hou 等人使用一个预先训练过的CNN 模型，生成一个适合于视觉SLAM 中的回环检测的图像表示。结果表明，Conv3 和Pool5 的性能最佳。但该模型CNN 描述符的维度非常高。Xia 等比较了数种 CNN模型（PCANet、CaffeNet、AlexNet、GoogLeNet）和传统方法（BoW、GIST）在回环检测中的性能。结果表明，该CNN 模型能更好地适用于回环检测。但是，由于模型中使用支持向量机（SVM）来检测循环，不能很好地满足视觉SLAM 系统中实时性要求。Zhang 等人使用一个开源预训练的CNN 模型、即OverFeat 来提取特征。近年来由于需要大量的标签来训练数据，所以就很少用到该CNN 模型。

针对上述算法存在的问题，本文提出了基于ResNet 模型回环检测算法。总体流程如图1 所示，算法实现步骤如下：

图1 算法流程图Fig.1 Flow chart of the algorithm

（1）根据选取策略，筛选关键帧集。

（2）通过预先训练好的ResNet 模型，提取筛选出的关键帧集特征，生成高维特征向量。

（3）利用PCA 白化来降低向量的维数，提高检测效率。

（4）通过计算特征向量间的欧式距离，再计算相似矩阵，验证回环的准确率。

1.1 关键帧筛选策略

由于移动机器人在运动过程中拍摄的连续帧存在较多冗余信息，造成计算资源浪费，因此引入关键帧很有必要。选择合适的关键帧，能有效提高定位和建图的精准性和实时性。常见的关键帧筛选方法有：根据时间间隔对数据帧进行采样、根据空间距离对数据帧进行采样、根据图像相似性进行采样等。以上这些方法都是使用单一准则来筛选关键帧，无法适应不同的环境变化，因此关键帧倾向于多重融合选择。

本文通过设定相对运动量来筛选关键帧，具体步骤如下：

（1）关键帧集合，第一帧、即为，将其归入集合。

（2）对于新的一帧F，计算中最后一帧与F的运动，并估计其运动的大小。若≥，则表明2 帧运动变化大，离得较远，应剔除；或≥，则表明2 帧运动变化小，离得太近，应剔除。这里，表示2 个相邻帧的运动量，、为设定的阈值。只有2 帧的运动估计正确、能匹配，且两者存在一定距离，则把该帧F加入到关键帧集合中。对应数学模型可表示为：

其中，，，表示帧间的三轴方向的旋转量；，分别表示平移所占的权重和旋转所占的权重；是2 帧间的平移量。

1.2 ResNet 网络模型

2015 年，何凯明团队提出ResNet 网络。该网络的发现不仅影响了学术界和工业界深度学习的发展方向，且在图像检测、图像分割和图像识别等领域获得广泛应用。ResNet 网络结构如图2 所示。基本设计原理是通过残差结构来解决神经网络中出现的退化和梯度消失问题，提高了整个网络性能，且在ImgeNet 数据集上获得了良好的分类结果。

由图2 可知，当输入后，输出为：

其中，表示非线性函数。

通过一个捷径（shortcut），和图2 中的第2 个相结合，最终输出：

图2 ResNet 网络结构图Fig.2 ResNet network structure

当需要对输入和输出维数进行变化时（如改变通道数目），可以在通过“捷径”时，对加以线性变换，数学公式具体如下：

1.3 PCA+白化降维算法

研究中，可以从预先训练过的网络模型中提取出整个图像特征，但却具有高维数。本文通过主成分分析（PCA）和白化算法进行降维，同时也降低了关键帧的冗余程度。

PCA 是可以提升无监督特征学习速度的数据降维算法。算法的设计原理是将维特征投影到维（）。输入样本集，，…，x，使其映射到空间，并实施中心化，选取个最大特征值，输出映射矩阵。中心化时需用到的数学公式为：

降维后，通过白化算法对每一维除以其标准差，公式如下：

1.4 相似度计算

通过降维处理后的CNN 特征，使用欧氏距离来计算图像和之间的差异。并绘制相似矩阵图，用于度量图像之间的相似度。欧式距离公式如下：

计算图像和之间的归一化相似性：

通过定义相似度矩阵，可以度量图像之间的相似度。相似度矩阵示意如图3 所示。由图3 可知，矩阵的每一行都包含相似度的值，其范围为（0，1）。不同的值用不同的颜色表示，值越高，图像间的相似性就越高。若值为1，则表示检测是一个循环闭合。

图3 相似度矩阵示意图Fig.3 Schematic diagram of similarity matrix

2 实验结果与分析

2.1 数据集

实验测试数据集为City Centre 和New College，即当机器人穿过室外城市环境时，每1.5 m 用摄像头采集一次图像，照明条件稳定。这2 个数据集分别是1 237 对和1 073 对图像，数据集的更多细节见表1。

表1 数据集参数Tab.1 Data set parameters

2.2 不同模型相似性矩阵对比实验

本文使用预先训练过的ResNet50、ResNet101和ResNet152 模型来提取特征。根据公式（8），可以计算出图像的相似得分，并求出相似性矩阵。研究中得到的基于ResNet 50 网络模型的回环检测算法的相似矩阵图和Ground Truth 图即如图4 所示。图4 中，Ground Truth 图是相似矩阵图的“掩码”。

图4 基于ResNet50 网络模型的回环检测算法的相似矩阵图和Ground Truth 图Fig.4 Schematic diagram of similarity matrix and Ground Truth based on ResNet50 network model

由图4 中可知，较冷的颜色对图像对的相似程度较小，而较暖的颜色对图像对的相似程度更高。图4 表明，该方法在检测大部分回路方面是可行的，且ResNet50 网络优于其它网络。

2.3 不同算法准确率-召回率曲线对比实验

为评估算法在回环检测中的性能有效性，将本文改进算法与其它算法进行准确率（）和召回率（）计算，并通过准确率-召回率曲线进行衡量。这里，准确率是指算法得出的结果中真阳性与结果中所有回环的概率；召回率是指结果中为真阳性与检测的所有真实回环的概率。研究推出的数学定义式如下：

其中，表示真阳性；表示假阳性；表示假阴性。

实验选用New College 数据集，通过将本文算法与经典算法FAB-MAP、SDA 以及词袋模型算法进行对比试验，得出的精度-召回率曲线如图5 所示。

图5 不同算法的准确率-召回率对比图Fig.5 Comparison of precision-recall results of different algorithms

由图5 可知，算法性能和该算法与、轴围成的面积成正比。本文算法围成的面积比其它算法都大，验证了本文算法的鲁棒性好。其精确值在召回率大于0.55 的情况下，达到最高水平。随着轴数值变大，仍能保持准确率数值缓慢下降。本文算法在总体上比另外3 种算法的回环检测效果都要好。

3 结束语

本文针对回环检测中存在的一些问题，提出了一种基于ResNet 模型的回环检测算法。首先对预先训练的卷积神经网络模型（ResNet50、ResNet101、ResNet152）进行性能对比，其次通过改进关键帧的选取策略，将筛选出的关键帧输入预先训练好的CNN 模型（ResNet-50），生成高维特征向量，并利用主成分分析（PCA）白化来降低特征向量的维数。最后，利用相似度矩阵检测数据集中可能出现的回环。本文通过对比实验结果可知，ResNet-50 模型相较其它对比模型性能更好，且本文算法对回环检测是可行的。然而，在实时SLAM 系统中应用深度神经网络仍然存在一定不足，有待下一步的研究解决。