基于可见光与红外图像融合的目标跟踪技术研究

2023-01-11邢静刘小虎

电子制作 2022年22期

邢静，刘小虎

（西安培华学院智能科学与信息工程学院，陕西西安，710125）

0 引言

由于可见光图像的跟踪在光照条件变化大或光照条件差的时候不可靠，而红外图像通过检测物体的热信息来跟踪目标，对光照条件要求较低，因此，红外图像可以为可见光图像提供补充信息[1]。红外成像的图片由于低解析度和粗糙的纹理，在特定的条件下进行对象跟踪也是不可靠的。因此，现在着重于将可见光和红外图像结合到一起来克服单模态方法的局限性。可见光与红外图像融合的目标检测跟踪技术，已经被各国普遍地应用于打击犯罪、城市规划、体育赛事转播、安防监控、商业领域、无人车、无人机、机器人等方面。但是，对每个模态可靠性的度量、多模态的校准、如何生成有效的联合特征、计算成本可是否偏高，能否满足实时跟踪的要求，这些因素给我们的研究带来了挑战。如何实现可见光与红外图像的融合，并对目标进行准确的检测与跟踪是目前研究处理的热点和难点。

1 主要方法

对可见光与红外图像融合的目标检测跟踪技术，可以根据聚合的层级将聚合方法进行划分为像素级融合跟踪、特征级融合跟踪和决策级融合跟踪。除了根据融合层级对聚合方法进行分类，还可以根据方法的类型对聚合方法进行分类，划分为传统方法、多尺度变换、稀疏表示、图、深度学习和相关滤波器的方法。对可见光与红外图像融合的主要方法如图1所示。下面将对这些方法展开详细叙述。

图1 可见光与红外图像融合的主要方法

1.1 传统跟踪方法

传统跟踪方法利用了手工制作的特征，例如颜色直方图、HOG、SIFT、ORB和LBP。此外，在这些方法中，采用了传统的跟踪技术，如卡尔曼滤波、粒子滤波和均值漂移等进行跟踪。但是这些方法有较大的局限性。首先，跟踪中使用的特征是手动提取或设计的，这在许多情况下可能无效。到目前为止，已经可以证明手工制作的特征存在较大的局限性。因此，这些跟踪器无法很好地处理跟踪过程中的一些难题，例如规模变化和快速运动。其次，上述方法在计算上比较昂贵，尤其是基于粒子滤波器的方法。而且传统的跟踪方法都不能满足实时性要求。最后，上述方法通常只是使用几个甚至一个视频来测试所提出的算法，不足以全面评估处理不同挑战的性能。

1.2 基于多尺度变换的方法

多尺度变换的原理是把采集的原始图片分解为各种不同尺度的分量，每个分量代表不同尺度的子图像，而通常真实场景中的对象包括各种尺度的分量。文献表明，人类视觉特征与多尺度变换是基本一致的，同时这些特征会使融合后的图像具有出色的视觉效果[4,8,9,10,11,12]。

多尺度变换的融合方法一般需要三步：(1)用不同尺度来表示每个原始图像；(2)把各种不同尺度表示的原始图像按照给定的规则进行融合；(3)通过逆尺度变换来得到融合图像。选择合适的变换和融合规则是基于多尺度变换融合的关键所在[4,8,9,10,11,12]。

图2 多尺度变换原理图

基于多尺度变换的方法是图像融合中最活跃的领域，它假定图像将由不同颗粒中的各个层表示。这些方法将源图像分解为多个级别，将特定的图层与特定规则融合在一起，并相应地重建目标图像[4,8]。

1.3 基于稀疏表示的方法

稀疏表示能够表征人类的视觉系统，有效地抑制噪音和错误。它也能被用于可见光与红外图像融合的跟踪算法中，因为它有助于生成有效的联合特征。然而，一些基于稀疏表示的方法没有考虑模态的可靠性，因此当个别模态出现偶然扰动或故障时，算法的表现可能会被限制。

基于稀疏表示的融合跟踪的最大缺点是效率。几乎所有的稀疏表示融合跟踪算法都不能满足实时性要求，这可能是因为在线优化在基于稀疏表示的方法中很耗时。基于稀疏表示的融合跟踪的原理图[9]如图3所示。

图3 基于稀疏表示的融合跟踪的原理图

1.4 基于图的方法

在基于图的方法中，可见光和红外图像都应该用图表示，并且必须建立可见图和红外图之间的特定关系。这种关系和权重是基于图的方法的关键点。该方法的主要目的是抑制可见光和红外图像融合跟踪中的背景效应，从而获得更好的特征表示。此外，通过考虑前景的块权重，将可见光图像和热力特征进行连接。但是，该方法有两个缺点。首先，它在计算跨模态一致性时没有考虑模态权重。这意味着该方法在跟踪过程中无法区分更可靠的模态，因此会受到单个源的成像限制的影响。其次，它的速度极低，不满足实时性的要求。

1.5 基于深度学习的方法

近年来，深度学习已在计算机视觉，模式识别和图像处理等各个领域展示了最先进的性能。深度学习具有对数据之间的复杂关系进行建模的强大功能。此外，深度学习无需人工干预即可自动从数据中提取独特的功能。基于深度学习的方法学习到的特征更有效、更稳健，因此有利于跟踪问题。基于深度学习的方法是当前领域的主流方向，但是它的主要问题是计算成本。因此必须采取措施降低计算成本，从而使基于深度学习的融合跟踪器更快。

1.6 基于相关滤波器的方法

相关滤波器是一类分类器，用于最优化及在相关输出中产生峰值，主要是为了实现场景中目标的准确定位。基于相关性过滤的跟踪算法高效、准确，因此虽然对于基于相关滤波器的可见光与红外图像融合跟踪方法的研究处于刚刚起步的阶段，但由于相关滤波器高效、准确的优势，使其未来的发展值得期待。

1.7 像素级融合跟踪

像素级融合跟踪，是指首先融合不同模态的图像以产生更多信息的图像，然后基于这些融合图像进行目标跟踪[5]。这个方法易于实现，但是它保留了原数据源中最多的信息，因此非常耗时而且会显著地降低整个跟踪算法的速度[7]。像素级融合跟踪原理图如图5所示。

图4 基于特征级深度学习的可见光与红外融合跟踪算法的框架[9]

图5 像素级融合跟踪原理图[7]

1.8 特征级融合跟踪

该方法首先提取可见光图像和红外图像的特征，然后按照设计的融合规则进行融合，得到融合特征[6]。融合特征会被跟踪任务使用。该方法直接构造了多模态的特征，因此比像素级融合跟踪更加直接。特征级融合跟踪原理图如图6所示。

图6 特征级融合跟踪原理图[6]

1.9 决策级融合跟踪

决策级融合跟踪，又被称为聚合前跟踪的方法，对不同的模态分别运行跟踪算法，最后将跟踪的结果融合得到最终的结果。该算法有一些优势。首先，非常灵活，可以选择不同的跟踪器分别基于可见光和红外图像进行跟踪。大多数决策级融合跟踪方法唯一需要的是目标周围的边界框。其次，与像素级和特征级融合跟踪方法相比，它的计算成本通常更低。因此，其跟踪速度可能比像素级和特征级融合跟踪方法更快。此外，决策级融合跟踪对可见光和红外图像的配准要求较低。决策级融合跟踪原理图如图7所示。

图7 决策级融合跟踪原理图

2 常用几种方法的特点及发展趋势

传统方法利用了手工制作的特征，因此无法处理跟踪过程中的快速运动等问题，且计算成本较昂贵，难以满足实时性要求；基于多尺度变换的方法，依赖于预定义的变换以及用于分解和重建的相应级别，但是，没有标准用于评估这些转换和级别，从而容易降低性能；稀疏表示方法能有效抑制噪声，可靠性高，但效率极低；基于图的方法能抑制背景效应，但会受到单源成像限制影响，且实时性低；深度学习方法比较稳健、有效，但是计算成本过高；相关滤波器方法高效、准确，但发展相对缓慢。

图8 可见光与红外融合跟踪技术的发展趋势

3 总结

可见光与红外融合的跟踪方法，关键是要针对图像特征、成像机制等特点，同时考虑计算鲁棒性、实时性和成本等要求，合理地选择跟踪方法，以求得到最好的性能。无论是传统方法、稀疏表示、图表示等经典方法，还是深度学习和相关滤波器等新兴的方法，通常都是使用单一方法进行跟踪过程。因为每种方法都有各自的局限性。所以不能达到很好的效果。可见光与红外融合的跟踪技术未来的发展趋势是利用多种跟踪方法相结合，优势互补，从而最大限度地提升性能，提高系统的鲁棒性与实时性。