图像拼接技术研究

2022-08-19潘志松罗健欣

信息记录材料 2022年6期

和青，潘志松，罗健欣

（陆军工程大学指挥控制工程学院江苏南京 210007）

0 引言

图像是人类获取信息最直接的方式，而在图像处理的各类研究中，图像拼接技术是一个重要课题。在研究项目或工程科学中往往需要用到超宽视角且具有高分辨率的图像，放眼当下的图像捕获技术，只能通过牺牲分辨率为代价调整相机焦距的方法获得具有大视角的全景图像，但是低分辨率的图像往往又难以满足工程项目或科学研究的要求。为获得具有较大的视域以及较高的分辨率的全景图像，往往需要用到费用高昂且操作复杂的广角镜头和扫描式照相机，即便如此，获取的图像仍然存在广角镜头引起的扭曲、失真等现象。

针对以上问题，20 世纪90 年代中期图像拼接技术应运而生，图像拼接的本质是对多张具有重叠部分的图像通过图像配准等处理后，缝合成为一张具有更广视角、更高分辨率的图像。在将深度学习引入图像拼接领域之前，传统的图像拼接技术主要为特征点法和光流法，其中主流的研究方向是特征点法，通过对拼接图像进行特征点提取、特征点匹配、单应性矩阵估计等一系列处理完成图像拼接。随着深度学习的兴起，Detone D[1]首次提出将混合轻量化神经网络运用于图像拼接技术研究，解决了传统图像拼接方法中特征点依赖和模型过大等问题，开启了图像拼接技术研究的新篇章。随后，更多基于深度学习的图像拼接网络模型不断提出，通过深度学习改进传统图像拼接方法成为目前研究的重要方向。

1 图像拼接流程

图像拼接就是将具有重叠区域的若干图像（大于或等于两张）按照一定的规则进行变形，然后对齐一系列重叠空间，最终获得一个具有更广阔的视野、更丰富的内容、更高分辨率的高清无缝的图像。图像拼接分为4 个步骤，包括图像配准、重投影、缝合和融合，其中图像配准和融合是直接影响拼接性能的两个最重要的因素。图像配准算法可以分为基于空间域和基于频域两种，而其中基于频域的图像配准算法又包括基于轮廓的图像拼接和基于底部特征的图像拼接两个小类。直接进行轮廓检测的图像配准方法需要的计算量和运算空间大，在实际应用中很少单独使用，基于特征的图像配准算法进行图像拼接是主流的方法。

2 基于特征的图像配准算法

图像配准是指搜索待拼接图像中的有效特征点并进行配对，从而使图像之间相互匹配，配准过程的精度和时间复杂度会直接影响整个图像拼接时间和最终的效果[2]。

基于特征的图像配准方法是目前图像拼接的一个主流方法，其流程见图1。基于特征的图像拼接方法提取的特征主要包括点特征、线特征和面特征3 类，其中相较于其他特征，点特征在取出源数据中的冗余数据的基础上能提供更多细微的信息，使得提取精度更高，因此基于点特征提取的图像配准方法是图像拼接技术研究中主流的方法。基于点特征提取的图像配准方法包括基于SIFT 的配准方法、基于SURF 的配准方法、基于ORB 的配准方法等。

首先，为了在图像与图像之间建立稳定的关系，需要在具有重叠部分的两幅图像之间找到重叠区域之间的对应关系，但是逐一对每个像素进行比对计算需要花费大量时间和人力物力，因此对输入的图像组进行特征提取是图像拼接一个重要的环节，选择具有平移、旋转、放射不变性的具有明显特征容易分辨的像素点，不仅可以极大程度的减少耗费的人力物力，而且对噪声、光线变化也具有鲁棒性。为了使图像配准具有更高的精度和更强的鲁棒性，提取的点特征至少需要满足一下几个特性：尺度不变性、旋转不变性、几何不变性、光照不变性，其中最重要的是尺度不变性和旋转不变性[3]。

哥伦比亚大学的Dacid G.Lowe 教授[4]于1999 年第一次提出了Scale-invariant feature transform（SIFT）算法，即尺度不变特征变换算法，并于2004 年对SIFT 算法进行了总结完善，由于该算法提取的特征不仅保留了旋转、平移、尺度不变性，具备优越的稳定性，并且对噪声、光照和仿射变化也具有较好的鲁棒性，该算法仍在图像处理的多个领域发挥着重要的作用。SIFT 通过高斯微分函数识别潜在的对尺度和旋转不变的兴趣点，关键点需要满足比周围像素点的对比度高和不是边缘点两个要求，然后基于图像局部的梯度方向，给每个关键点位置分配一个或者多个方向，最后在每个关键点的周围领域内，在选定的尺度上测量图像局部的梯度。

K.Sharm[5]在2011 年的ICCV 上提出了一种新的特征点检测算法——Oriented FAST and Rotateg BRIEF（ORB）算法，该算法可以快速地对图像中的关键点创建可以用于识别图像中的对象的特征向量。ORB 算法虽然运行速度比SIFT 算法和SURF 算法快很多，但是牺牲了对于特征的细致描述和算法的稳定性。表1 中比较了这几类配准算法的性能，对像素为405×304 的图像使用不同的特征提取方法提取特征点比较其性能，其中计算速度等于检测到图中特征点的个数除以运行时间，单位是：个/ms。

表1 各配准算法性能比较

然后，基于特征的图像配准对提取到的特征点通常使用随机抽样一致算法（Random Sample Consensus，RANSAC）进行特征点匹配，排除不能正确匹配的点。RANSAC 算法是一种不确定性算法，随机选择一些数据，这些数据通常包含较大的噪声或者无效点，假设一个用于解释观测数据的参数化模型，然后采用迭代的方式从包含异常值的数据中估计出数学模型的参数。最后，通过RANSAC算法得到的正确匹配点对用于单一性矩阵计算，找到待拼接图像之间的扭曲关系，实现图像拼接。

3 基于深度学习的配准算法

近年来，由于深度学习的发展，越来越多的研究者试图通过神经网络来解决传统图像拼接方法中的遗留问题，例如有研究者提出使用卷积神经网络代替特征点提取和特征点匹配步骤，不依赖于特征点而直接估计图像与图像直接的配准关系，这样可以有效地改善传统方法中的特征点依赖问题。基于深度学习的图像拼接方法包括有监督的[1]和无监督的[6]，提出了用卷积神经网络进行单应性矩阵估计的基本模型。由于直接预测出单应性矩阵的参数比较困难，因此这两种算法都用到了4 点参数化的单应性矩阵，通过一个VGG Net风格的网络估计出图像之间的配准关系，其网络结构见图2。不同点在于，有监督的算法要求输入地面真值（GT）来监督训练，因此只能用于合成由GT 单应性扭曲的目标图像，对真实图像的泛化能力较差。无监督的算法，通过逐像素计算由单应性扭曲之后的图像与原图像之间的光度损失作为损失函数来训练网络，不需要GT，并且对真实世界图像的对齐效果更好。

2018 年，Detone 等[7]提出了一个自监督训练的特征点检测和描述符提取的算法模型，用于改善图像拼接技术的性能。该模型不仅可以运行在大格式图像上，并且在一次向前传输中一起计算像素级特征点的位置和描述符。Super Point 的结构是encoder-decoder，见图3，其输入是两张单应变换的图像，即其中一种图像是由另一张图像进行某种单应性变化得到的，decoder 部分分为特征点和描述子两个部分，在描述子部分先学习半稠密的描述子然后进行双三次插值算法得到完整的描述子，最后通过L2规范化将描述子转化为单位长度的描述。

这些基于深度学习的算法虽然在一定程度上解决了传统图像拼接技术中的问题，提高了拼接算法的鲁棒性，但是仍然存在两个严重缺陷，其一是相对于图像计算的损失不如在特征空间中计算得有效，其二是忽略类随机抽样一致（RANSAC）过程，在整个图像中均匀地计算损失。相关人员研究[8]认为通过单应性矩阵进行图像拼接对细节对齐处理得不好，而通过光流法进行图像拼接又无法对齐差异较大的图像，因此提出将单应性（粗对齐）与光流法（细对齐）结合通过迭代方式做对齐，此方法扬长避短地结合两种对齐方法。

4 图像融合

将源像素点重新投影到合成表面之后，由于光照、色泽等因素存在差异，通常在拼接图像的交界处会存在明显的不自然过度接缝，抑或是在重叠区域出现模糊重影。拼接接缝和重影不仅会影响拼接结果的美观，而且会影响后续应用，如目标检测等的精准度，因此需要使用图像融合技术消除接缝。首先，能进行图像融合的输入的图像应该满足，对同一个场景中同一个物体含有不同的信息。其次，图像融合是一种为人类或机器人能更好理解图像信息提供帮助的手段，因此，一个优秀的图像融合算法应当满足，与输入的源图像相比融合之后的图像含有更重要、更准确的信息[9]。

图像融合的算法有很多种，分类方法也不尽相同，根据图像的表征层可以分为：特征级融合、像素级融合以及决策级融合，其中最为常用的是像素级融合方法。像素级融合方法主要是对像素灰度值进行加权平均等操作，加权平均融合是一种简单的像素级图像融合方法，将源拼接图像中重叠区域对应的像素点乘以一个加权系数，然后权值相加就可以得到融合的图像[10]，像素级图像融合算法虽然简单，但是计算量较大。

此外，寻找一条最佳拼接缝也是消除重影的一个重要方法，近年来这一方法也逐渐被应用于图像配准中。最早，Davis 于1998 年提出了使用迪杰斯特拉（Dijkstra）算法来寻找最佳拼接线[11]。此前的算法都限于两张拼接图像之间，而Agarwala 提出的运用图割算法寻找最佳拼接线的方法，则可以作用于多幅（大于等于两幅）图像拼接寻找最佳的拼接线，但是该算法需要对所有的像素点进行优化，计算时间代价较大[12]。

5 结语

图像拼接技术作为计算机视觉中的一个经典研究方向，具有完备的体系，综合包含如特征点检测、图像配准和图像融合等各种重要算法，在学术界和工业界都发挥着重要作用。深度学习的加入，不仅使以大数据驱动的有监督学习的图像拼接算法得到了充分研究，基于无监督、半监督的图像拼接算法也得到了广泛的研究，从而使得整个图像拼接技术的研究都获得了良好发展。但是目前的研究普遍侧重于对图像拼接过程中的某个环节进行优化改进，尚且没有一个完整、灵活且具有高鲁棒性的图像拼接算法。并且图像拼接算法与自监督学习中的“对比学习”存在对应关系，因此探索各种深度学习模型在图像拼接领域的多种可能性，包括半监督、无监督、自监督等学习模型，是一个很有前景的研究方向。