摄像机旋转运动下的快速目标检测算法

2012-07-07蒋建国齐美彬

图学学报 2012年3期

蒋建国，吴晖，齐美彬，张莉

（1. 合肥工业大学计算机与信息学院，安徽合肥 230009；2. 安全关键工业测控技术教育部工程研究中心，安徽合肥 230009）

在智能监控系统中，有时需要摄像机旋转（主要是俯仰运动和平扫运动）以增加监控的范围，或者随着目标的移动进行主动跟踪，因此研究摄像机旋转情况下的运动目标检测具有重要意义。通常，人们将摄像机运动导致图像全局运动的序列称为动态场景图像序列，动态场景图像序列的目标检测问题近年来已成为学者研究的热点[1-5]。动态场景下运动目标检测一般分为两个步骤[6]：第1步是运动补偿。其目的在于将摄像机运动导致的背景运动去除。首先计算全局运动参数，再使用计算出的全局运动参数，计算出当前帧每个像素的移动速度，预测该像素在下一帧的位置，得到补偿图像；第2步是目标检测。将补偿图像与下一帧或重建的背景图像做帧差，得到运动目标。其中运动补偿最为关键，常用的算法有3种：第1种是分块运动补偿(BMC for block motion compensation)[6-7]，它将每帧分成若干像素块，并且假设块内像素运动矢量相同。对当前帧的某个块进行预测下一帧中的位置，预测的过程只有平移，其中背景块的运动矢量即为全局运动矢量。该方法的缺陷是不适合旋转、缩放或者仿射变换等图像非平移运动的情况。第2种是光流法。该方法对每个像素都计算运动矢量，从而得到整幅图像的运动场，再对运动场进行聚类分割，直接得到前景和背景[8-10]。光流法适应的范围比较广，但是它的缺点是运算量太大。第3种是特征点匹配的方法，该方法在相邻帧中分别提取特征点，并匹配特征点，再利用匹配的特征点对求解全局运动参数。

由于特征点匹配的方法不需假设块内像素运动一致的条件，摆脱了块匹配方法只适合平移的限制；也不需要像光流法一样对每个像素求运动矢量，只需要对某些有特征的，稳定的点计算，大大提高了算法速度。基于上述两点考虑，本文便采用这种方法。

SIFT特征点是Lowe在1999年提出[11]，2004年完善的特征算子[12]，该算子不但具有尺度、仿射、视角、光照不变性，对目标的运动、遮挡、噪声等因素也有很好的鲁棒性。该算子一个重要的特点是匹配点多而且稳定，已被广泛采用在机器人定位，三维场景建模等方面。SIFT特征点匹配按照最小欧式距离原则，使用 BBF(Best-Bin-First)方法匹配特征点。这个过程首先需要建立树，其次在树中查找最优匹配点。当特征点数目比较多的时候，这种方式比较耗时，难以满足实时性的要求。因此，本文针对SIFT匹配算法速度上的缺陷，提出了基于运动预测的特征点匹配算法，在保持SIFT良好性能的前提下，提高匹配效率，快速检测出运动目标。

1 快速目标检测算法

运动补偿的关键在于求解全局运动参数，1.1节对全局运动建立旋转参数模型，并介绍了特征点匹配的方法求解运动参数的原理；针对SIFT算法检测效率低的缺陷；1.2节提出基于运动预测的特征点匹配算法；1.3节介绍特征点更新策略；1.4节为算法整体描述。算法整体流程如图1所示。

图1 算法流程图

1.1 求解全局运动参数

全局运动模型[13]常用的有：二参数、四参数、六参数仿射模型等。这些模型都属于线性模型，即像素的运动矢量大小与像素坐标呈线性关系。当摄像机旋转角度比较小时，这些模型一般能够很好的描述背景运动，但是当摄像机旋转的角度比较大时，像素运动矢量与坐标之间是非线性的二次型变换的关系，上述模型不能准确的描述全局运动，因此作者引入旋转参数模型[14]。

矩阵A为常数矩阵，由摄像机内部参数和t时刻摄像机的旋转角速度所决定，与像素坐标无关。若已知t时刻的旋转参数矩阵A，那么由式(1)，就可以求得图像的全局运动，从而进行运动补偿。实际应用时，摄像机的瞬时旋转速度是未知的，而且摄像机通常都是未被标定过的，所以必须通过别的途径估计矩阵A。值得一提的是：如果将矩阵中二次项对应的参数设为零，就可以变换成其他的参数模型。因此，使用该模型的好处是：不仅能够准确的描述摄像机旋转情况下的图像全局运动，对于摄像机平移、缩放的情况同样适用。

使用特征点匹配方法求解全局运动参数的思想就是：在相邻两帧中分别搜索特征点，再对特征点进行匹配，得表示匹配点对的集合，其中 fn=(Xt-1,n, Xt,n)为第n对匹配特征点。由式(1)可以建立方程组，每对特征点可以建立两个方程，因此N对特征点可以建立2×N个方程，而矩阵A只有8个参数，这是一个超约束方程组，可以采用最小二乘法求最优解。

由于噪声影响，特征点会出现少量误匹配的情况，误匹配的点也称为外点。即使外点的数目很少，也有可能会导致计算结果与真实值有较大的偏差。因此，采用RANSAC方法[15]来去除外点。该方法通过重复迭代过程，在集合中寻找到不含外点的最大子集（也称为最大一致集）。去除外点之后采用最小二乘法求得的参数矩阵就比较接近真实值。

1.2 基于运动预测的特征点匹配算法

考虑到监控视频相邻帧的时间间隔是很短的，在帧率为25时，两帧间只有40ms的间隔，在这样非常短暂的时间内，摄像机的旋转不会带来场景的大幅度变化，相邻帧间通常只是几个像素的移动量。(t-1)帧的特征点集实际上包含了大量t帧对应特征点位置的信息，因此，可以充分利用这一信息，进行基于运动预测的匹配，快速匹配特征点。其思路是：使用上一帧图像特征点集对当前帧特征点的位置进行预测，在预测位置的一个小范围内搜索特征点，从而得到当前帧的特征点集。

匹配过程如下：

该算法的优点在于：

（1）减少外点的影响。使用Lowe的树查找方式时，并没有考虑到匹配点之间的位置相关性，两个位置相差很大的点可能因为其特征描述子的相似性而发生误匹配的情况；而基于预测的匹配算法实际上是给匹配点对加上了一个位置的约束，这样就避免了某些误匹配的发生，保证参数矩阵的准确求解；

（2）由于对特征点可能存在的位置进行了预测，减少了搜索范围；

（3）搜索到的点与它在上一帧中的对应形成匹配的特征点对，无需为上一帧的特征点集建立树，以及在树中查找最优匹配点，节约了匹配时间。

需要注意的是 N的选取与算法的计算量直接相关。N太大的话，搜索范围增大，计算量增大，对实验结果并无明显改善；通过对多组动态场景下拍摄的视频进行实验（包括平移、缓慢旋转和快速旋转），确定N =3时效果最佳。

1.3 基于残差图像的特征点更新

由于摄像机的旋转，视场中的场景也在发生变化，图像的特征也逐渐改变，如果不及时更新特征点，那么匹配特征点对的数目不可避免的将减少，影响运动参数的求解。因此，当某时刻的匹配特征点数目减少到Tf时，就更新特征点集，保证下一帧有足够的匹配点对进行参数求解。Tf的选取非常重要，如果太小，平均匹配点数下降，最小二乘解不够准确；Tf太大则造成不必要的冗余数据，降低算法效率。

为了验证 Tf对算法性能的影响，用TPR(True Positive Rate)来衡量。TPR为最终检测出的前景中，属于真实目标的比率，取值在0到1之间；TPR越接近1，说明检测的准确度越好。

图2反映了Tf对算法性能的影响：图 2(a)说明随着Tf的增大，算法速度近似线性的下降。图2(b)反映了Tf对TPR的影响。Tf＜ 1 5时，Tf增大，TPR随之增大；Tf＞ 1 5时， TPR接近100%，增幅也不明显。综合考虑算法速度和准确性，选择 Tf= 1 5。

更新特征点最简单的方式是全图搜索新的特征点，但这样做会有很大的缺陷：运动目标即前景往往是特征丰富的，当全图搜索进行更新时，将会有很大一部分更新的特征点是目标上的点。但是在计算全局运动参数的时候，真正起作用的是背景点。因此，更新范围要尽可能排除目标所在的区域。

图2 Tf对算法性能的影响

基于残差图像可以快速标记出前景所在的区域，标记过程如图3所示。由于直接对残差图像处理数据量较大，必须先对其下采样到原图的1/16，再将下采样的图分为4× 4的小块。当某个块的前景点数大于零时，标记该块为前景块，否则为背景块。更新过程只在背景块中进行，并且要避免特征点集中在一个小的区域。实验证明当特征点在图像中分布均匀时，运动补偿效果最佳。

图3 标记前景块示意图

1.4 算法整体步骤

已知Pt-1为t-1帧的特征点集，At-1为t-1帧的旋转参数矩阵。第t帧运动目标检测算法详细步骤如下：

步骤 2 由Pt-1和tP建立匹配点对tF。

步骤 3 应用 RANSAC算法去除tF中的外点，再使用最小二乘法求t帧的旋转参数矩阵At。

步骤 4 使用式(1)对t-1帧图像It-1进行运动补偿，得到补偿图像。

步骤 5 将第t帧图像It和补偿图像做帧差处理，得到残差图像Iobj。

步骤 6 判断tP中特征点数目是否小于Tf，若小于，则更新特征点。

步骤 7 保存Iobj,At和tP。t←t+1，结束。

2 实验结果

为了验证该算法的性能，作者将SIFT算法、块匹配算法[7]和该算法分别应用于三组实验视频，并对结果进行对比和分析。实验平台在Core 2 Duo、内存1G的PC机上使用VC6.0进行调试。为了提高检测效率，我们采用隔帧检测的方法。

图4是对一实拍外景序列的实验结果，图像分辨率为 320×240。图 4(a)为原序列的第 50和100帧；图4(b)为块匹配的方法得到的检测结果，可以看到背景中的树木没有被完全去除，而且目标比较模糊，不能清楚分辨；图4(c)和图4(d)中分别为SIFT算法和该算法的结果，可以看到二者效果基本相同，都可以很好的完整正确的检测到目标，背景干扰完全去除，这说明该算法很好的继承了SIFT算法本身的优越性能。

图4 序列1的实验结果

图5是对图4中的同一场景增大摄像机旋转速度的实验结果，其目的是考察算法在快速旋转情况下的性能。经测定，该摄像机旋转角速度约为0.5rad/s。图5(a)为原序列的第25和50帧；图5(b)中块匹配的方法不能够准确的运动补偿，因此背景的干扰非常严重；图5(c)和图5(d)中SIFT算法和本文算法依然能够很好的检测出前景目标。此组实验说明在旋转速度比较大，块匹配方法失效的情况下，本文算法仍能够稳定地检测出目标。

图5 序列2的实验结果

图6是对MPEG-4标准测试序列coastguard的实验结果，图像分辨率为352×288。该序列的背景运动属于摄像机平移导致的全局运动，从实验结果可以看到，3种算法的性能相当，都可以较好的去除全局运动的影响。此组实验说明本文算法不仅能够处理复杂的旋转情况，而且对于摄像机平移的情况同样适用。

图6 序列3的实验结果

表1是3种算法的处理速度比较。从表中可以看出，本文算法的速度是块匹配方法的 2倍，是SIFT算法的5倍，在隔帧处理时，满足实时性的要求。而且，本文算法检测准确度高，能够准确进行运动参数估计，去除全局运动的影响。因此，本文提出的特征点匹配与更新算法对于摄像机旋转运动下的目标检测比传统的算法更具有实用性。

表1 3种算法执行时间比较

3 结论

本文提出了一种基于运动预测的特征点匹配算法以解决运动摄像机下的目标检测问题。首先为图像的全局运动建立旋转参数模型，其次通过特征点匹配算法在相邻帧建立特征点对，并通过最小二乘求解旋转参数，最后基于残差图像的特征点更新策略保证了参数的稳定求解。实验结果证明本文算法可以实时、准确地检测出复杂场景中的运动目标。

[1]Irani M, Anandan P. A unified approach to moving object detection in 2D and 3D scenes [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1998, 6(6): 577-589.

[2]Kang J, Cohen I, Medioni G, et al. Detection and tracking of moving objects from a moving platform in presence of strong parallax [C]//Proceedings of the IEEE International Conference on Computer Vision,Beijing, 2005: 10-17.

[3]Kundu A, Krishna K M, SIVASWAMY J. Moving object detection by multi-view geometric techniques from a single camera mounted robot [C]//IEEE International Conference on Intelligent Robots and Systems, 2009: 4306-4312.

[4]Sorwar G, Murshed M, DOOLEY L. Fast global motion estimation using iterative least-square estimation technique [C]//Proceedings of the 2003 Joint Conference of the Fourth International Conference on Information, Communications and Signal Processing, Singapore, 2003: 282-286.

[5]Rath G B, Makur A. Iterative least squares and compression based estimations for a four-parameter linear global motion model and global motion compensation [J]. IEEE Transactions on Circuits and Systems for Video Technology, 1999, 9(7):1075-1099.

[6]Dufaux F, Konrad J. Efficient, robust and fast global motion estimation for video coding [J]. IEEE Transactions on Image Processing, 2000, 9(3):497-500.

[7]Tao T F, Han C Z, Wu Yanqi. Motion estimation based on an improved block matching technique [J].Chinese Optics Letters, 2006, 14(4): 208-210.

[8]Wang J, Adelson E H. Representing moving images with layers [J]. IEEE Transactions on Image Processing Special Issue: Image Sequence Compression, 1994, 3(5): 625-638.

[9]Forsyth D A, Ponce J. Computer vision: a modern approach [M]. New Jersey: Prentice Hall, 2002:359-368.

[10]Turetken E, Alatan A. Temporally consistent depth ordering via pixel voting for pseudo 3D representation [C]// 3DTV Conference: The True Vision Capture, Transmission and Display of 3D Video, 2009: 1-4.

[11]Lowe D G. Object recognition from local scale invariant features [C]//International Conference on Computer Vision, Corfu, Greece, 1999: 1150-1157.

[12]Lowe D G. Distinctive image features from scale invariant keypoints [J]. International Journal of Computer Vision, 2004, 60(2): 91-110.

[13]Mech R, Wollborn M. A noise robust method for 2D shape estimation of moving objects in video sequences considering a moving camera [J]. Signal Processing, 1998, 66(2): 203-217.

[14]Hartley R, Zisserman A. Multiple view geometry in computer vision [M]. Cambridge: Cambridge University Press, 2003: 153-176.

[15]吴福朝. 计算机视觉中的数学方法[M]. 北京: 科学出版社, 2008: 338-343.