一种综合运动检测和视觉跟踪的智能监控系统

2010-07-25邓志辉路林吉

微型电脑应用 2010年6期

邓志辉，路林吉

0 引言

在过去几年中，特别是由于以安全为目的的智能监控日益重要，智能监控已成为在计算机视觉领域最活跃的研究课题之一。智能监控是一个总体框架，包含了多个不同的计算机视觉任务-是从图像序列检测、跟踪、分类感兴趣的对象，并接下来理解和描述这些对象的行为。设计智能视觉监控系统的最终目标，是取代现有的被动监测，消除或者至少尽量减少人们监测和分析可视化数据的需求。

由于这些原因，目前已经存在许多智能视觉监控系统，Hu等[1]给出了较好的综述。实时监控系统W4[2]使用一个单目灰度或红外摄像机检测、跟踪和监视多个人在户外场景的活动。它结合形状分析和跟踪技术来定位人体及其部位，同时创建了目标的外观模型，这样即使在相互遮挡下也可以准确跟踪。Wren等开发的Pfinder系统[3]通过建立单个未遮挡人体的三维模型，采用一个固定摄像头对实现室内人员行为的实时监视与判定。1997年，美国国防部高级研究项目署（Defense advanced research projects agency, DARPA）设立了以卡内基梅隆大学为首，麻省理工学院等高校参与的视觉监控项目VSAM(Visual surveillance and monitoring)[4]，该系统采用摄像机传感器网络，能在大范围场景中检测、跟踪移动物体，然后使用形状和颜色分析将目标进行分类。MIT的监控系统[5]首先使用分布式传感器设备观测一个站点中移动的对象，然后使用这些观测分类场景中的行为模式，然后用于检测异常活动。

本文设计了一种综合的智能视觉监控系统，通过一个固定的普通彩色摄像头来监控户外或者室内场景。我们的系统如图1所示，由运动检测模块、团块检测模块、跟踪模块和轨迹产生模块4部分组成：

1）运动检测模块：检测运动物体，将每个像素点分类为前景或者背景。

2）团块检测模块：利用运动检测模块的结果将运动物体分割成独立的团块，并将这些团块加入到跟踪团块链表中。

3）跟踪模块: 由团块检测模块初始化单团块跟踪器，而多物体跟踪器负责跟踪跟踪团块链表中每个团块。

4）轨迹产生模块: 收集所有团块的信息，当目标消失时保存团块轨迹信息。

图1 智能监控系统处理流程

本文其余部分安排如下：第1节描述了运动检测算法。第2节对团块检测模块进行了探讨。第3节详细介绍了多物体跟踪算法。第4节给出了实验结果。最后在第5节进行了总结。

1 对运动物体的检测

检测运动物体是典型视觉监控系统的第一阶段。对运动物体检测的目的从给定图像中区分出与运动物体相关的图像区域来。该阶段的准确性将极大地影响后续阶段处理的准确性和性能。

任何运动物体的检测方法都可以用到这一部分。但是，考虑到户外环境比较复杂，比如晃动的树枝、闪光的水面、光照的变化等，本文采用了Li等提出的基于颜色空间模型的阈值化背景减法[6]。它是一种非参数估计背景模型方法，由变化检测、变化分类、前景目标分割和背景学习与维护组成，算法的框图如图2所示，从左到右的白色框代表了前3个步骤，灰色框表示自适应背景建模。该算法首先使用简单的背景差分图像和帧差分图像过滤掉视频流中没有变化的像素点，再根据帧间变化把检测到的变化分类为静止的和移动的物体。然后，基于学习得到的颜色和颜色共生特征统计，根据贝叶斯分类规则将静止物体或移动物体分类为背景或前景。接着，前景目标被分割出来。最后，更新背景模型。该算法在处理复杂场景时具有良好的性能，可以处理缓慢和突然的背景变化，静态的和运动的物体等。算法详见[6]，效果如图3。

图2 运动物体检测模块算法框图

图3 运动物体检测结果

2 团块检测模块

团块检测模块可以被视为是运动检测模块和跟踪模块的衔接。它包括从团块检测模块输出的二进制图像中分割移动领域为不相交的团块，消除任何小的或孤立的噪音，以及计算团块信息（如边界框，ID，大小，速度等），将团块添加到跟踪团块链表，并传递链表给跟踪模块。

本文采用了如下连通域标记算法，首先，我们执行形态学开和关操作，在这里，我们需要确定形态学操作的迭代次数。越多的迭代次数，会有越多的腐蚀。侵蚀在消除了较大斑点状噪声的同时也腐蚀掉了较大的边界区域。现在的噪音已经删除，我们寻找所有的轮廓。下一步，我们抛弃面积过小的团块，对剩下的团块绘制包围其轮廓的最小矩形框。最后，我们可以有选择地收集团块信息（中心、大小、速度、位置等）。这些团块被添加进跟踪链表中，传递给跟踪模块。

3 跟踪模块

跟踪模块负责估算每个团块在新视频帧中的位置和大小。这个模块需确保即使运动检测模块由于物体遮挡或停止运动而无法检测到的情况下，可以跟踪对象。

多物体跟踪可以被视为一个估计过程中，其目的是从按顺序到达观图像帧的带噪声的观测集yt=(y1…yt)中估计出未知的运动状态xt。Vermaak等[7]根Bayesian最优估计理论提出了一个单视点多目标跟踪框架：

预测：

其中，

更新：

其中，

3.1 单对象跟踪器

如上所述，目标跟踪问题可以转换为估计问题，即在贝叶斯（Bayesian）理论框架下，已知目标状态的先验概率，在获得新的量测后不断求解目标状态的最大后验概率的过程。粒子滤波作为一种序贯蒙特卡罗的方法（Sequential monte carlo methods,SMC）[8]，既不受限于线性系统也不要求噪声是服从高斯分布的，目前引起了广泛关注。它是基于对样本集传播的一种递推贝叶斯滤波器，同时保持多重假设以及使用随机动态模型来预测目标的位置，因此，跟踪效果很好。

目标跟踪系统状态通常有：目标位置、目标尺度以及变化率等元素组成。本文将目标区域表示为用一矩形框包围的团快，那么可以把单个对象状态描述为：

其中，x,y是团块矩形框的中心位置，sw,sh分别是团块矩形框的宽和高，从该团块状态矢量可以算出团块的速度x’t, y’t和矩形框的尺度变化率s’。

选用二阶自回归过程（second-order auto-regressive process）作为系统的动态模型：

为了有效地区分跟踪目标和其他目标，必须选择合适的视觉特征来描述目标，颜色特征[9]是一个被广泛采用的特征，因为颜色特征很适合描述变形目标，更重要的是它对于平面旋转、非刚体和部分遮挡很稳定。

与[9]类似，本文也采用基于Hue-Saturation-Value（HSV）空间的颜色直方图模型。因为HSV颜色空间将亮度信息与色彩信息解耦了，使得颜色直方图模型对于光照的变化不敏感。首先把图像从RGB颜色空间转换成用HSV颜色空间，并分别量化为Nh,Ns,Nv。把颜色直方图的管脚设为个N=Nh,Ns,+Nv。b(u)∈{1,···,N}表示图像的像素点（u）的颜色矢量yt(u)到直方图管脚的映射。把颜色直方图表示为h={h1,h2,···,hN}。

对于一状态矢量xt，假如有一个检出框Rt(xt)={d,stW}，d是检出框的质心，W是检出窗口的最小尺寸，St是在第t帧的这个检出框相对于最小检测窗口的尺度。R(d)在第t帧的颜色分布的核密度qt(x)={qt(n;x) }n=1··N按下式计算，

其中，δ是Kronecjer delta函数，K是归一化因子以确保；height是检出框的高，width是检出框的宽，a用来对检出框进行归一化处理以适应检出框的不同尺寸；w是一个权重函数，用来增强颜色直方图的健壮性以减轻检出框的边缘像素属于背景或被遮挡的情况。检出框中的像素离检出框的质心越远，则分配给这个像素的权重越小，权重的计算公式如下：

其中，r是该像素点到检出框质心的距离。

同样地，可以初始时刻t0计算参考颜色分布模型q*={q*(n)}n=1··N，这些参考颜色分布模型由团块检测模块的结果自动地初始化。

接下来选用 Bhattacharyya系数来度量参考颜色直方图和参考颜色直方图之间的相似性：

基于此 Bhattacharyya距离，我们可以计算观测模型的似然率p(yt|xt)[9]：

在经典的基于颜色特征的粒子滤波算法中采用了重采样来消除粒子退化的影响，然而带来了粒子贫乏的不良后果，降低了跟踪性能。为了使得粒子具有多样性，本文采用Markov Chain Monte Carlo(MCMC)[10]来进行粒子重采样。MCMC方法是使用马尔可夫链的蒙特卡罗积分。其基本思路是，如果粒子服从后验概率p(0:t|y1:t)，那么实施核为K(x0:t|0:t)的马尔科夫链变换之后，在保证的前提下，仍然可以得到一组满足既定后验概率分布的粒子群，而且这组新的粒子群可能移动到了状态空间中更为有利的位置。实现MCMC重要性采样主要有两种方法：MH(Metropolis Hastings)采样方法和Gibbs采样方法。本文采用MH算法[11]产生各态历经的平稳有限分布的马尔可夫过程。

3.2 基于全局最近邻法的数据关联

在多目标跟踪中并不是所有的观测值都反映了被跟踪目标的信息，部分观测值反映了目标信息，部分观测值并不包含目标信息而是包含了背景、噪声、虚假目标等干扰信息。数据关联即匹配，就是要确定哪些观测值反映了目标信息，并确定真实的观测值与存在状态的对应关系。

目前，多目标跟踪领域存在许许多多数据关联的方法，从相对简单的最近邻法到非常复杂的多假设跟踪（MHT）。多目标跟踪系统通常多采用简单的方法，但这些方法的性能在复杂环境会下降。相当复杂的多假设跟踪虽然性能有所改善，但难以实现，且在复杂环境中需要维护大量的假设，进而需要消耗大量的计算机资源。全局最近邻法（Global Nearest Neighbor）[12]通过寻找一次扫描中最大可能的假设，能够获得比较好的数据关联性能。

我们假设在一个新观测值或一系列新观测值被收到时已经存在n条目标轨迹。这些观测值用于更新现有的目标轨迹，或者初始化新的目标轨迹。假设在时刻点t，收到m个观测值。在复杂环境中，m不一定等于n，而且也难以分辨测量值是来自于目标还是噪声等。有效的观测值则应是处于已存在目标关联门内部或者边界。数学上，关联门可由式（13）给出：

其中，d=(x,y,H,W)，x,y是团块的位置信息，H,W是团块的形状信息，di表示第i个已知的目标状态，dj表示第j个观测值，a是一个用来调节团块位置和大小重要性的常数因子，G是门限值，可以有M自由度的$X2M分布获得。门限值（G）的选择要确保正确的测量将以在于指定的概率落在关联门内。

经式（13）的有效性验证后，可以将数据关联视为一个最大匹配问题，按式（14）构造代价矩阵（C）：

其中，代价矩阵C的元素满足：

求最大匹配的一种显而易见的算法是：先找出全部匹配，然后保留匹配数最多的。但是这个算法的时间复杂度为边数的指数级函数。因此，本文采用扩展 Munkres算法[13]解决上述的二值分配问题。如果观测值未找到匹配的目标，我们认为出现了新的目标，于是初始化一个新的单对象跟踪器；如果目标找不到匹配的观测值，则相应增加其丢失次数，当连续丢失次数超过一定帧数时，认为该目标消失了，于是删除该目标的单对象跟踪器。

4 实验结果

在Visual Studio 2005结合OpenCV、STL和DirectShow搭建了一个实验平台。为验证系统的稳定性以及有效性，实验数据选自SCEPTER。该系统在Pentium 4，2.0GHz计算机上，对于跟踪分辨率为320×240的序列图像，实现了25f/s的处理速度。

实验结果如图4所示，图中彩色框表示各个不同的跟踪目标，框后面的线记录了该目标的运动轨迹。通过实验结果可以看出,即便在遮挡或有新目标出现的情况下, 仍能成功地检测和跟踪场景中的运动目标。

图4 智能监控系统实验结果

5 结论

智能监控是一个具有挑战性的研究领域，既有理论研究意义，也有很强的实用价值。但由于使用背景、具体环境等因素的复杂性，目前仍需依赖人工进行不问断分析，还未能找到“通用”的解决算法。本文主要针对室监控这—特定背景环境，对运动目标的跟踪监控进行了研究，提出了利用基于颜色空间模型的阈值化背景减法提取出运动目标，并结合基于MCMC的颜色粒子滤波器和全局最近邻法对多个目标进行跟踪的方法，并没计搭建了测试平台。实验表明，该平台可以有效地检测并跟踪室内运动目标，实现了部分分析任务的自动处理。运动物体分类和识别、行为识别将是下一步研究的重点。

[1]Hu W, Tan T, Wang L, and Maybank S. A survey on visual surveillance of object motion and behaviors. IEEE Transactions onSystems, Man and Cybernetics,34:334-352, 2004.

[2]D Harwood I. Haritaoglu and Davis L S. W4: Real-time surveillance of people and their activities. IEEE Transactions on Pattern Analysis and Machine Intelligence,22(8):809-830, 2000.

[3]T Darrell C,Wren R,Azarbayejani A, and Pentland A P.Pfinder:Real-time tracking of the human body.IEEE Transactions on Pattern Analysis and Machine Intelligence,19:780-785,1997.

[4]T Kanade H, Fujiyoshi D,Duggins Y,Tsin D,Tolliver N,Enomoto O,Hasegawa P,Burt R,Collins T,Lipton A J,and Wixson L.A system for video surveillance and monitoring.Technical Report CMU-RI-TR-00-12, Robotics Institute,Pittsburgh, PA, May 2000.

[5]Romano R W, Grimson E L, Stauffer C,and Lee L.Using adaptive tracking to classify and monitor activities in a site.In CVPR ’98: Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition,page 22, Washington, DC, USA, 1998. IEEE Computer Society.

[6]H I Y,Gu L Li, Huang W,and Qi T. Foreground object detection from videos containing complex background. In MULTIMEDIA ’03: Proceedings of the eleventh ACM international conference on Multimedia, pages 2-10, New York, NY, USA, 2003. ACM.

[7]Doucet A J. Vermaak and Perez P. Maintaining multimodality through mixture tracking. In Computer Vision, 2003. Proceedings.Ninth IEEE International Conference on, volume 2, pages 1110–1116, Oct. 2003.

[8]N Gordon M ,Arulampalam S, Maskell S,and T Clapp. A tutorial on particle filters for on-line nonlinear/nongaussian bayesian tracking. IEEE Transactions on Signal Processing, 50:174-188, 2001.

[9]J Vermaak,P Pé rez, Hue C,and Gangnet M. Color-based probabilistic tracking. In ECCV ’02: Proceedings of the 7th European Conference on Computer Vision-Part I,pages 661-675, London, UK, 2002. Springer-Verlag.

[10]Liu J S,and Chen R. Sequential monte carlo methods for dynamic systems. Journal of the American Statistical Association, 93:1032-1044,1998.

[11]Zhai Y,and Yeary M. Implementing particle filters with metropolis-hastings algorithms. In Region 5 Conference:Annual Technical and Leadership Workshop, 2004, pages 149-152, April 2004.

[12]A Udvarev,Konstantinova P,and Semerdjiev T.A study of a target tracking algorithm using global nearest neighbor approach.In CompSysTech’03:Proceedings of the 4th international conference conference on Computer systems and technologies, pages 290-295, New York, NY, USA,2003. ACM.

[13]Bourgeois F and Lassalle C J.An extension of the munkres algorithm for the assignment problem to rectangular matrices.Commun.ACM,14(12):802-804,1971.