一种基于归一化前景和角点信息的复杂场景人数统计方法

2014-05-29常庆龙夏洪山

电子与信息学报 2014年2期

常庆龙夏洪山黎宁

常庆龙*①夏洪山①黎宁②

①(南京航空航天大学民航学院南京 210016)②(南京航空航天大学电子信息工程学院南京 210016)

针对智能视频监控领域的人数统计问题，该文提出了一种基于归一化前景和角点信息的复杂场景人数统计方法。首先在提取的前景二值图基础上，计算透视校正后的归一化前景面积。然后在提取前景区域有效角点信息的基础上，计算能够反映人群遮挡程度的遮挡因子。最后，将上述两种特征输入后向传播(BP)网络完成人数统计算法的训练与测试。实验表明，该方法可以有效地实现对复杂场景的人数统计。

视频监控；人数统计；归一化前景；角点信息；BP神经网络

1 引言

随着计算机硬件性能的不断提高，基于数字图像处理技术的智能化视频监控成为当前的热点研究领域。人数统计作为其中的关键技术，在公共场所的安全监控和大型商场的客流分析等方面有着重要的应用价值，也成为研究的热点。

为了能够更加高效准确地统计出复杂场景中的人数，本文提出了一种基于归一化前景和角点信息的复杂场景人数统计方法。该方法具有较高的准确性和较好的鲁棒性，在对机场候机楼监控视频的人数统计实验中取得了较好的效果。

2 算法

本文方法在提取出人群前景的基础上，计算出透视校正后的归一化前景面积，然后在提取出前景区域有效角点信息的基础上，计算出能够反映场景人群平均遮挡程度的遮挡因子，最后将上述两个特征输入后向传播(BP)网络回归模型，实现了对复杂场景的人数统计，具体流程如图1所示。

图1 算法流程图

2.1 前景提取

本文采用高斯混合模型算法[11]完成了场景的背景建模。考虑到本文的实验场景为机场候机大厅，如图2(a)所示，光线变化较弱且行人的运动幅度与速率较低，因此，不同于传统高斯混合模型算法由像素点灰度值的条件概率来决定更新速率。本文将更新速率设为一个固定的值，从而降低了背景模型的敏感度，提高了模型生成的效率。在所构建的背景模型基础上，通过背景减除，即可获得初步的前景图，如图2(b)所示。

受光线影响，监控场景中的目标倒影是必须要解决的问题。本文基于传统的HSV阴影去除算法[12]，总结出一组简化阈值过滤条件完成了阴影去除。

在完成背景减除操作后，将获得的前景图由RGB色彩空间转换至HSV色彩空间。利用式(1)和式(2)，对前景区域逐像素判别滤除，最终得到过滤了阴影区域的前景图，如图2(c)所示。

阴影去除后的前景图，需要通过形态学滤波得到低噪声，轮廓更为完整的人群前景图。本文通过一组形态学开闭运算得到更好的前景二值图，如图2(d)所示。

2.2 归一化前景计算

本文通过对同一场景中同一行人处于不同纵向位置时的尺寸和纵向坐标值进行采样，并对尺寸和纵向坐标值进行如图3所示的线性拟合。由图3所示，行人的宽和高与其所处的纵向坐标值之间呈现明显的线性关系，基于此，得到如式(3)和式(4)的拟合公式。

图3 行人尺寸拟合曲线

由式(3)和式(4)可知，已知场景中某个目标的尺寸和对应的纵向坐标后，可由上述两个拟合公式推导出该目标位移至场景中任意其它位置时的尺寸，具体见式(5)和式(6)。

传统的前景面积计算公式如式(7)：

为了校正透视效应，需要对原有前景面积公式进行归一化修正。根据式(3)和式(4)，可将每行前景像素点面积修正为其投影至场景底边时的小矩形区域面积，因此归一化后的前景面积统计式如式(8)。

2.3 遮挡因子提取

对于人群密度较高的场景，必需考虑行人之间的遮挡问题。一般而言，人群越聚集，遮挡越严重的区域，对应的边缘纹理图像也越复杂。本文基于前景区域的有效角点信息，提取了一种遮挡因子来表征对前景区域的人群遮挡程度。

本文首先采用经典的Harris角点算法[13]提取候选角点信息，具体步骤如下：

上述候选角点需要经过进一步的滤除处理得到最终的有效角点。考虑到遮挡边缘一般处于前景区域内部，为了使得角点能够更好地体现场景中行人之间的遮挡程度，这里将处于前景区域边缘的角点滤除。这样得到的有效角点更准确地反映了前景区域内部纹理的复杂程度，并且可以滤除一些噪声角点，角点滤除效果如图4所示。提取有效角点的具体步骤如下：

图4 角点滤除结果图

2.4 回归模型建立

统计回归是人数统计算法的重要步骤。场景的归一化前景和人数之间存在着一定的线性关系，但为了解决人群中的遮挡问题，本文引入了人群密度特征，使得一般的线性回归模型并不适用。因此，这里选用经典的BP网络[15]作为回归模型。

3 实验

实验在2.67 GHz主频，4 G内存下的Matlab 2007b平台上进行，分别对一段机场候机楼值机柜台区域的视频和一段校园路口的自拍视频进行人数统计。其中，候机楼场景的图像尺寸为704×576，测试样本长度为600帧；校园场景的图像尺寸为320×240，测试样本长度也为600帧，各场景样本示例如图5所示。实验中BP网络的隐含层设为1，训练次数设为1000，学习率设为0.1，训练目标设为0.0001。

图5 实验样本示例

文献[8]中的GLCM算法是人数统计中的经典算法，本节对该方法和本文方法进行对比实验，回归模型都采用BP网络。候机楼场景和校园场景的实验对比结果分别如图6(a)和图6(b)所示。

从图6(a)可以明显看出，对于机场候机大厅这类场景范围较大的复杂场景，本文方法能够比较准确地统计出其各种密度状况下的人数，而GLCM算法对中低密度状况下的人数统计不够理想。对如图6(b)所示的校园路口这类场景范围较小的情况，本文方法依然能够有效地实现人数统计，而GLCM算法的误差明显高于本文方法。

图6 算法实验结果对比图

为了定量衡量本文方法和GLCM算法的性能差异，这里采用平均绝对误差(MAE)和平均相对误差(MRE)作为算法性能的评估标准，具体如式(16)和式(17)所示。

同时，为了验证本文归一化前景提取方法的有效性，这里将未考虑阴影和透视影响的传统前景提取方法[11]与本文的角点信息和遮挡因子相结合进行人数统计对比实验。每种方法采用BP网络运算10次，以10次实验的平均值作为最终结果，实验结果如表1所示。

表1 归一化前景提取方法有效性对比

由表1可知，本文方法与GLCM算法相比，在候机楼场景中的MAE和MRE分别降低了35.1%和44.0%，在校园场景中的MAE和MRE分别降低了46.7%和54.6%，整体性能提升明显，这与图6中反映的情况也是一致的。另外，本文方法相比于基于传统前景提取方法的人数估计方法，整体性能也有一定提升，证明了本文的归一化前景提取方法的有效性。需要说明的是，尽管本文方法的单帧处理速度略低于GLCM算法，但足以满足智能监控系统的实时处理需求。

4 结束语

针对复杂场景下的人数统计问题，本文提出了一种基于归一化前景和角点信息的人数统计方法。该方法首先利用混合高斯模型提取图像背景，并通过背景减除得到初步前景图。再结合阴影滤除和形态学滤波得到前景二值图，接着计算出了透视校正后的归一化前景面积。然后，利用Harris算法提取出前景区域的候选角点信息，并通过滤除前景边缘角点得到有效的角点信息，接着结合原始前景面积计算出反映场景人群平均遮挡程度的遮挡因子。最后，将上述两种特征输入BP神经网络回归模型完成人数统计算法的训练与测试。实验证明，相比传统的GLCM算法，本文算法可以更准确地统计出类似机场候机大厅这类复杂场景的人数。

未来可根据场景需要进一步改进有效角点信息的提取算法和遮挡因子的计算模型，使其更加准确地表征场景中人群区域的遮挡程度，从而获得更高的计算准确性。

[1] Zeng Cheng-bin and Ma Hua-dong. Robust head-shoulder detection by PCA-based multilevel HOG-LBP detector for people counting[C]. 20th International Conference on Pattern Recognition, Istanbul, 2010: 2069-2072.

[2] Zhang Zui, Gunes H, and Piccardi M. Head detection for video surveillance based on categorical hair and skin colour models[C]. 2009 IEEE International Conference on Image Processing, Cairo, 2009: 1137-1140.

[3] Conde C, Moctezuma D, Martin D D,.. HoGG: Gabor and HoG-based human detection for surveillance in non-controlled environments[J]., 2013 (Special issue: Behaviours in video), 100: 19-30.

[4] Gao Cong-wen, Huang Kai-qi, and Tan Tie-niu. People counting using combined feature[C]. 2011 3rd Chinese Conference on Intelligent Visual Surveillance, Beijing, 2011: 81-84.

[5] Chan A B and Vasconceloos N. Counting people with low-level features and bayesian regression[J]., 2012, 21(4): 2160-2177.

[6] 覃勋辉, 王修飞, 周曦, 等. 多种人群密度下的人群计数[J]. 中国图象图形学报, 2013, 18(4): 392-398.

Qin Xun-hui, Wang Xiu-fei, Zhou Xi,.. Counting people in various crowed density scenes using support vector regression[J]., 2013, 18(4): 392-398.

[7] Wu Xin-yu, Liang Guo-yuan, Lee K K,.. Crowd density estimation using texture analysis and learning[C]. 2006 IEEE International Conference on Robotics and Biomimetics, Kunming, 2006: 214-219.

[8] Guo Sen, Liu Wei, and Yan He-ping. Counting people in crowd open scene based on grey level dependence matrix[C]. 2009 IEEE International Conference on Information and Automation, Zhuhai, 2009: 228-231.

[9] Albiol A, Silla M J, Albiol A,.. Video analysis using corner motion statistics[C]. Proceedings of 12th IEEE International workshop on Performance, Miami, 2009: 31-37.

[10] Hajer F and Jean-Luc D. People counting system in crowded scenes based on feature regression[C]. Proceedings of the 20th European Signal Processing Conference, Bucharest, 2012: 136-140.

[11] Wan Qin and Wang Yao-nan. Background subtraction based on adaptive non-parametric model[C]. 7th World Congress on Intelligent Control and Automation, Chongqing, 2008: 5960-5965.

[12] Cucchiara R, Grana C, Piccardi M,.. Improving shadow suppression in moving object detection with HSV color information[C]. 2001 IEEE Intelligent Transportation Systems Proceedings, Oakland, 2001: 334-339.

[13] Harris C and Stephens M. A combined corner and edge detector[C]. Proceedings of 4th Alvey Vision Conference, Manchester, UK, 1988: 147-151.

[14] Gonzalez R C and Woods R E. Digital Image Processing[M]. Massachusetts: Addison-Welsey, 2007: 726-735.

[15] Hecht-Nielsen R. Theory of the backpropagation neural network[C]. International Joint Conference on Neural Networks, Washington, 1989: 593-605.

常庆龙：男，1986年生，博士生，研究方向为图像处理和模式识别.

夏洪山：男，1952年生，教授，博士生导师，研究方向为航空运输系统建模仿真与智能化.

黎宁：女，1967年生，副教授，硕士生导师，研究方向为图像处理和机器视觉.

A Method for People Counting in Complex Scenes Based on Normalized Foreground and Corner Information

Chang Qing-long①Xia Hong-shan①Li Ning②

①(,,210016,)②(,,210016,)

For the problem of people counting in intelligent video surveillance, a method of people counting in complex scenes based on the normalized foreground and corner information is proposed. First, based on the binary foreground, the area of normalized foreground after perspective correction is calculated. Second, the optimized corner information of foreground is extracted to compute the occlusion coefficient of crowd. Finally, the above two features are used as the inputs of the Back Propagation (BP) neural network to train and test the people counting. Experiments results show that, the proposed method exhibits good performance in complex scenes.

Video surveillance; People counting; Normalized foreground; Corner information; Back Propagation (BP) neural network

TP391.4

1009-5896(2014)02-0312-06

10.3724/SP.J.1146.2013.00620

常庆龙 hacql2004@126.com

2013-05-06收到，2013-08-26改回

中国民用航空局科技项目(MHRD2009211)和民航大重点实验室项目(1004-ZBA12016)资助课题