基于深度学习的行人数量统计方法

2019-12-19杨亦乐高玮玮马晓峰

软件 2019年11期

杨亦乐高玮玮马晓峰

摘要：为了实现对视频中的行人进行实时、准确的人数统计，提出了一种基于深度学习的计数方法。首先，通过K-means聚类方法优化检测模型的先验框;其次，使用实际场景下获取的行人图像对深度学习模型YOLO-v3进行训练;然后利用Deep sort在线多目标跟踪算法跟踪多个行人并分别获取其轨迹;最后通过计数线法判断行人数量。该方法计数准确率可达89.2%，每帧检测时间可达65ms，且场景适应性强，鲁棒性好，可满足实时行人计数要求。

关键词：深度学习;人数统计;多目标跟踪

【Abstract】： In order to realize real-time and accurate population statistics of pedestrians in video， a counting method based on deep learning is proposed.Firstly， the priori box of the detection model is optimized by k-means clustering method.Secondly， the deep learning model YOLO-v3 is trained by using pedestrian images obtained in real scenes.Then Deep sort online multi-object tracking algorithm is used to track multiple pedestrians and obtain their trajectories respectively.Finally， the number of pedestrians is determined by counting line method.The counting accuracy of this method is up to 89.2%， and the detection time of each frame is up to 65ms. In addition， it has strong scene adaptability and good robustness， which can meet the requirements of real-time pedestrian counting.

【Key words】： Deep learning; People counting; Multi-target tracking

0 引言

随着城市化进程加快，各个行业对行人人数统计的需求与日俱增。近年来，随着深度学习在图像处理方面的应用，大大推进了视频监控技术的发展，利用这一技术，能够准确分析视频内容，获取量化数据，使管理者能做出更加合理与高效的决策。

现有的基于视频的人数统计系统所采用的算法可以分为3类：基于高斯过程回归的行人计数方法[1]，这类方法复杂度低，但是需要手动调整回归参数，不适用于多种不同的场景，其鲁棒性较差;基于帧差法的计数方法[2]，该方法在单一且人群稀疏的场

景下计数效果较好，但是要求视频拍摄背景稳定，对硬件设别要求高，建模复杂，不适用于多种环境下的计数;基于目标检测跟踪的方法[3]，这类方法场景适应性强，鲁棒性高，但是在人群密集伴随着严重遮挡的情况下检测效果较弱，其行人计数准确度依赖于目标检测与跟踪算法的性能。近年来，也出现了一些通过深度学习对行人计数的方法[4，5]，此类方法在传统的检测思路的基础上，提高了在各个步骤上的性能，提升了计数的准确性。

在基于目标检测的跟踪方法的基础上，提出使用YOLO-v3（You Only Look Once）深度学习模型对行人进行检测，再使用Deep Sort（Simple Online And Real-time Tracking With A Deep Association Metric）实时多目标跟踪算法跟踪检测出的行人目标，最后再使用过线计数法对行人完成人数统计。

1 方法

行人人数统计的过程主要包括行人检测、行人跟踪和行人计数3个步骤。首先，通过优化过的YOLO-v3对视频中的每一帧进行行人检测;然后，引入Deep Sort算法对多个行人进行跟踪，通过跟踪序号获取每个行人的运动轨迹;最后，比较运动轨迹与计数线的位置关系，完成行人计数，实现人数自动统计。具体算法流程如图1所示。

1.1 行人检测

为了取得良好的行人跟踪效果，就要准确、快速的检测出行人。在目前的目标检测方法中，使用深度学习的检测方法在准确度与速度表现上尤为突出。YOLO-v3[6]是一种实时端到端的实时深度学习目标检测算法，它参照了深度残次网络的结构后，在Darknet-19的基础上添加了残差单元，并且在卷积层后面增加了批量归一化来代替随机去除数据的操作来防止过拟合，在加深了网络深度的同时，又避免了梯度消失、梯度爆炸、过拟合的问题。将19个卷积层的Darknet-19加深至53个卷积层的Darknet-53，其检测速度依然满足实时的要求。YOLO-v3将Darknet-53作为特征提取的骨干网络，更多的卷積层提供多尺度检测的基础，在参考FPN结构后，在3个尺度上进行预测，每个尺度预测有3个不同的先验框，这使得YOLO-v3无论在大目标还是小目标的检测上都有一个更好的表现，在行人检测方面有着不错的表现。为了更好的检测行人，提出使用k-means聚类算法以及对实际场景下的行人图像进行训练的迁移学习方法优化YOLO-v3。

1.1.1 K-means聚类

K-means算法是一种高效、快速的聚类算法，主要用于大样本数据集。它采用距离作为相似性的评价指标，两个样本之间的距离越小，则相似度越高。该算法认为簇是由距离靠近的对象组成的，最终结果是得到k个独立的簇。