基于YOLOV4-Tiny的坠楼检测预警应用

2022-03-23温桂璋李丹

网络安全技术与应用 2022年2期

◆温桂璋李丹

◆温桂璋李丹

（四川大学锦城学院计算机与软件学院四川 611371）

随着社会的发展，房地产的兴起，高楼的新建，坠楼事件频频发生。不仅对坠楼人员及其家人的生命、财产受到威胁，也会影响到事发所在地的人员的生命和财产安全。针对坠楼事件的发生，本文提出一种基于YOLOV4-Tiny的坠楼检测预警应用，在检测到有人靠近窗户，顶楼边缘等容易坠楼的地方后对监管人员发出预警。YOLOV4-Tiny是基于YOLOV4的轻量化模型，网络结构更简单，检测速度快，适于实时且硬件条件有限的目标检测。本研究在Colab平台上，采用VOC2011数据集中含有人类的图像作为数据集训练模型，YOLOV4-Tiny的MAP为80%，在嵌入式系统或移动设备上实时检测有优秀的性能。

目标检测；YOLOV4-Tiny；人类；坠楼检测预警

随着时代的发展，移动网络和光纤的覆盖，智能手机的普及和移动支付的应用，一方面，网络诈骗，网络贷款接踵而至。骗子作案方式花样繁多，为达目的不择手段，受害者在身心受到折磨和财产遭到大量损失后，一部分人选择从高楼跳下结束自己生命。另一方面，随着当今社会飞速发展，人们所承受的压力也随之增大。无论成年人还是未成年人，长此以往在这种情况下，很容易超过自身的能力范围，一旦超过了自身的能力范围后，就很容易走向极端，其中不乏因此而跳楼轻生的人。这些选择跳楼的人，大多趁无人时选择从楼顶（窗户）跳下结束自己的生命。如果有人及时发现了并在他身边说说话、聊聊天、安慰安慰他，帮助他调整一下自己的心态，这当中的大部分人会冷静下来不会选择轻生。但建筑顶层大多面积大、鲜有人至，单纯依靠人力，难以做到实时监管，及时规避风险。

在日常生活中，有不少儿童从高空坠落的悲剧发生。小孩子年纪小，好奇心重又难以察觉高度可能带来的危险，在玩耍过程中存在危险隐患，家长在看护过程中若有一时疏忽，极易造成悲剧的发生。若家里的大人或邻居及时发现，及时解除危险，就能避免危险发生。但遗憾的是，虽然家用摄像头快速普及，但不可以发出坠楼风险预警，单纯依靠家长长时间看监控视频避免坠楼事件发生有很大的难度。针对以上问题，急需一种可以在家庭中适用的，轻量化的实时坠楼检测系统，在易坠楼区域出现人员时，及时对监管人员发出预警。

近年来，随着计算机技术的发展，深度学习模型已经逐渐成为了目标检测领域的一种主流算法。在深度学习模型中可大致分为二阶段（two-stage）和一阶段（one-stage）两种图像目标检测算法。二阶段目标检测算法检测和分类分别进行，代表模型有：Faster R-CNN[1]，R-FCN[2]，Mask R-CNN[3]。一阶段中目标检测和分类算法同时进行，经典模型如：RPN[4]，SSD[5]，YOLO[6]，RetinaNet[7]。在通常情况下，二阶段目标检测算法在精度更胜一筹，但一阶段目标检测算法的速度更快。综合来看，一阶段目标检测对硬件的要求更低，更适用于对监控设备进行实时检测。

1 YOLO系列

2016年Joseph Redmon等人提出YOLO系列的初代算法YOLOV1[6]并在CVPR上发表。在该文章中，YOLOV1 backbone受GoogleNet影响，将输入的图像分割成7*7个格子，其中每个格子输出2个bounding box（每个bounding box包括检测框的中心位置坐标，预测的置信度、宽度、高度5个参数），预测出20个物体可能属于的类别信息，最终输出大小不变、维度为30的张量。基于这种方式，YOLO会在输出结果中体现出该目标所有的信息。YOLO算法的出现使得目标检测在检测准确率变化不大的情况下检测速度大量提升，且通用性强。此后在YOLOV1的基础上不断改进完善算法，YOLOV2比YOLOV1预测更准确，速度更快，识别对象更多，基于YOLOV2构架的YOLO9000[8]甚至能检测9000种不同的对象。

YOLOV3[9]在之前算法的基础上通过改变模型结构的大小提高速度与精度，并将网络结构分成了输入端、主干网络、neck、prediction四个部分。2020年发布的YOLOV4的整体架构和YOLOV3是相同的，只是使用了新的算法对输入端、主干网络、neck、prediction的具体组成都进行了改进，如：在输入端增加Mosacio数据增强，将主干网络的结构改为CSPDarknet53再结合SPP模块和Dropblock，以及后面的SPP模块、PAN模块等，让目标检测的速度更快。YOLOV4[10]相对YOLOV3来说对硬件的要求更低，更适合单GPU的训练目标检测模型。但还不足以在计算能力和内存有限的移动设备和嵌入式设备上面使用。YOLOV4-Tiny是在YOLOV4精简后的轻量化模型，参数只有原来的十分之一，结构更加简单，检测速度更快，更适于实时且硬件条件有限的目标检测。

1.1 YOLOV4-Tiny

YOLOV4-Tiny（网络结构如图1所示）是将YOLOV4轻量化后的版本，YOLOV4共有6000万左右的参数，YOLOV4-Tiny只有600万左右的参数，仅为原来的十分之一。虽然精度有一些下降，但已经满足了实际需要，并提高了完成目标检测的速度，对硬件要求更低，更加适合在硬件条件苛刻的情况下进行实时目标检测，极大地提高了将目标检测方法部署在嵌入式系统或移动设备上并达到实时检测的可行性。

图1 YOLOV4-Tiny网络结构

（1）主干网络

使用CSPDarknet53-Tiny作为主干网络，整个主干网络共38层。在使用了2个卷积块对输入图像进行下采样后，使用了3个残差单元，为了更进一步提高检测速度，将YOLOV4的主干网络中的Mish激活函数改为Leaky激活函数。其中的主干部分进行残差块的堆叠，另一部分跨阶段层次连接到FPN结构后将它们合并。CSPnet的作者认为这种做法可以在保证准确率的情况下，解决网络优化过程中的梯度信息重复所导致的推理成本过高的问题。与复块模块相比，CSP块模块可以提高卷积网络的学习能力。虽然这使计算量增加了，但它在轻量化的情况下也保证了准确率，降低了内存成本。

（2）特征金字塔

在特征融合部分，YOLOV4-Tiny方法与YOLOv4方法中使用的空间金字塔池和路径聚合网络用于特征融合的方法不同。YOLOV4-Tiny使用了特征金字塔网络来提取13×13和26×26两种尺度的特征图，以提高目标检测速度。以至于YOLOv4最终输出3个YOLO Head，YOLOV4-Tiny最终输出2个YOLO Head。

（3）Mosaic数据增强

Mosaic数据增强是从2019年底提出的CutMix[11]数据增强，为了提高GPU利用率，利用了两张图片进行拼接中受到了启发，为了更进一步在提高算法性能，增大GPU的利用率，Mosaic数据增强在此基础上，多采用了2张图片进行拼接，批量标准化地从每个层4个图像中计算激活统计信息，大量减少了对大型小批量产品的需求，丰富了数据集，减少了对GPU的要求，缩短了数据处理的时间。

2 实验结果及分析

2.1 数据集

从拥有20个分类的VOC2011数据集中提取出现人类的7419张图片作为数据集，从中划分出6677张图片（大约90%）作为训练集，742张图片作为测试集（大约10%）。在划分数据集时需要将VOC2011中xml格式的标签改为YOLO适用的txt格式。随机缩放、随机裁剪、随机排布等数据预处理方式，在主干网络中会利用Mosaic数据增强自动进行。

2.2 模型训练

在Google Colab云端深度神经网络训练平台上，使用型号为Tesla T4的GPU对YOLOV4-Tiny模型进行训练和测试。在实验中YOLOV4-Tiny迭代了9000次，从图像（图2）中可以看出YOLOV4-Tiny在训练1800轮后损失值的变化趋近于稳定，在训练3600轮后map值的变化趋近于平稳。

图2 YOLOV4-Tiny的损失图像和MAP

2.3 实验结果及分析

从训练结果（图2）可以看出，YOLOV4-Tiny的MAP为80%，把训练好的模型在Google Colab云端深度神经网络训练平台上，用型号为Tesla T4的GPU，测试发现（图4）YOLOV4-Tiny的平均帧数为50.6，画面流畅，实时目标检测迅速。在视野清晰，光线良好的情况下（图3），置信度可以达到0.86以上。

图3 YOLOV4-Tiny的检测结果

图4 YOLOV4-Tiny的fps

3 坠楼检测预警系统

根据使用地点及监管人员不同，将坠楼检测预警系统分为两类。坠楼检测预警系统图5（a）在室内环境中易发生坠楼事件的区域的监控设备上部署一个检测系统。考虑到在室内环境下发生坠楼事件的情况更加突然，需及时解除危险，故在监控系统下易坠楼区域有人出现，立即启动示警系统，对监管人员做出示警。坠楼检测预警系统图5（b）是部署在室外环境下的，如楼顶、露台等地方，通常面积较大，活动空间较多，也会有人去看风景、晾衣服等。若这些区域一出现人立即示警就会造成大量的公共资源浪费，所以坠楼检测预警系统b在坠楼检测预警系统a的基础上增加了一个预警系统，在有人进入室外高层空间后，首先触发预警系统，提示该区域有人进入。检测系统继续进行检测任务，如果该进入人员靠近室外易发生坠楼事件区域，则立即触发示警系统，向该区域监管人员发出示警。

图5 坠楼检测预警系统

4 结语

本文提出了一种坠楼检测预警系统，按使用场景的不同具体分为两个结构，但检测系统是一样的，只是针对应用场景的不同在其中一个结构中增加了预警系统。在室内外易发生坠楼事件的区域安置摄像头并部署该检测系统，能帮助监管人员发现坠楼隐患，从而避免悲剧的发生。YOLOV4-Tiny模型的使用将目标检测方法部署在嵌入式系统或移动设备上，MAP也达到了80%，能更加快速、准确地在嵌入式系统或移动设备上实时检测，能在一定程度上减轻家长和公共区域监管人员的负担，但这还不足以进行准确的坠楼风险预警，误报概率较大，需要大量的人工干预。接下来可以从增加出现在坠楼风险区域的人员身体姿态识别、年龄识别、实时监控时间等方面，为坠楼风险划分等级，进行更进一步的分级预警研究，从而在一定程度上降低误报的概率，提高预警的准确性。

[1]Shaoqing Ren，Kaiming He，Ross Girshick，and Jian Sun. Faster R-CNN：Towards real-time object detection with region proposal networks. In Advances in Neural Information Processing Systems（NIPS），pages 91-99，2015. 2.

[2]Jifeng Dai，Yi Li，Kaiming He，and Jian Sun. R-FCN： Object detection via region-based fully convolutional networks. In Advances in Neural Information Processing Systems（NIPS）， pages 379-387，2016. 2.

[3]Kaiming He，Georgia Gkioxari，Piotr Dollar，and Ross Gir-´shick. Mask R-CNN. In Proceedings of the IEEE International Conference on Computer Vision（ICCV），pages 2961-2969，2017.2.

[4]Shaoqing Ren，Kaiming He，Ross Girshick，and Jian Sun. Faster R-CNN：Towards real-time object detection with region proposal networks. In Advances in Neural Information Processing Systems（NIPS），pages 91-99，2015. 2.

[5]Wei Liu，Dragomir Anguelov，Dumitru Erhan，Christian Szegedy，Scott Reed，Cheng-Yang Fu，and Alexander C Berg. SSD：Single shot multibox detector. In Proceedings of the European Conference on Computer Vision（ECCV），pages 21-37，2016. 2，11.