基于Faster RCNN的穿越围栏违规行为检测①

2022-05-10王志鹏

计算机系统应用 2022年4期

王志鹏,王涛

(中国石油大学(华东)计算机科学与技术学院,青岛 266580)

1 背景

电力行业是国民经济的支柱产业,也是支撑交通、金融、供水、供气等民生基础设施安全可靠运行的关键设施.电力系统的安全与稳定对社会的发展有很重要的影响[1],因此应该积极防范电力安全风险,提前对电力运维情况分析、降低该领域潜在的风险以及积极研发防御技术.目前,电力维护现场都会配备监控设备实时记录作业过程,但是对施工安全的管控仍然主要依赖于人工监察.这种方式会造成管控效率低下、人力资源浪费、发展进程缓慢等情况,并会伴随着一定的经济损失.

随着社会科学技术迅速发展,人工智能取得了突破性进展.各行业向自动化和智能化方向发展是实现工业4.0 智能制造目标的必然趋势[2].如今,人工智能在工业生产的许多方面都有实际应用,这使得用智能方法对电力施工现场进行安全管控有了现实可能.智能安全管控系统利用视频设备实时检测作业过程中的违规行为,不仅可以节省人力资源,而且可以实现全时段覆盖检测,降低作业过程中的安全风险,有效提高作业效率.

安全围栏在电力运维作业中扮演着重要的角色,可以保护工作人员免受外界因素干扰,保障无关人员的安全性.现有的围栏主要有菱形围栏、单柱双带围栏、旗子围栏、网状围栏等.在变电器维修、街头环网柜维护以及吊车等作业过程中,都需要提前布置围栏.但是许多作业人员安全意识较差,出入围栏时往往不按照布置围栏时预设出入口进出,而使直接跨越围栏、挪开围栏以及钻过围栏等,这些不规范的行为给施工作业造成了很大的安全隐患.现场监管人员由于自身的作业任务,以及作业现场覆盖面积广等问题,很难监测到每个违规行为,非常容易造成安全事故.针对这种情况,设计一款高效的智能化的穿越围栏违规行为检测方法势在必行,对违规行为及时警告与制止,增强作业过程中的安全性.

2 相关工作

2.1 电力安全管控

电力施工现场的安全管控涉及到方方面面[3],但大多需要监管人员的现场监管,针对施工现场检查表逐一排查,效率较低且时效性较差.围栏是重要的安全工具,为了实现高效智能化管控,基于红外线的电子围栏应用于实际[4],同时相对应的监管系统也逐步完善[5].随着人工智能高速发展,房凯也提出了基于深度学习的跨越围栏违规行为检测方法[6],促进了监管方法的多样性.

2.2 目标检测

随着卷积神经网络的盛行,目标检测取得了突破性的进展.目前目标检测主要分为两大流派:anchorbased 和 anchor-free.Anchor-based 方法会在特征图上生成一系列的人为定义尺寸和宽高比的矩形框作为候选框,然后对这些候选框进行分类和回归进而得到目标区域.Ren 等人[7]提出的RPN(区域建议网络)改进了传统的SS(selective search)方法,极大地推进了anchor-based 方法的发展,YOLO 也由v1[8]的版本的anchor-free 改为了anchor-based 方法.随后许多方法提出解决anchor-based 方法中的缺点,如使用nms 删除候选框和Mask RCNN[9]提出的ROI Align 解决ROI pooling 中的量化取整问题.Anchor-based 方法还包括:SSD[10],FPN[11],RetinaNet[12]等.Anchor-free 方法则是摒弃了anchor 的思想,利用关键点进行回归获取目标框.2018年,Law 等人[13]提出CornerNet 通过预测左上角和右下角的角点检测目标,随后ExtremeNet[14]改进CornerNet 通过预测极值点和中心点来预测目标,类似的还有CenterNet[15]预测角点以及中心点.同时FPN网络也被应用于anchor-free 方法中,包括FSAF[16]、FCOS[17]、FoveaBox[18]等.虽然目标检测取得了很大成功,但无法有效的检测出运动物体,在动作识别方面有很大的局限性.

2.3 帧差法

帧差法是通过计算相邻帧图像的灰度差与设定阈值的大小关系来判断图像中是否存在运动目标的检测方法,主要分为两帧差法和三帧差法.两帧差法适合运动目标较缓慢的场景,当运动目标移动速度较快时,三帧差法的检测结果更为准确.帧差法被广泛应用于运动目标的检测,周越等人[19]利用帧差法检测运动车辆,也有研究将帧差法应用于滤波跟踪[20].帧差法也会与其他技术进行结合,例如背景差分法[21,22].欧先锋等人[23]将帧差法融入卷积神经网络中,提升了复杂场景以及小目标的检测效果.

2.4 动作识别

为了有效地捕获视频中的外观和运动信息,Simonyan 等人[24]基于CNN 设计了一种双流卷积网络分别处理图片的RGB 图像信息和光流信息.双流网络也是动作识别领域的重要方法.之后Wang 等人[25]提出了TSN(temporal segment networks)解决长视频的行为判断和小数据的问题.除了双流网络,2015年Tran 等人[26]提出C3D 卷积网络,将卷积网络的卷积核结构从二维扩展为三维来捕获视频中的时空特征,从此三维卷积网络获得快速发展.Hara 等人[27]将三维卷积与ResNet[28]结合,增加了网络的深度,有效地提升了在动作识别领域的准确率.Carreira[29]将2D 网络的与训练权重应用与3D 网络,提升了模型的效果.虽然视频动作识别已经取得了很好的效果,但是其主要用于短视频的行为判断,无法满足安全管控的实时性的要求.

3 整体思路

为了有效地解决电力运维作业现场的穿越围栏监控问题,本文提出了一种基于Faster RCNN 的智能检测方法.首先对现场监控视频进行取帧,利用改进的Faster RCNN 算法检测围栏位置以及使用关键点算法检测人的关键点位置,通过设计的算法判断人员是否存在违规行为.穿越围栏是一个连续的行为,仅凭单张图像的检测结果容易造成误检,所以我们借助了帧差法的思想,将多张图像的检测结果进行连续性判断.最后我们将目标检测、关键点检测算法以及判断算法结合,提出一种端到端的穿越围栏检测算法.

3.1 整体结构

图1 描述了本文设计的基于Faster RCNN的穿越围栏违规行为检测方法的整体流程图.首先获取视频流,对视频取帧之后,将图像分别输入到Faster RCNN网络以及人体关键点检测网络获取到围栏的位置信息以及人体信息暂存至队列当中.然后利用帧差判断法判断该张图片是否存在违规行为,如果存在,就对该帧图像中的任务用红色框表示并将检测结果保存至本地.

图1 整体流程图

3.2 对于Faster RCNN 的改进

Faster RCNN 网络结构如图2所示.数据经过预处理后,送入到backbone 网络中提取特征得到feature map.Faster RCNN 提出的RPN(region proposal networks)网络首先生成anchor boxes 并通过Softmax 分类判断属于positive 或者negtive.得到的anchors 通过ROI pooling 层与feature map 结合提取proposal feature,然后通过全连接和Softmax 进行分类,并对proposals 进行回归修正.本文依据围栏目标的数据特征,对Faster RCNN 进行了如下调整:

图2 Faster RCNN 网络结构

(1)选用Resnet101+FPN 作为Backbone:Faster RCNN 采用的是VGG 网络的最后一层特征作为feature map,为了提升网络的特征提取能力,本文采用ResNet101网络结合FPN 网络作为特征提取网络.ResNet 网络是一个深度卷积神经网络,针对深度神经网络可能出现的随着网络深度加深导致训练集准确率下降的问题,ResNet 设计了残差模块提出了深度残差网络,提升了网络抗过拟合能力.图3 展示了两种残差结构.

图3 两种残差结构

低层的特征图语义信息少但是目标位置准确,高层的语义信息丰富但目标位置粗略,为了解决物体检测中的多尺度问题,FPN 设计了一种金字塔式的网络,可以在不增加原有模型计算量的情况下提升物体检测的性能.ResNet101 结合FPN 的具体网络结构如图4.

图4 ResNet101+FPN 网络结构

(2)修改anchors 比例.在Faster RCNN 中,RPN 会对特征图中的每个特征点提取9 个anchors,其中anchors 的长宽比设置为{0.5,1.0,2.0}.本文考虑到围栏数据往往是长条形状的,所以将长宽比设置为{0.5,1.0,2.0,3.0},这样使产生的anchors 更容易匹配到原图中围栏的目标区域.产生的候选anchors 通过Softmax网络二分类为positive 与negative,挑选2 000 个positive anchors 进行后续的计算.

(3)采用Softnms:NMS(non-maximum suppression)会对候选框进行排序,选中分数最高的候选框,最后抑制与选中框有明显重叠的候选框.为了优化NMS 这种略显暴力的方法,Softnms 应运而生.和NMS 相同,Softnms 首先也是对候选框排序,选择分数最高的框作为选中框,不同的是,对于其他有明显重叠的候选框的处理不是暴力的将其置信度置为0,而是会降低其置信度,进行下一次的选择.

(4)使用GIoU Loss:对于许多基于anchor 的目标检测算法,计算预测框与Ground Truth Bbox 的损失的时候往往使用L1 和L2 范数,但是评价预测框置信度的时候却使用的IoU(交并比),显然存在一定的问题.所以本文选择了GIoULoss 作为损失函数.GIoU的做法是:假设现在有两个预测框A和B,需要找到最小的一个可以将A和B包围的封闭形状C,然后计算C中不包含A、B的部分占C的比值.IoU以及GIoU的公式如下所示:

3.3 帧差判断法

帧差法是根据物体运动时目标在相邻帧图像上的差异进行运动目标检测的算法,通常采用灰度图的方式判断运动目标.本文借鉴帧差法的思想,将帧差法与目标检测结合进行穿越围栏违规行为判断.首先利用改进的Faster RCNN 以及人体关键点检测算法获取图像中围栏坐标以及人体17 个关键点的坐标并存储在判断队列中,判断队列的大小设置为5,即每次存储5 张图像的信息.如果某帧图像被认为可能存在违规行为,就会继续判断该帧图像与接下来几帧图像的运动关系,具体是当人体的关键点位于异常区域,就会继续侦察后几帧图像相关关键点的运动趋势,综合判断该帧图像的违规行为.算法流程图如图5所示.

图5 帧差判断法流程图

4 实验分析

本实验的硬件条件为:显卡NVIDIA GeForce RTX 2080Ti,处理器为Inter i7 9900k.选择MMDetection 框架,使用PyTorch 进行深度学习网络搭建,语言为Python 3.6.8.

4.1 Faster R-CNN 实验

本次实验共有围栏数据1 601 张,其中分为训练集1 387 张和测试集214 张.围栏共分为7 类:菱形围栏,横条围栏,旗子围栏,网状围栏,栅栏,单柱双带围栏,黄黑菱形围栏.使用UPCLabel 框出目标之后转化为COCO 格式.

为了尽量的减少背景噪声,对数据首先裁剪至大小为1 300×600,然后为了增强模型的泛化性能,对数据以0.5 的概率进行随机翻转.本次实验的评价指标为bbox_mAP 以及bbox_mAP_50.实验共训练50 个epochs,初始学习率设置为0.001,并在第20 次以及第40 次epoch 将学习率乘0.1.实验效果如表1所示.

表1 Faster RCNN 实验设置及结果(%)

综合以上结果,本文选用了ResNet101+FPN 作为网络的backbone,并对anchor 重新设计比例,使用Softnms和GIoU优化,最终模型可以达到76.9 的mAP_50 以及48.8 的mAP.此外研究还发现,在本文的数据集上,ResNet101 的效果要好于ResNet50,使用Softnms 以及GIoU 都可以提高模型的效果.另外,Softnms 的阈值需要根据数据集的情况来设定,本实验尝试了阈值选择为0.5,0.6,0.7 分别进行实验,最终选择了0.6 作为最终的阈值.

4.2 性能测试

训练得到模型后,将模型与帧差算法等其他部分结合,构建基于Faster RCNN的穿越围栏检测方法.为了验证该方法的性能,本文选取了5 段现场场景下模拟的违规视频,经过视频取帧、分类之后,共获取非法图片168 张,合法图片132 张.由于要求图片的连续性,所以我们将图片按照视频取帧顺序依次输入检测方法中,利用txt 文件存储图片的标签.本次实验采用准确率作为评价指标,其计算公式如式(3):

其中,N表示图片的总数量,本实验中为300,y表示该图片是否合法,yi表示该图片的标签.经过一轮实验,共正确检测图片276 张,漏检和误检图片共24 张,准确率达到92%.

为了验证本方法的稳定性以及帧差判断方法的有效性,本文将上述实验进行多次,然后将其结果与未使用帧差判断方法的结果进行对比,结果取多次实验结果的平均值,实验结果如表2.

表2 帧差判断法验证实验结果

从表2 结果中可以看出,本文提出的帧差判断方法可以有效的提升穿越围栏检测方法的准确性,准确率提升16.4%.误检率和漏检率都大幅度减小,特别是误检数量,采用帧差判断方法之后从40 张减少到5.3张.部分实验效果如图6所示.

如果图6 中检测到存在违规的工作人员,我们会发出违规警告信息,然后将违规人员信息保存并通过OpenCV 使用红色警戒框表示并保存该帧图像至本地.并且该方法的处理速度可以达到32 fps,完全可以达到实际应用中的实时性的要求.

图6 实验效果图

5 结论与展望

本文将深度学习目标检测与帧差法的思想结合提出了一种基于Faster RCNN的穿越围栏违规行为检测方法.首先基于数据的特点,改进了Faster RCNN 网络,包括选用ResNet101+FPN 的骨干网络,修改的anchor的比例,选用Softnms 和GIoU.然后借助围栏目标与人体关键点信息,结合帧差判断法进行穿越围栏违规行为检测.实验结果证明,改进的Faster RCNN 网络在围栏数据集取得了更好的效果,提出的帧差判断法也能够更好的检测出视频中的违规行为,检测速度达到32 fps,可以达到实际应用中的实时性要求,并具有较高的准确性,可以有效的提升电力场景安全管控的效率.

实验结果也显示方法仍然存在一定的漏检数量,未来将继续考虑实际复杂的场景,更加充分利用视频的光流信息,提升穿越围栏检测的准确性.