APP下载

基于深度学习网络的井下视频图像目标检测方法研究

2021-10-21杨光耀

中国新通信 2021年17期
关键词:卷积煤矿算法

【摘要】    煤矿井下监控视频图像目标检测对于井下工人的安全生产具有重要的意义。为了解决人工监控目标任务量巨大且效率低下的问题,本文针对四种较为先进的深度学习网络(YOLOv3,Faster R-CNN,SSD,EfficientDet)的网络结构进行研究,最后通过在自建的井下视频图像数据集上进行模型的训练和测试。分析结果显示,四种深度学习模型都取得了比较好的平均精度。

【关键词】    YOLOv3   Faster R-CNN    SSD    EfficientDet

引言:

我国是煤炭产业大国,由于煤矿井下复杂环境的影响,以及井下工人的错误和违规操作等导致的安全事故时有发生。使用视频监控对井下的工作进行实时监控,特别是对于矿工的识别与监测,对于确保生产安全有着重大意义。目前关于运动目标检测和跟踪的算法很多[1-5],但各种算法的局限性比较多,随着深度学习在图像处理中的广泛应用,越来越多的学者关注使用深度学习网络解决井下复杂环境的视频图像的目标检测的问题。

石永恒[6]等对自建安全帽数据集的预处理后,采用YOLO来对矿井下图像中的安全帽佩戴进行检测。李偉山[7]等提出了一种改进的Faster RCNN 煤矿井下行人检测方法,应用在井下行人检测中。周晨晖[8]采用改进SSD网络实现煤矿副井上、下井口场景的人员检测。

本文将针对深度学习目标检测领域较为先进的四种网络——YOLOv3,Faster R-CNN,SSD,EfficientDet进行研究,并结合自建煤矿井下图像数据集进行实验,对比四种网络进行目标检测的效果。

一、四种深度神经网络介绍

1.1 YOLOv3

YOLOv3是YOLO (You Only Look Once)系列目标检测算法中的第三版,是由华盛顿大学的Joseph Redmon在2018年提出的,该网络以较好的识别小目标物体,并能够预测出物体类别和位置。在井下监控视频中,大多数情况下,人员只占整个视频图像的较小部分,因此使用YOLOv3可以很好的解决井下视频中人员难以识别检测的问题。

YOLOv3是一个单阶段的完全卷积网络,仅用75个卷基层组成,其使用残差网络Darknet53作为主干特征提取网络,检测层由三级特征层融合使用多标签分类,用多个独立的逻辑分类器替换softmax函数。相比于 YOLO v2网络,YOLOv3在识别速度保持不变的情况下,提升了预测精度,并且加强识别小目标的能力。但YOLOv3也存在不足,主要是识别物体的位置准确性不高。

1.2 Faster RCNN

Faster RCNN是Shaoqing Ren等在2016年提出的一种两阶段网络结构,是对Fast RCNN的改进版本。该网络将将整张图片作为输入,特征提取使用CNN实现,用区域候选网络(RPN)生成建议窗口,再把窗口映射到CNN的最后一层卷积的特征图上,随后通过池化层生成了固定尺寸的特征图,输入后续的全连接层判定目标类别,最终进行回归获得检测框的精确位置。Faster RCNN对小目标物体有较好的检测结果。Faster RCNN缺点是对于遮挡的目标会有漏检情况发生,而且两阶段网络相比于单阶段网络实时性略差。

1.3 SSD网络

SSD网络是Wei Liu于2016年提出的一种单阶段目标检测网络结构,它融合了YOLO和Faster RCNN的优点。该网络使用VGG16作为主网络架构,并将VGG16最后的两个全连接层改成卷积层,在此基础上又新增4个卷积层构造出整体网络结构。SSD直接融合了不同卷积层上的多尺度特征图,根据融合的特征图采用特征金字塔方式提取检测结果。采用端对端的方式,对于分辨率较小的图片也能较好的进行处理。SSD网络的缺点在于对小尺寸的目标识别不如Faster RCNN网络。

1.4 EfficientDet

EfficientDet 是由google公司的Mingxing Tan于2019提出的,其亮点在于使用双向特征金字塔网络以及一种复合尺度缩放方法。EfficientDet主要由主干网络、特征网络、预测网络三个部分组成。其中主干网是基于google的EfficientNet网络,特征网络采用双向特征金字塔网络,预测网络由类别预测网络和边界框预测网络两部分组成,两个网络共享特征网络的权重。EfficientDet在网络变大时效果提升明显,精度上限也同步提升。

二、井下图像目标检测评估指标

本文召回率、和精确率和均值平均精度mAP(mean Average Precision)作为井下图像目标检测的评估指标[10],计算公式如下:

式中,P是精准率,R是召回率,TP(True Positives)指预测正确的正样本数量,TN(True Negatives)指预测正确的负样本数量,FP(False Positives)指预测错误的正样本数量。FN(False Negatives)是预测错误的负样本数量。

三、实验结果及分析

本文在Pytorch上搭建运行四种网络,使用由煤矿监控视频获得的井下视频图像数据集进行实验,数据集中包含3086张图片。实验的软件环境:Pytorch1.2.0深度学习框架。用于训练和测试的计算机硬件配置:Windows10操作系统,NVIDIA GeForce GTX 1060显卡,Intel(R)Core(TM) i7-4790K CPU @4.00GHz处理器,内存容量8GB(8GB×1) DDR4 2666MHz。

图1所示了四种不同深度学习算法下的井下图像的目标检测效果。可以看出四种网络对图像中的目标有着较高的置信度,均超过0.8。

为了验证本文所用的四种深度网络的有效性,使用了自建的井下图像集作为测试集分別对四种模型进行评估,并计算了准确率,召回率以及mAP值,评估结果如表 1 所示。

测试结果表明,SSD算法对测试集的mAP值达到了99.15%,精确率Precision达到了97.10%。通过对比发现,SSD算法对井下图像目标检测的精确率、mAP 值均高于 Yolov3、SSD、EfficientDet三种算法,对于井下的图像拥有较好的目标检测精确度。

四、结束语

本文实现了基于四种不同深度学习模型的井下目标检测算法,并对不同算法的平均精度mAP等指标进行了对比。结果表明,在四种模型中SSD算法能较为精准的对井下的图像进行目标检测,为后续的煤矿井下图像的目标检测提供了研究和发展的方向。

参  考  文  献

[1]刘毅翟,贵盛.基于井下移动图像采集的目标识别与精确定位方法[J].工矿自动化,2021,47(5): 65-70.

[2]朱光泽. 基于目标检测与跟踪算法的煤矿井下视频监控系统研究[D]. 辽宁工程技术大学, 2017.

[3]张辰. 井下环境中运动目标检测与跟踪研究[D]. 中国矿业大学, 2014.

[4]Dalal N, Triggs B. Histograms of oriented gradients for human detection[C]//2005 IEEE computer society conference on computer vision and pattern recognition (CVPR05). Ieee, 2005, 1: 886-893.

[5]Ren S , He K , Girshick R , et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(6):1137-1149.

[6] 石永恒,杨超宇.基于深度学习的矿井下作业人员安全帽佩戴检测[J]. 绥化学院学报,2021(09):148-152.

[7] 李伟山,卫晨,王琳. 改进的Faster RCNN煤矿井下行人检测算法[J]. 计算机工程与应用,2019,55(4): 200-207.

[8] 周晨晖.基于深度学习的煤矿复杂场景人员检测与统计分析方法研究[D].中国矿业大学.2018.

[9] 许风志.煤矿井下视频运动目标的检测与识别研究[D].西安科技大学.2019.

[10] 吴守鹏.基于机器视觉的运煤皮带异物识别方法研究[D].中国矿业大学.2019.

杨光耀(1984-),男,汉族,陕西神木人,工程师(机电),学士学位,主要从事煤矿机电及智能化矿井建设工作。

猜你喜欢

卷积煤矿算法
煤矿党支部如何推进党风廉政建设
基于图像处理与卷积神经网络的零件识别
PLC技术在煤矿提升机控制系统的应用
基于全卷积神经网络的变压器故障诊断
基于深度卷积网络与空洞卷积融合的人群计数
Travellng thg World Full—time for Rree
浅谈煤矿开采技术的发展及存在的问题
卷积神经网络概述
学习算法的“三种境界”
算法框图的补全