APP下载

基于置信度时间相关矫正的视频流目标检测算法

2022-01-21陈颖焦良葆曹雪虹

现代计算机 2021年33期
关键词:视频流置信度安全帽

陈颖,焦良葆,曹雪虹,

(1.南京邮电大学通信与信息工程学院,南京 210003;2.南京工程学院人工智能产业技术研究院,南京 211167)

0 引言

近年来,多媒体技术迅猛发展,图像识别技术作为计算机视觉领域中的重要分支,被广泛应用到航天航空领域、军事领域、公共安全领域、工农业等相关领域。而伴随着国家大力发展基础建设,全国建筑业安全生产理念也逐步进行推广,为了提高建筑业对施工人员的安全帽佩戴检测[1]情况,降低由于作业人员没有佩戴安全帽而造成的事故发生率,将图像识别技术[3]应用到实时检查工人是否佩戴安全帽非常重要[2]。本文使用YOLO网络[4]对施工场所的施工人员是否佩戴安全帽进行检测,由于会产生漏检错检情况,导致最终结果的不准确。所以本文考虑通过检测出漏检错检图片,并对其错误检测数据进行矫正。

1 目标检测算法

1.1 数据获取

通过实地施工场所拍摄的视频,并对数据集进行筛选,选取符合课题的视频,使用opencv[5]将每个视频切分成帧图片,建立目标检测的训练集和测试集,包含了背光、逆光、近距离、远距离、部分遮挡和安全帽种类各异等情况,并将所述数据集划分为训练数据集和测试数据集,部分样本数据如图1所示。并采用LabelImg标注工具[6]通过对每一张图像中的目标进行人工标记感兴趣区域和类别标注。

图1 安全帽佩戴样本图像

1.2 目标检测算法

YOLOv3网络是由Joseph Redmon等[7]提出的一种目标检测算法。传统的YOLOv3网络对视频流的目标检测[8]框架如图2所示。

图2 传统视频流目标检测模型

YOLOv3的主干网络Darknet-53通过借鉴Resnet[9]的思想,在网络中加入了残差模块,有利于用于深层网络的梯度消失和爆炸问题。网络中没有使用池化层和全连接层,而是通过改变卷积核的步长来实现特征图的尺寸变换。

YOLOv3在特征融合[10]方式上通过借鉴FPN的思想,采用上采样(Up Sampling)和合并(Concatenate)操作来融合三个尺度(13×13、26×26和52×52)的特征图,在多个尺度的融合特征图上分别进行独立检测,提升小目标的检测能力。并使用k-means聚类算法[11]获得YOLOv3中三个检测尺度的9个anchor值,并输入到网络中。

其中基于特征提取网络构建包含损失函数Logistic的目标检测模型[12]。采用上述训练数据集对所述目标检测模型的损失函数进行迭代训练,并使用预训练权重,训练结束得到所需的权重文件。

检测过程中会生成检测数据文件,文件中有预测边框的坐标与宽高(bx,by,bw,bh)和置信度P0,公式如下:

其中σ(x)=1∕( 1 +e-x),cx,cy代表单元格从左上角的偏移量,pw,ph代表锚框的宽度、高度。

所述目标置信度P0为预测边界框内存在目标的可能性,其计算公式为:

其中Pr(Object)表示当前网格内是否包含目标的中心点,如果包含,则为1,反之为0;表示网络的预测边界框和真实边界框面积的交并比[13],当P0大于0.5时,表示当前目标框内有目标被检测出。

2 基于时间相关的置信度矫正模型

2.1 基于时间相关的置信度矫正模型

由于视频流[14]中的时间相关性,本文提出了基于时间相关的置信度矫正模型,如图3所示,分别采用一次指数平滑法[15]、简单移动平均法[16]、加权移动平均法[17]和自适应滤波法[18]四种对没有明确规律性的时间序列预测方法[19]来建模,进行对比,选取最优模型。

图3 基于时间相关的置信度矫正模型

图3 基于时间相关的置信度矫正模型(续)

四种数据处理预测方法以原数据与处理后数据的标准差σ作为评价指标,即处理后数据越接近原数据,则这种方法就越适合预测下一期数据。

首先根据从YOLO网络输出的检测文件,每个输出信息框所属图片的编号ck,该对象的置信度得分pi(0≤pi≤1),输出信息框的坐标信息xmin、ymin、xmax、ymax,其中每一个输出信息框的输出数据为xki=[ck,pi,xmin,ymin,xmax,ymax],依次检测目标框置信度是否大于等于0.5,对于置信度小于0.5的对象判断其是否为漏检目标,根据检测数据总结出相邻帧图片同一目标的目标输出框坐标差小于20 px,通过该输出框坐标依次从当前帧向前和向后,相邻帧之间循环比较,如果在当前帧前后目标都有被正确检测出,则判断该目标漏检。对于置信度大于等于0.5的目标判断其是否为漏检目标,将此目标输出框坐标与前五帧和后五帧图片的所有目标框进行比较,如果没有与之相符合的目标框,则判断为目标错检。

以下为使用四种数据处理方法对漏检、错检目标在当前帧前目标被正确检测出的置信度组合的数组进行处理,原数据与处理后数据的对比结果如表1所示。

表1 四种数据处理方法的σ值对比

通过对比得出,经过一次指数平滑法处理过的数据更接近原数据,所以本文使用此方法矫正漏检目标置信度和抑制错检目标置信度,即采用模型c作为置信度矫正模型。

2.2 基于指数平滑法的置信度矫正

本文采取的指数平滑法为一次指数平滑法,该方法在本文中的建模过程如图4所示。

图4 指数平滑法流程

一次指数平滑法有一个初值,由公式(6)得出。

低于20项n一般取3,大于20项的本文取5。

一次指数平滑需要滞后一期,则一次指数平滑的计算公式为:

本文中x[i]为漏检、错检目标在当前帧前目标被正确检测出的置信度组合的数组,1≤i≤n。

预测下一期数据:

指数平滑法中最重要的参数是平滑常系数α[16],α的取值范围是[0,1],α值越大表示对未来的预测中越近期的数据权重越大。α一般是先根据经验做一个大概的预估,基本判断标准如下:

(1)时间序列比较平稳时,选择较小的α值,α在0.05~0.20之间。

(2)时间序列有波动,但长期趋势没大的变化,可选稍大的α值,α在0.10~0.40之间。

(3)时间序列波动很大,长期趋势变化大有明显的上升或下降趋势时,宜选较大的α值,α在0.60~0.80之间。

(4)当时间序列是上升或下降序列,满足加性模型,α取较大值,α在0.60~1之间。

再重复试算过程,比较不同α值下,引入均方误差σ概念来判断平滑系数α是否准确:

通过实验比较得出当α=0.9时,均方误差最小,由于数据集是由视频中提取,时间上属于上升序列,所以较大的α值均方误差较小。

3 评价指标与实验结果分析

3.1 评价指标

本文采用对测试样本计算精度(Precision)和召回率(Recall),引入精度均值(AP)作为评估指标。以Recall为横轴,Precision为纵轴绘制P-R曲线并对其积分求出曲线下的面积即AP,表达式如下:

式(11)、式(12)中,TP为分类正确的正样本[20],FP为分类错误的负样本,FN为分类错误的正样本,式(13)中P(r)为P-R曲线函数表达。

3.2 实验结果与分析

图5为数据集1中的第171帧图片,存在检测目标漏检,此目标框原始检测数据为[171,0.256614,49.407391,424.668915,117.287079,537.215149],该漏检目标在当前帧之前能被正确检测出的目标置信度为x[i]=[0.999987,0.999990,0.999991,0.999996,0.999950,0.999983,1.000000,1.000000,0.860279,0.999570,0.999864,0.999379,0.999144,0.939832]。通过一次指数平滑法对x[i]中数据进行处理,初值S0=0.999987,α=0.9,再由公式(7)、(8)、(9)预测出下一期数据xn+1为0.940425,即经过置信度矫正后此检测目标的置信度为0.940425。

图5 漏检图片

图6为数据集1的第357帧图片,存在检测目标错检,此目标框检测数据为[357,0.796121,1699.169800,385.834717,1813.965210,580.458984],该错检目标在当前帧之前被正确检测出的目标置信度为x[i]=[0.823400,0.804521,0.764932,0.853120,0.743512,0.763596,0.782495,0.792402],通过一次指数平滑法对x[i]中数据进行处理,初值S0=0.823400,α=0.9,再由公式(7)、(8)、(9)预测出下一期数据xn+1为0.773921,将此异常置度修改为1-xn+1=0.226079,将错检置信度抑制为正常值。

图6 错检图片

本文基于YOLO网络+置信度矫正算法与原基于YOLO网络的检测结果在多个真实数据集的验证对比结果如表2,表3所示。

表2 基于YOLO网络的检测实验结果

表3 基于YOLO网络+置信度校正检测实验结果

通过以上两个表格中数据的对比,结果表明本文提出的算法能够针对异常检测数据,使用指数平滑法对置信度较低的漏检目标进行预测矫正;对错检数据的置信度进行抑制,从而降低目标检测漏检和错检率,MAP值平均提高了7.7%。

4 结语

本文使用YOLO网络对视频流进行目标检测,由于光照和角度等环境的不确定因素,在对视频流进行连续检测的过程中会出现某一帧漏检、错检或多帧连续漏检,所以提出一种基于时间相关性的置信度矫正算法对这一情况进行改善,并对多个数据集进行验证。从实验结果可以看出,该算法能够对异常数据进行矫正,对漏检错检情况有很大改善,从而大大地提高了目标检测的准确性。

猜你喜欢

视频流置信度安全帽
一种基于定位置信度预测的二阶段目标检测方法
爆笑四格
铁路货场智能大门集装箱全景图像采集方法研究
基于视频流的图像识别技术发展与应用
危险
基于手机APP、GIS、OLAP的移动运营商网格集中管理中心系统的设计与实现
校核、验证与确认在红外辐射特性测量中的应用
“多功能”安全帽
“头”等大事莫松懈