APP下载

改进级联卷积神经网络的预标注方法

2022-03-02

现代计算机 2022年23期
关键词:级联尺度卷积

叶 叶

(泰州学院信息工程学院,泰州 225300)

0 引言

随着智慧城市、智慧交通的迅速发展,目标检测任务在智能监控方面有着重要的作用[1]。而目标检测任务需要通过监督训练的方式来获取模型,快速地获取到标注数据集对于目标检测任务来说,具有重要的研究意义。

在目标检测任务当中,采用深度学习进行训练测试获取到一个泛化性能比较好的深度学习检测模型,需要对各种不同类型的模型训练以及测试,以获取到对于当前任务而言较好的适合模型,此时就需要采用大量的标注数据来进行监督训练,如果采用纯人工标注需要耗费大量的人力物力以及相当长的时间,在标注图片中还存在着曝光过高、低对比度、雨雪天气等各种难以标注的图片,导致人力物力以及时间上的消耗就会成倍地增加[2]。例如,imagenet的数据集通过亚马逊众包平台,总共由来自167个国家的47000名工作者,耗时3年进行标注而成。imagenet比赛的数据集图片总量超过1500万张、共22000多类带标签的高分辨率图像[3]。

当下的标注方式在以前的纯手工基础上进行了一定的改进,先使用已有的目标检测预标注工具进行数据的预标注,这样对于每张图片可以获取到相对粗糙的标注结果,然后再采用人工方法进行精确标注来提高效率,减少误标漏标以及人力的投入。随着深度学习技术的不断发展以及应用,目标检测算法的检测准确度得到了很大的提升,主要体现在错误的检测类别比例减小,正确的检测类别比例增加。级联卷积神经网络对网络性能有进一步的提升。

本文使用改进的级联卷积神经网络,用来对图像进行预标注[4]。级联卷积神经网络首先通过一个主干网络提取输入图像三个尺度上的特征,并将深层的特征进行上采样与浅层特征进行融合,在三个尺度上进行目标检测,然后将检测的结果输入下一级检测器进行二级目标检测,二级目标检测的结果输入到三级检测器进行检测,对三级检测结果进行融合,得到目标的位置以及分类信息。直接采用级联卷积神经网络虽然也有较好的检测精度以及准确度,但在精度上仍有提升空间。本文对级联卷积网络的网络结构进行一定的改进,处理方案被优化以提高算法的准确度以及定位问题。本文通过将输入层修改为多尺度输入、RPN层采用Anchor Free来减少模型计算量,并且提高模型的检测性能。最后,在I oU为0.5,FP P I为0.3时,本文的网络recall达到了64.52%,在预标注模型中具有较高的准确度。

1 级联卷积神经网络介绍

级联卷积神经网络是Cai等[5]发表在CVPR-2018上的高精度目标检测方法,它采用端到端训练方法,且其目标检测的检测框精度较高,即检测框与实际物体的框IoU值较高。该模型将检测框的边界回归分成三个阶段来进行逐步优化,同时对于检测物体的识别也综合三个阶段的结果综合考量[6]。

1.1 级联卷积神经网络思想

Faster R-CNN目标检测网络的特点在RPN训练阶段对于正负样本是采用I oU阈值来进行区分的,一般采用I oU阈值为0.5,当检测框和实际框的Io U阈值小于0.5为负样本,大于等于0.5为正样本[7]。但是在这里有个人为设定的IoU阈值来区分正负样本,这样训练出来的网络在预测阶段对于proposal框和实际框的I oU值在0.5左右的检测框的回归效果最好,但是对于Io U值较高的proposal框,其回归效果较差。同理,如果调整IoU阈值到0.6,则是对I oU值在0.6附近的检测框的回归效果最好。RPN网络proposal框的分布如图1所示。

图1 检测框Io U分布图

采用单个回归网络可以提高其中一部分检测框的检测精度,但是采用级联网络可以将检测框检测精度逐步提升,提高最终输出结果的检测精度,图2所示为经过级联网络后的proposal框的分布图,从左至右分别是一级proposal框Io U分布,二级proposal框Io U分布,三级proposal框IoU分布[8]。由此经过级联网络最终输出的检测框精准度有极大的提高。

图2 级联后检测框IoU分布图

I oU是检测框预测值和检测框实际值的交集与检测框预测值和检测框实际值的并集之比,如下式所示:

1.2 网络结构

级联卷积神经网络以Faster R-CNN为基本框架[9],如图3所示,总共有三级检测器,其中I为输入的图片,conv为用于提取特征的卷积层,采用FPN作为主干网络;pool为池化层,一般采用RoI Pooling层或者RoI Align层;H1、H2、H3为分类回归前的神经网络;B0是RPN输出的proposal,B1、B2、B3分别为三级RCNN的输出的检测框参数;C1、C2、C3分别是三级RCNN的分类结果。

图3 Cascade RCNN模型结构图

H1、B1、C1采用Io U阈值为0.5来进行训练,H2、B2、C2采用I oU阈值为0.6来进行训练,H3、B3、C3采用I oU阈值为0.7来进行训练,逐级对检测框进行检测回归以提高检测准确度和精准度。

2 基于改进级联卷积神经网络的预标注方法

本文主要利用级联卷积神经网络研究预标注方法,通过修改级联卷积神经网络结构,将级联卷积神经网络结构较好地应用在预标注方法领域。

2.1 改进的级联卷积神经网络算法

本文的级联卷积神经网络算法的整体结构图如图4所示。首先对输入图片进行调整,长边调整到1312,短边按图片的长宽比进行对应的缩放,然后将其输入到训练好的神经网络中进行识别,主干网络通过卷积层操作获取到8倍下采样、16倍下采样、32倍下采样的特征图,然后对各个特征图进行目标的检测和识别,获取到定位、类别、置信度,经过三级检测识别操作获取到结果。

图4 改进级联卷积神经网络结构

对于输入层,将原级联卷积神经网络单尺度输入替换成多尺度输入进行训练,通过实验得出多尺度能够提升检测的准确度与精准度。对于主干网络,将RPN层替换为Anchor Free层,对于建议框来说,Anchor Free的建议框质量相对于RPN更高,并且减少建议框的数量,提升检测速度以及检测召回率。

2.2 多尺度优化

级联网络的输入图片的尺寸是单一固定的,级联卷积神经网络的原始训练测试数据的数据源较为统一,但是在实际使用过程中会遇到数据源来自不同的摄像头的情况,图片尺寸差别较大,因此需要对级联卷积神经网络的输入层进行修改,将图片的长边缩放到1312,短边则按原图长宽比等比例缩放,如果原始图片长边大于1312,则需要将图片进行缩小,此时采用局部均值的方法来进行图像缩小,滤波器的尺寸大小计算如下式所示。

当输入图片长边小于1312时,需要将图片进行放大,此时采用双线性插值算法将图片进行放大,短边则按原图长宽比等比例缩放,双线性插值算法如下式所示[10]。

此时,对于输入的图片长边固定成1312,短边按原图比例缩放。并且基于金字塔方法的思想,对于输入图片进行金字塔式采样可以使得模型适应不同尺寸的图片,提取到更合理的图片特征[11]。训练时采用多尺度方式预设多种尺度,并对各尺度进行编号,输入层采用随机方式获取尺度进行训练,获取方式如下式所示。

2.3 Anchor Free优化

在级联卷积神经网络的RPN网络阶段,采用Anchor Base的方法来进行Anchor[12],采用Anchor Base的方法需要设定许多的超参,例如Anchor number,Anchor size,Anchor ratio等,这些超参的设置对于模型的训练结果会产生极大的影响;为了保证算法的检测效果,需要大量的Anchors来进行训练,其中负样本的比例较大,因此存在正负样本不均衡的问题;在训练过程中,需要计算Anchor box与ground truth box的IoU,总体计算量较大。

采用Anchor Free将RPN网络中feature map对应的Anchor转换成在feature map上的每一点进行回归操作[13],首先将feature map中的每个点映射回原始的输入图片,如果这个映射回原始输入的点在相应的ground truth的范围之内,而且类别标签对应,我们将其作为训练的正样本块,否则将其作为负样本块,回归的目标参数如图5所示,为(l,t,r,b),即中心点离左边界、上边界、右边界、下边界的距离。

图5 回归目标参数

假设实际框的左上角和右下角坐标值为(x0,y0)、(x1,y1),那么回归的目标数据为

通过这种方式可以获取到对应的正样本,然后对正样本进行回归操作。与Anchor Base方法相比,该方法的正负样本数据较为平衡,并且无需设置超参,在计算量方面,该方法相对于需要进行Io U计算的Anchor Base方法计算量要减少许多。

由于对检测方式进行了修改,相应地修改损失函数,具体损失函数如下所示:

损失函数包含两个部分,Lcls表示分类损失,在本设计中采用了FocalLoss;Lreg表示回归损失,在本设计中采用IoULoss,FocalLoss可以进一步对正负样本不平衡有优化作用[14],IoU Loss将位置信息作为整体来进行训练检测,其相对于四个坐标点分别回归有更好的检测效果。

3 实验结果与分析

本文的仿真实验环境:处理器为Intel core i7-7700,CPU为3.60 GHz*8,7.7 G内存,GPU为GTX1080。操作系统为Ubuntu16.04[15]。

3.1 结果评价指标

为了对检测结果进行评价分析,本设计采用如下指标:T P(True Positive)为检测正确的非背景框,F P(False Positive)为误报框,T N(True Negative)为检测正确的背景框,F N(False Negative)为漏报。当检测框I o U大于0.5时,且置信度大于设定阈值时,认为该检测框为一个正检。

平均每张图误报框数量F P PI:

召回率recall:

采用FPPI-recall作为本设计的评价指标,本设计作为预标注算法,删除误检的检测框需要人工操作时间,因此需要控制误检框的数量,同时需要提高召回率,保证预标注数据完整性。

3.2 不同网络对比试验

本文采用的目标检测数据集为VOC2007和VOC2012,其包括了在角度、光照、形态等方面不同的检测图片[16]。VOC2007训练集图片量为5011张,测试集图片量为4952张,对所有网络进行了90k次迭代训练。为了加速训练并防止过拟合,初始学习率设置为0.001,学习率衰减系数设置为0.0001,权值衰减系数设置为0.0005。

为了测试网络检测的准确度,本文对原级联卷积神经网络、本文优化后的级联卷积神经网络以及其他的一些神经网络进行了测试实验,并对实验结果进行了比较。测试集选用VOC-2007的标准测试集,在F PP I为0.3时,其检测效果如表1和图6所示。

表1 在VOC2007上不同目标检测算法测试对比

从表1和图6可以看出,使用改进级联卷积神经网络在F P PI为0.3、I oU阈值为0.5的情况下,其召回率最高,为64.52%。同时,本文的三个改进点对于级联卷积神经网络的检测结果具有优化作用,Anchor Free对于级联卷积神经网络的优化作用相对于多尺度较好。SSD512由于输入图像较小,并且其多尺度的方法较为落后,因此,检测结果相对较差。同时,在检测速度上,由于标注算法对于实时性要求不高,检测速度不是作为一个参考参数,可以看到YOLOv3和SSD512由于其是单阶段的检测算法,检测速度相对较快;而Faster-RCNN以及级联卷积神经网络算法,Faster-RCNN的测试速度最快,因为Faster-RCNN的检测回归只有一级,而级联卷积神经网络有三级检测回归网络,Anchor Free改进对于速度有一定的提升,相对于RPN层,Anchor Free提出的建议框的数量少、质量高,在本设计中具有极大的意义。

图6 部分检测结果

VOC2012训练集图片量为11540张,测试集图片量为10991张,同样对所有网络进行了90k次迭代训练。初始学习率设置为0.001,学习率衰减系数设置为0.0001,权值衰减系数设置为0.0005。

从表1及表2可知,在VOC2007以及VOC2012数据集上,经过多尺度以及Anchor Free改进后的级联卷积神经网络的检测召回率相对于原级联卷积神经网络有一定的提高,另外,Anchor Free对于网络召回率的提升效果较多尺度更明显。改进级联卷积神经网络的检测效果比原级联神经网络、Faster-RCNN、SSD512、YOLOv3效果要好。

表2 在VOC2012上不同目标检测算法测试对比

3.3 与已有改进级联卷积网络算法的比较

最后将本文改进的级联卷积神经网络算法与近两年提出的优化的级联卷积神经网络算法进行了对比,统一采用F PPI为0.3时,Io U阈值为0.5时的r ecal l值,数据集VOC2007和VOC2012,检测结果如表3所示。

表3 不同优化级联卷积神经网络测试对比

文献[17]提出了一个新的single-shot检测器RefineDet,采用ARM(anchor refinement module)和ODM(object detection module),ARM过滤掉部分negative anchors,减少搜索空间,给ODM进一步的分类和回归提供一个比较原始的信息;ODM用于对ARM输出的结果进行回归和分类,实现了相较于二阶段检测器(主要对比Faster-RCNN)有更高的准确率的同时,具有一阶段检测器的检测效率(主要对比SSD系列)。文献[18]设计应用场景主要是针对小尺寸的交通标志,在级联卷积神经网络的基础上提出了一种基于点积和softmax的多尺度特征加权关注方法,并对负样本,特别是困难样本进行扩充来进行训练,其优化思想和本文有一定的相似之处,都借鉴了金字塔式多尺度思想,本文的优化方案从建议框的角度来对模型进行优化,不仅可以优化模型召回率,对于模型的检测速度也有很大的提升,召回率以及检测速度相较于文献[18]都有优势。文献[19]采用的检测方法包含两个分支,检测分支和分割分支,检测分支以VGG16作为backbone,在不同层的特征图上进行检测;分割分支主要用于增强低级特征的语义信息。它以低级特征作为输入,通过bboxlevel segmentation gt作为监督来学习语义分割的信息,然后利用该分支中的语义特征来增强低级特征。再通过全局激活模块增强高级特征,全局激活块能够以一种自监督的方式学习特征通道与目标类别之间的关系,从而增强高级特征的语义信息。

4 结语

本文提出一种优化的级联卷积神经网络,该网络对输入层进行多尺度设计,对于RPN阶段,采用Anchor Free的方式来提出预检测框,并在VOC2007及VOC2012数据集上进行训练测试。实验结果表明,在F PP I为0.3,I oU阈值为0.5的情况下,本设计在VOC2007数据集上召回率达到了64.52%,在VOC2012数据集上召回率达到了65.71%。与时下的不同模型以及其他优化级联卷积神经网络方案相比,本文网络具有一流的检测性能以及速度,对于预标注方法来说,这些特性使本文方法十分适用。

猜你喜欢

级联尺度卷积
铀浓缩厂级联系统核安全分析
基于3D-Winograd的快速卷积算法设计及FPGA实现
财产的五大尺度和五重应对
卷积神经网络的分析与设计
从滤波器理解卷积
富集中间组分同位素的级联
—— “T”级联
基于傅里叶域卷积表示的目标跟踪算法
宇宙的尺度
基于级联MUSIC的面阵中的二维DOA估计算法
多组分同位素分离中不同级联的比较研究