APP下载

基于AI 目标检测在工程管理图像数字化的应用实践

2022-03-09李雪迪李公平王文学许经伟查德飞

科学技术创新 2022年5期
关键词:熔丝型号阶段

李雪迪 李公平 王文学 许经伟 查德飞

(中国电信股份有限公司安徽分公司,安徽 合肥 230000)

1 概述

借助AI 能力提升工程管理的数字化、智慧化有利于提高工程建设管理的效率和质量。目前需要施工质量管控的工程数量多、分散在各地,而工程管理员数量严重不足。面对大量的现场施工质检环节的拍照图片,工程管理员无法逐一完成人工审核,需借助AI 能力检测和识别出图像中的关键信息。工程质检中图像应用离不开目标检测算法,目标检测算法的主要功能为找出图像中所感兴趣的目标,同时获得目标的类别信息和位置信息。目标检测算法主要分为传统的目标检测算法和基于深度学习的图像检测算法,传统的目标检测算法存在特征设计困难且效率低下、滑动窗口寻找识别目标框速度慢等缺点,本文主要研究分析基于深度学习的图像检测算法在工程质检中的应用。

2 任务现状

工程管理中存在大量的设备型号检测和识别场景,本文将以空开设备和熔丝设备图片为实验数据进行目标检测,为施工质量审计验收、资产盘点、故障溯源等提供依据。图1 为空开图片,该类型图片型号主要以C 开头,如C63、C32、C10等,存在少部分以A 结尾的型号,如32A、50A 等;图2 为熔丝图片,该类型图片型号主要以A 结尾,如10A、63A、100A、250A、500A 等;图像中红色矩形框为业务侧在收集图片数据集时,已在原图上作的标记;图片中红色框内的型号即为本模型需要检测的区域。

业务要求识别空开熔丝图片上特定设备的型号,而非全部设备的型号,即识别出图片中标记在红色框内以C 开头或A 结尾的具体型号值,比如图1 中3 个红框内的C63、图2中2 个红框内的63A。

图2 熔断器

假如直接检测设备型号文字区域可能会导致检测到非业务部门关注的设备型号,即非红框内的设备型号,会造成业务上的干扰。现将工程任务拆分成如下三个阶段: 图像中红色框区域检测、红色框内文字区域检测、文字区域设备型号识别。

在深度学习时代,基于CNN 的目标检测算法主要分为One-Stage 和Two-Stage 两个方向,这两种方法的主要区别在于是否产生候选区域,Two-Stage 先通过RPN(Region Proposal Network)生成候选区域,再通过分类和回归网路得到图片中目标的位置和类别,而One-Stage 不需要RPN 阶段,直接单次检测出类别和位置信息。目前流行的两阶段算法包括:FasterRCNN、CascadeRCNN 等;一阶段算法包括:YOLO 系列(YOLOv5、PPYOLO)等。以上四个模型经过工业实践打磨,已在施工质量管控场景中得到广泛应用,本文将针对空开设备和熔丝设备型号识别任务分别进行实验,通过mAP 和Fps 比较几种算法的实验效果,为工程质检中遇到的图像检测场景提供测试依据,同时选取适合的算法完成空开设备和熔丝设备型号识别任务。

3 算法介绍

3.1 两阶段RCNN 系列

FasterRCNN[1]模型提出了一种名为RPN 的网络结构来提取候选框,相比于传统R-CNN 算法,替代了通过规则等产生候选框的方法,实现了端到端训练的同时大幅提升了训练速度。FasterRCNN 作为经典的two-stage 检测器,包含了用于推荐ROI 的RPN 网络和用于分类和回归的ROI Head,同时在RPN 网络和ROI Head 中间加入了RoI Pooling 层,将RPN提取的不同大小的RoIs 固定到统一的大小,在没有变形的情况下保证了全连接的输入要求。

在FasterRCNN 算法中,不同输入的proposal 自身IoU 分布和检测器训练用的阈值IoU 较为接近的时候,检测器的性能才达到最优,如果两个阈值相距比较远就会出现mismatch问题,很难产生良好的检测效果。为了解决mismatch 问题,多阶段的CascadeRCNN[2]横空出世。它由多个感知器构成,这些感知器通过递增的IoU 阈值分级段训练。一个感知器输出一个良好的数据分布来作为输入训练下一个高质量感知器,缓解了假阳性的问题,在推理阶段使用同样的网络结构合理的提高了IoU 的阈值而不会出现之前所说的mismatch 问题。

CascadeRCNN 指出级联多个R-CNN 模块,并且不断提高IoU 阈值,在每个阶段不断进行正负样本重采样策略,不仅不会出现过拟合,而且可以实现极大的性能提升。

3.2 单阶段YOLO 系列

在Faster RCNN 中,RPN 与R-CNN 虽然共享卷积层,但RPN 网络和R-CNN 网络在模型训练过程中,需要反复训练。相对于R-CNN 系列的“看两眼”(候选框提取与分类),YOLO 系列只需要Look Once。YOLO 将物体检测作为一个回归问题进行求解,输入图像经过一次inference,便能得到图像中所有物体的位置和其所属类别及相应的置信概率。而RCNN 系列将检测结果分为两部分求解:物体类别(分类问题)和物体位置即bounding box(回归问题)。

YOLO 系列是非常热门的单阶段目标检测算法,同时YOLO 系列也在不断的进化发展,YOLOV3[3]相比于YOLOV2在Head 部分增加了multi-scale 预测,将预测的bbox 分为大、中、小,有效增加了bbox 的数量,同时加深了主干网络,将Darknet19 变成Darknet53[4]。YOLOV5 和V4 在YOLOV3的基础上,加入了一些创新且有效的tricks,权衡检测速度与精度,进一步提升YOLO 的效果。YOLOV5 和V4 都使用PANET[5]作为Neck 来聚合特征,Neck 主要用于生成特征金字塔,增强模型对于不同缩放尺度对象的检测,从而能够识别不同大小和尺度的同一个物体。百度提出的PPYOLO[6]也是基于YOLOV3 算法通过有效的tricks 组合来平衡目标检测器的性能以及速度。PPYOLO 的主干网络使用ResNet50-vd[7]替换了Darknet53,为了弥补这种变换可能导致的性能损失,用可变形卷积替换了ResNet50-vd 的部分卷积层,适当增加了网络复杂度。但过多的DCN 会带来额外的推理时间,PPYOLO 仅仅将最后一层的3x3 卷积替换成DCN卷积。

4 不同算法实验效果

前面对几种算法的原理和改进方法做了介绍,下面将通过对空开设备和熔丝设备抽样数据进行实验,比较Faster-RCNN、Cascade-RCNN、YOLOV5 和PPYOLO 中在工程管理应用中的目标检测效果。

4.1 数据准备

随机抽选1000 张空开设备和熔断器标注图片。

4.2 模型和环境

本次测试模型的数据增强方法和相关超参如表1 所示。

表1 训练模型相关参数

实验环境:GPU: Tesla V100,显存: 16GB;CPU: 2 Cores,内存: 16GB。

4.3 实验结果分析

用Faster-RCNN、Cascade-RCNN、YOLOV5 和PPYOLO分别对随机抽样的1000 个样本训练的结果如图3 和图4 所示。

图3 mAP 曲线

图4 训练时长和推理Fps

由四个模型的mAP 曲线图中可以看出:Cascade-RCNN在第3 个epoch 时趋于收敛,Faster-RCNN 在第10 个epoch时趋于收敛,收敛时Cascade-RCNN 的mAP 值(0.978)高于Faster-RCNN 的 mAP 值(0.961),Cascade-RCNN 采用muti-stage 重采样proposals 以适应更高阀值的阶段,提升了模型的mAP 值;YOLOV5 在第6 个epoch 时趋于收敛,PPYOLO 在第16 个epoch 时趋于收敛,收敛时YOLOV5 的mAP 值(0.981)略低于PPYOLO 的mAP 值(0.986),YOLOV5收敛速度优于PPYOLO,而PPYOLO 训练时loss 更加稳定,抖动较小。四种算法在空开和熔丝场景下mAP 表现相差不大,而YOLOV5 和Cascade-RCNN 收敛于更少的epoch。

由四个模型的训练时长和Fps 图中可以看出:四个模型训练时YOLOV5、PPYOLO、Cascade-RCNN 每个epoch 的训练时长相差不大,而Faster-RCNN 每个epcoh 的训练时长是其它三种算法的2 倍左右;推理时,YOLOV5 的Fps 最高(22.75),Faster-RCNN 的Fps 值(4.43)远低于其它三个模型,Cascade-RCNN 和PPYOLO 的Fps 值分别为12.91 和14.69。

综上所述:单阶段的YOLOV5 和PPYOLO 在训练速度和推理速度上明显优于二阶段的Cascade-RCNN 和Faster-RCNN;随着YOLO 系列在实际工程实践中应用普及,在不同方向增加了平衡有效性和效率的改进方法,检测的精准度大幅度提高,四个模型在本次任务数据集上的mAP 效果基本一致。考虑到训练硬件限制和本场景后期应用的时效性,在生产时使用mAP 和Fps 综合表现更加合理的YOLOV5 算法。

4.4 模型应用效果

将3 个阶段模型进行整合,检测一推理服务→检测二推理服务→阶段三推理服务,推理效果如图5 所示。原始图像经过第一次推理服务,检测并裁剪出红框区域,图像边缘即为第一次检测框;在检测裁剪后的图像中,第二次推理检测出文字区域,如图5 所示。

图5 推理效果

结束语

本文主要聚焦在工程质检中的图像目标检测场景,对工业界目前流行的两阶段Faster RCNN、Cascade RCNN 和一阶段YOLOV5、PPYOLO 算法在空开熔丝检测场景进行应用研究。在空开熔丝检测场景数据集上,YOLOV5、PPYOLO 的Fps 优于Faster RCNN、Cascade RCNN;YOLOV5 和PPYOLO通过有效的tricks 组合平衡目标检测器的性能以及速度后,大幅度提高了检测的均值平均精度mAP,在本数据集上的表现甚至略优于Faster RCNN、Cascade RCNN。虽然本实验受限特征数据集(标注质量、目标大小、目标类别等)、模型自身tricks 和硬件条件等因素的影响,不能完全横向的比较四种算法效果,但实验效果上还是能为后续的工程质检场景提供基础的参考依据,比如mAP 提升、训练速度、推理速度、模型稳定性等。

猜你喜欢

熔丝型号阶段
熔丝制造的三维连续编织填充图案
关于基础教育阶段实验教学的几点看法
关于提高航天型号计划完成率的思考
航天型号批生产管理模式的思考
型号产品配套管理模式探索与实践
航天型号全要素管理的初步实践
在学前教育阶段,提前抢跑,只能跑得快一时,却跑不快一生。
2017款别克君越车蓄电池经常亏电
大热的O2O三个阶段,你在哪?
两岸婚恋迈入全新阶段