APP下载

基于YOLO的地面机油滴漏识别的方法

2022-06-18丁咚邱晓峰

新型工业化 2022年3期
关键词:机油卷积特征

丁咚,邱晓峰

(上海烟草集团有限责任公司上海卷烟厂,上海 200082)

0 引言

近年来,人工智能技术的崛起受到了社会各界的高度关注,深度学习作为人工智能技术的重要分支推动着传统制造业运营模式的转型,受到了业界的广泛认可。图像识别作为深度学习中重要应用领域之一,其核心为卷积神经网络,相较于传统的神经网络,其主要优势在于权重共享以及局部空间信息的有效利用[1]。当前,工业领域中较为常用的深度学习算法有目标检测算法和人体关键点算法等,其中,地面异物的检测有助于增强生产车间的安全管理,保证现场工作人员的人身安全,常见的地面异物包括机油滴漏、地面积水等。

在实际生产过程中,设备器件老化、螺栓松动等问题会引起机油、水的异常渗出,并滴落在过道上,若不进行及时清理可能会引发安全事故。为了能够及时应对此类问题,通常情况下,生产车间会配置巡检人员定时对现场的异常情况进行排查,事实上,这些人员工作量不饱和,且无法承担其他非现场的工作,导致了车间人力资源的浪费。本文针对地面机油滴落场景,如图1所示,采用了一种基于YOLO的检测模型,基于现场采集的地面数据,对现场过道异常情况进行实时分析,并对异常情况进行实时报警、预警,实现对生产车间的智能巡检。

本文将机油滴漏识别算法的构建分为以下三部分,即数据处理、模型训练以及模型优化,整体流程如图2所示。

1 相关工作

目标检测模型主要可以分为两类,即双阶段(two stage)和单阶段(one stage)。常用的双阶段目标检测模型有RCNN、fast RCNN以及faster RCNN,常用的单阶段检测模型有YOLO和SSD。Girshick等人提出了RCNN网络,将卷积神经网络和支持向量机相结合应用于目标检测任务中[2]:在RCNN网络基础上减少了重复运算,将回归与分类网络一起进行训练,提升了模型速度;将候选区域生成、特征提取、分类、回归四个步骤进行聚合,进一步地提升了模型效率。单阶段的检测模型YOLO,实现了单个网络完成整个检测流程,并将目标检测作为回归问题进行处理;在候选框的基础上进行回归,得到候选框的偏移值,并采用多尺度特征图用于检测。在YOLO基础上调整了网络结构,采用了多尺度输出,使得模型适用于小目标检测。

2 地面机油滴漏识别方法

2.1 训练数据生成

深度学习模型依赖于大规模数据的支持,而数据量的提升带来了人力和时间上的大量投入。针对上述问题,本文采用数据合成的方式人工生成训练数据,将采集到的背景和素材进行随机融合,得到具有与真实样本相似特征的数据。

分别采集背景数据和机油数据,通过抠图的方式提取机油,并将机油样本保存为背景透明的图像,再以随机的方式将机油样本与背景数据进行匹配融合。在合成过程中,增加了旋转、亮度调整等操作来增强样本的多样性,同时也提升了数据的真实性,由于数据合成时其位置是已知的,因此同时能够获取数据标注。这种数据合成的方式优势在于节省了数据采集以及人工标注的时间[3]。

2.2 基于YOLO的机油滴漏识别算法

本文采用基于YOLO的检测模型实现对车间地面机油滴漏的识别,模型结构如图3所示。

在数据预处理中,采用了Mosaic数据增强方法来丰富训练数据的多样性,分别对四张图像进行翻转、缩放、色域变化等操作,将经过图像增强后的四张图像进行拼接,拼接后的新图像将作为模型的输入,每一张拼接后图像包含了拼接前四张图像的所有信息,因此,在很大程度上丰富了待检测对象的背景。

在神经网络的结构上,使用了跨阶段局部网络(CSP)作为模型主体(backbone)来提取图像特征,选用了后融合的方式,使得模型在反向传递中,融合节点前的梯度的差异最大化,相较于瓶颈结构,CSP结构减少了算力消耗,平衡了每一层的计算,避免了梯度信息的重复利用,在提升了模型的准确率的同时减少了网络参数量;在此基础上,将模型前三层卷积层替换成了focus结构,对于每一张特征映射图,每隔一个像素进行采样并组合,原特征映射图被拆分为四份,将四张图像进行通道维度上的拼接(concatenate),此时通道数扩大了4倍,空间信息分布至通道维度上,再对新特征映射图进行卷积,相较于直接对原图进行卷积,focus模块扩大了卷积核的覆盖区域,因此,该结构的优势可以总结为以下几点,在下采过程中扩大了感受视野,并且空间信息得到了最大程度的保留,另外,相较于修改前的三层卷积,focus结构降低了参数量,提升了模型计算速度[4]。

在Neck结构中采用特征金字塔(FPN)和路径增强(PAN)。由于不同尺度的特征映射图包含了不同的信息,浅层特征映射图通常包含更多的低级特征(如纹理信息)且尺寸较大,而深层特征映射图通常包含更多的语义信息,浅层特征有利于模型进行定位,而深层特征有利于模型进行分类。首先,空间金字塔结构主要分为两条路径,一条路径自底向上,该路径与传统卷积层相似,提取图像特征并减小图像尺寸,另一条路径自顶向下,其输入为第一条路径的输出,以上采样的方式对特征映射图尺寸进行放大,两条路径之间相同尺度的特征映射图相互连接,该结构提升了模型对小目标物体的识别率,并保留了更多的语义特征。在此基础上,路径增强结构在特征金字塔后再次采用自底向上的结构,将浅层大尺度定位特征向深层传递。因此,通过将特征金字塔与路径增强结构相结合,既增强了语义信息,同时也保留了定位特征[5]。

针对不同尺寸的目标,网络输出层设置了三种不同尺度的输出,输出结果为基于预设的锚定框的相对位置、置信度以及类别概率。

2.3 损失函数

训练中,采用了GIoU损失函数和Focal损失函数分别对预测框和预测结果进行约束。其中,GIoU损失函数定义如下:

其中,IoU为预测框与标注框的交并比,Ac为预测框与标注框外界的最小矩形面积,U为预测框与标注框的并集。

Focal损失函数定义如下:

其中,p为预测置信度和类别概率,γ因子增加了错分类样本的权重,α因子平衡正负样本。

3 实验结果

3.1 实验参数设置

本文采用了Adam优化算法来迭代更新网络参数,批尺寸(batch size)为16,初始学习率为1×10-4,训练迭代次数设置为100,在训练过程中,采用了余弦学习率衰减方法对学习率进行调整。

3.2 训练数据

本文中使用人工合成和真实数据的混合数据作为模型的训练数据。采集了生产车间的地面作为实验背景、滴落的机油样本作为实验素材,每张地面背景图像中随机合成了1~5片机油样本,共合成了一千张图像作为训练数据集。生成的训练数据的效果如图4所示。将合成数据训练得到的初版模型进行测试,将测试数据中效果较差的真实数据加入训练数据后再次进行训练,迭代优化模型直至模型达到测试标准[6]。

3.3 实验测试

在待测试区域随机倒5片机油,测试前需要确定能够通过相机观察到机油位置,使用模型对地面滴漏机油进行识别。对于每片机油,若模型能够将其识别,则视为识别成功,反之则识别失败,对上述测试过程重复5次,并记录每次的实验结果。

3.4 实验结果

本文选用精确率(precision)和召回率(recall)作为量化标准,精确率和召回率计算公式如下所示:

其中,TP表示真正类,FP表示假正类,FN表示假负类。

实验的量化结果如表1所示,可视化效果如图5所示。通过观察实验结果可以得出,模型在不同拍摄条件下均能够检测出机油的位置,且模型在准确率和召回率两个指标上分别达到了100%和94.1%。针对漏检数据进行统计,当前模型能够检测的最小机油面积占比为0.03%。结合上述分析可以证明当前模型在机油滴漏检测任务中的有效性。

表1 实验结果

4 结论

本文采用深度学习模型对地面滴落的机油进行识别,为了节省人工标注以及数据采集的时间,采用了一种人工合成的方式生成训练数据,使用了YOLO目标检测模型对生成数据进行训练,得到一种轻量级的检测模型,并通过实验证明了该模型的有效性。

猜你喜欢

机油卷积特征
离散型随机变量的分布列与数字特征
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
机油及空滤对燃油消耗的影响
从滤波器理解卷积
抓特征解方程组
不忠诚的四个特征
基于傅里叶域卷积表示的目标跟踪算法
衡山客车“烧机油”
详解机油滤清器