APP下载

基于注意力和双边滤波的装配体多视角变化检测方法

2023-11-09岳耀帅陈成军李东年官源林洪军赵正旭

机床与液压 2023年19期
关键词:变化检测双边注意力

岳耀帅,陈成军,李东年,官源林,洪军,赵正旭

(1.青岛理工大学机械与汽车工程学院,山东青岛 266520;2.西安交通大学机械工程学院,陕西西安 710049)

0 前言

装配是将机械零部件按照设计顺序组装在一起形成产品的生产过程,装配顺序是影响产品装配质量的关键。在复杂产品装配过程中,检测每个装配步骤新装零部件,有助于获取机械装配过程的相关信息,及时发现装配顺序错误,提高机械产品的生产效率。因此对机械类装配体的装配过程智能检测具有重要研究价值,但目前还缺乏监测产品装配顺序的有效技术手段。

图像的变化检测可以通过分析2幅不同时刻的图像,检测出图像中随时间发生变化的信息。图像的变化检测目前主要应用在遥感图像分析中,可以实现土地利用变化检测[1]、灾害评估[2-3]和环境监测[4]等。例如,ALESHEIKH等[5]利用图像的变化检测方法检测海岸线的变化;CHEN等[6]将图像的变化检测应用于检测街道场景变化;DU等[7]将图像的变化检测应用于检测城市建筑物场景变化。此研究拟将图像的变化检测技术应用于机械装配体变化检测,以识别每个装配步骤变化的零部件,实现产品装配顺序的监测。

传统的变化检测方法可以分为2类:基于像素的变化检测方法和基于对象的变化检测方法[8]。基于像素的变化检测方法是根据图像的像素信息生成差异图像,并通过阈值分割或聚类得到变化图像[9-11],这种方法实现简单,但是忽略了空间信息,并且图像处理过程中会出现大量噪声[12]。基于对象的变化检测方法是利用图像的纹理、结构和几何信息获得变化图像[13-15],这种方法虽然充分利用了图像的空间信息,但特征提取方法较为复杂,鲁棒性较差。

最近几年,深度学习方法被广泛应用在变化检测中。基于深度学习的图像变化检测方法主要分为2类,有监督的图像变化检测和无监督的图像变化检测。基于深度学习有监督图像变化检测方法利用包含像素级标签的数据集对神经网络进行训练,再将待检测图像输入到训练好的模型中,分割出图像中的变化区域。例如,ZHAN等[16]提出一种基于深度孪生卷积神经网络的图像变化检测方法,该网络使用加权对比损失训练孪生卷积网络,直接提取图像特征,使提取到的特征更具区分性。ZHANG等[17]提出了深度监督图像融合网络的图像变化检测方法,使用全卷积网络提取图像的深度特征,然后利用深度监督差异识别网络进行图像变化检测。CAO等[18]在卷积神经网络中加入深度去噪模型,降低图像噪声,提高检测精度。CHEN等[12]在孪生网络中加入双注意力模块,获得更多的判别特征,提高神经网络的性能。无监督变化检测方法通常是先提取图像特征,然后通过处理图像特征实现图像的变化检测。例如DE JONG、BOSMAN[19]利用卷积神经网络分别提取输入图像5个级别的特征映射,利用每个级别特征映射的差异生成变化图像。LI等[20]利用全卷积神经网络提取图像更具区分性的特征,同时在网络中加入噪声建模模块减少图像噪声。REN等[21]利用生成对抗网络(Generative Adversarial Networks,GAN)生成配准图像,提高了变化检测网络的效率。

当前,基于深度学习的图像变化检测方法取得了较好的效果,其中有监督变化检测应用比较广泛。但目前对机械装配体的变化检测研究较少,缺少机械装配体图像变化检测的数据集,这是由于装配体的颜色单一,并且缺少纹理特征;另外一方面,现有的图像变化检测方法主要是检测视角相近的图像,对视角变化较大图像的变化检测研究较少。

本文作者创新性地应用图像多视角变化检测技术检测装配场景的变化,获取新装配的零部件,监测产品的装配顺序。建立用于机械装配体多视角变化检测的2个数据集,分别为合成深度图像数据集、真实彩色图像数据集,提出一种基于三维注意力和双边滤波的机械装配体多视角变化检测网络(TAF Net)。TAF Net网络引入三维注意力机制,可以同时关注特征图中的通道特征和空间特征,提高了TAF Net网络细节特征的提取能力。输出的变化图像经过双边滤波处理,能够优化变化图像中零部件的边界,减少图像中的噪声。在真实数据集训练中引入迁移学习,将合成深度图像数据集的训练模型作为真实数据集的预训练模型,提高网络模型的精度;实现只用少量训练集就可以实现机械装配体的多视角变化检测,降低人工标注标签的工作量。为了验证文中所提方法在机械装配场景下的多视角变化检测性能,将在2个数据集上分别进行消融实验和对比实验。

1 TAF Net网络结构

文中在CDNet网络[22]基础上,提出了一种基于三维注意力和双边滤波的机械装配体图像多视角变化检测网络(TAF Net),使用图像变化检测监测装配顺序。TAF Net网络是具有编码器和解码器的体系结构,网络结构如图1所示。

图1 网络结构

网络共包含4个模块:编码、解码、注意力和双边滤波。TAF Net网络的输入为机械装配体t0和t12个不同时刻的图像,然后编码器提取2个不同时刻的图像特征,将2个不同时刻图像的特征融合后传给解码器进行解码。为了提取图像更多的细节特征,文中在TAF Net网络中引入三维注意力机制,编码层提取到的特征经注意力模块后和解码层输出的特征进行融合,将融合后的特征传给下一层解码器继续解码。引入双边滤波处理模块,对输出的变化图像经过双边滤波处理,有效过滤图像中的噪声,优化图像中变化零件的边界。

1.1 编码模块

编码模块的结构如图2所示。编码器选用ResNet18[23],它主要由4个残差块(Block1、Block2、Block3、Block4)组成。随着网络层数的加深,网络的感受野会增大,高维特征的语义信息表达能力会增强,但深度网络缺乏空间几何细节,因此将Block4提取的特征经过三维注意力模块处理后再传给解码器,增强深层网络对细节特征的提取能力。

图2 编码模块

1.2 三维注意力模块

注意力机制借鉴了人类视觉系统获取信息的方式,通过快速扫描全局图像,获得需要重点关注的目标区域。由于图像中包含的特征信息非常大,如果对图像中的每个位置都进行特征构建,会使网络学习到很多无用的特征。引入注意力机制能够使网络更好地聚焦在图像重要区域和重要特征上,忽略图像中的不重要信息,有效提高神经网络的效率,降低网络模型的复杂度。现有的注意力机制主要分为2类:通道注意力和空间注意力。通道注意力的作用是对重要的特征通道进行加强,对不重要的通道进行抑制。HU等[24]通过对特征通道进行加权,使网络更容易区分特征通道的重要程度,提高了网络的特征表达能力。空间注意力是对图像的空间维度信息进行特征提取,利用不同的空间位置获得不同的二维权重,然后与对应的空间位置相乘,突出空间位置的重要性。相比通道注意力,空间注意力能够增强网络对图像细节特征的提取,增强网络的学习能力。

利用卷积神经网络提取到的特征图,不仅在通道上包含大量的有用信息,在通道内部的特征图像素点之间也包含了大量的有用信息,单独使用通道注意力或空间注意力都会造成信息的丢失。因此,文中将三维注意力机制SimAM[25]融合到变化检测网络中。三维注意力的引入有助于突出图像的细节特征,有助于TAF Net网络找出对应位置上特征图的相似性,在一定程度上解决了随着网络层数的加深,图像的细节信息丢失的问题。SimAM的原理如图3所示,它是一种无参数的注意力模块,和现有的通道注意力和空间注意力不同,它不需要添加额外参数就可以计算特征图的三维注意力权值,三维权重同时考虑了空间和通道维度,使TAF Net网络提取更多的图像特征,有效提高图像变化检测的精度。

图3 三维注意力机制原理

SimAM利用了神经科学的理论,构建了一种能量函数用来计算注意力权值,判断神经元的重要性,能量函数的公式如下:

(1)

(2)

上述公式的计算过程较为复杂,但公式(2)有一种解析解,可以通过微分wt和bt得到,将解析解代入能量函数中可以得到最小能量的计算公式:

(3)

上式表明能量越低,神经元t与周围神经元的差别越大,神经元t的重要性就越高。

(4)

1.3 双边滤波

由于装配体的各零部件紧密连接,所以变化检测网络检测出的变化区域可能存在边界不清晰的问题。为了提高TAF Net网络变化检测的精度,引入双边滤波优化变化图像中零部件的边界,降低变化图像中的噪声。双边滤波[26]是一种基于高斯滤波[27]的非线性滤波器,不仅考虑了像素之间的欧氏距离,也考虑了像素亮度和深度上的相似性,使滤波后的图像既可以减少图像中的噪声,又可以保持图像的边缘信息清晰。双边滤波对深度图像和彩色图像都具有较好的效果,有较强的适用性。双边滤波的数学表达式[28]为

(5)

其中:g(i,j)为滤波后的输出像素值;S(i,j)表示中心点(i,j)的相邻像素点;f(k,l)表示点(k,l)的像素值;w(i,j,k,l)是双边滤波的权重函数,w(i,j,k,l)的计算公式如下:

w(i,j,k,l)=ws×wr

(6)

其中:

(7)

(8)

σs和σr表示滤波半径,文中都设定为70;ws函数的权重和像素的距离有关,由公式(7)可以看出像素的距离越近,函数的权重越大,相当于对图像进行高斯滤波。函数wr的权重和像素值之间的差异有关,即当像素值越接近,即使距离较远,也比差异大距离近的像素点权重大,函数的权重越大。函数wr使图像中距离近但差异大的像素点能够保留,有效保存了变化图像中零件的边界。

2 装配体图像变化检测数据集

文中以二级圆锥齿轮减速器的装配为例验证文中提出的TAF Net网络的性能。为了准确评估TAF Net网络模型的性能,建立2个数据集,分别为二级圆锥齿轮减速器的合成深度图像数据集、真实彩色图像数据集。下面将分别对2个数据集进行介绍。

数据集1是减速器的合成深度图像数据集,深度图像不仅包含图像的三维信息,而且还具有很强的抗干扰性。为建立深度图像数据集,此研究首先使用SolidWorks建立减速器的三维模型,然后通过3DMAX的三维渲染功能得到减速器三维模型的深度图像,减速器的装配过程分为4个步骤,每次装配一个零部件,装配过程如图4所示。

图4 装配过程示意

深度图像的合成需要对减速器T0—T4共5个节点分别合成,每个节点可以合成619张不同角度的照片。数据集选取的原则是保持前一时刻的视角不变,后一时刻图像的视角连续性变化。每个步骤中前一时刻包含3个角度,每个角度在后一时刻中对应52张图像,训练集共包含624张图像,验证集和测试集各有207张图像。

数据集2是真实彩色图像数据集,使用的是物理装配体的彩色图像。合成数据集具有方便高效的特点,但是合成图像过于理想化,不足以验证网络的实用性。通过建立真实数据集训练TAF Net网络,准确反映TAF Net网络的实际性能。物理装配体的彩色图像如图5所示。

图5 物理装配体的彩色图像

使用RealSense相机采集物理装配体的彩色图像,通过固定相机位置,旋转减速器获得装配体的多视角图像。数据集选取的原则和深度图像的相一致,训练集中前一时刻包含3个角度,每个角度在后一时刻对应15张图像。数据集中训练集包含180张图像,验证集和测试集各有88张图像。由于物理装配体的彩色图像数量不多,数据集的标签使用Photoshop进行标记。物理装配体的彩色图像人工标注示意如图6所示。

图6 物理装配体的彩色图像人工标注示意

3 实验

3.1 评价指标

变化检测网络得到的变化检测结果是一个二值图像,图像中的白色像素点表示变化的像素,黑色像素点表示未发生变化的像素。为了客观评价变化检测的结果,使用准确率(Precision)[29]、召回率(Recall)[29]和F1_score[29]作为精度评价的指标,其中:

δPrecision=nTP/(nTP+nFP)

(9)

δRecall=nTP/(nTP+nFN)

(10)

δF1_score=2nTP/(2nTP+nFN+nFP)

(11)

其中:nTP表示正确判断的像素变化数目;nTN为正确判断的像素未变化数目;nFN为变化像素被检测为未变化的数量;nFP是未变化像素被检测为变化的数量;δF1_score是根据准确率和召回率计算的综合评价指标,是评价实验结果的主要参数。

3.2 实验结果和分析

3.2.1 消融实验

为了验证三维注意力模块和双边滤波对TAF Net网络的影响,将使用2个数据集分别对网络进行评估,观察不同模块对变化检测结果的影响。

不同模块在数据集1上的实验结果如表1所示。可以看出:当在网络中加入注意力后,网络能够关注到更多的细节特征,准确率提高了2.6%,综合评价指标F1_score提高了1.5%,实验结果表明注意力能够有效提高网络的性能。输出变化图像经过双边滤波过滤,优化图像中变化零部件的边界,减少变化图像中的无关像素点。从表中的数据可以看出:增加双边滤波后网络的各项评价指标均有提高,有效提高了图像变化检测的性能。

表1 不同模块在数据集1上的实验结果

数据集2用的是物理装配体的彩色图像,由于真实图像对应标签的标注较为复杂,此数据集只采集少量真实装配体图像并进行标注,所以可供训练的样本较少,而且人工标注的数据集标签存在标注不精确的问题,影响网络的检测精度。为了提高网络模型的性能,文中引入迁移学习,将数据集2的训练模型作为真实数据集的预训练模型。实验结果如表2所示,注意力结合迁移学习使准确率、召回率和F1_score分别提高了1.7%、0.4%和1%,有效提升了模型的精确度。迁移学习结合双边滤波能加速网络训练和消除变化图像中的噪声,使网络评价指标准确率提高2.2%,F1_score提升1.4%,召回率也有小幅的提高。

表2 不同模块在数据集2上的实验结果

综合上述实验结果可以看出:注意力和双边滤波在2个不同的数据集上都可以提高网络的性能,合成数据集在网络中添加注意力后的评价指标优于双边滤波,真实数据集双边滤波的效果更优。这是由于真实图像含有噪声,双边滤波既可以优化零件的边界也可以达到降噪的效果。真实数据集中图像的标签为手工标注,标注过程比较耗时,而且存在标注不精确的问题,引入迁移学习可以在标签不精确、训练集较少的情况下完成机械装配体的多视角变化检测,这有助于此研究算法在真实装配体变化检测中的应用。

3.2.2 对比实验

为了验证文中提出的机械装配体图像多视角变化检测网络TAF Net的有效性,将TAF Net与STANet[30]和SNUNet-CD[31]变化检测网络进行比较,对比实验数据如表3所示。

表3 对比实验数据

从表3可以看出:文中提出的TAF Net网络在2个数据集上都有较好的表现,其中综合评价指标F1_score都达到96%以上。STANet网络将图像分割成多尺度的子区域进行训练,在合成数据集1中F1_score为91.6%,在真实数据集中F1_score仅有85.0%。SNUNet-CD网络通过编解码器的密集连接,减少深层定位信息丢失,在数据集1中的效果最优,F1_score达到94.5%,但在数据集2中F1_score数值仅为85.9%。SNUNet-CD和STANet网络在数据集2中的检测精度都较低,分析原因为训练集较少并且真实图像中包含噪声,标签标注不够准确,变化检测难度大,检测结果较差。

图7显示的是数据集1在不同方法下变化检测的效果。与真实变化的标签图相比可以看出:文中提出的TAF Net网络能够精确检测出变化区域,STANet网络对边缘细节特征的检测效果较差。SNUNet-CD网络造成了图像信息丢失,在结果图中出现了无关像素点,影响了检测精度。

图7 数据集1变化检测结果

图8所示为数据集2的变化检测结果。可以看出:文中提出的TAF Net网络可以精确找出变化区域,检测出的变化零部件边界平滑,检测结果明显优于对比网络。STANet网络检测出的变化图像中有黑洞,而且将非变化零部件检测为变化。SNUNet-CD网络检测出的变化零部件不完整,而且没能有效消除图像中的噪声。

通过对比实验可以得出:文中提出的TAF Net网络能够满足装配体深度图像和彩色图像的变化检测。在真实数据集的训练中,TAF Net网络与迁移学习相结合,有效解决了标签不精确和训练集不足的问题,能够满足实际应用。综合上述实验分析,TAF Net网络具有较好的适用性,在2个不同的数据集中都能较好地实现机械装配体图像多视角变化检测。

4 结论

文中提出了一种基于三维注意力和双边滤波的机械装配体图像多视角变化检测网络TAF Net,TAF Net网络引入三维注意力机制,增强了网络关键信息提取能力;引入双边滤波优化检测出变化零部件的边界和消除图像中的噪声。文中建立了2个不同的装配体变化检测数据集(合成深度图像数据集、真实彩色图像数据集),用于验证TAF Net网络的性能,实验证明提出的TAF Net网络能够实现机械装配体的多视角变化检测。在真实数据集的训练中引入迁移学习,有效解决了人工标注标签不精确的问题。与其他变化检测网络的相比,文中提出的方法都能达到最优。

猜你喜欢

变化检测双边注意力
用于遥感图像变化检测的全尺度特征聚合网络
让注意力“飞”回来
基于多尺度纹理特征的SAR影像变化检测
基于稀疏表示的视网膜图像对变化检测
电子产品回收供应链的双边匹配策略
基于Landsat影像的黄丰桥林场森林变化检测研究
“扬眼”APP:让注意力“变现”
A Beautiful Way Of Looking At Things
新型自适应稳健双边滤波图像分割
双边同步驱动焊接夹具设计