APP下载

基于注意力机制的车辆再识别方法

2022-07-23河南中光学集团有限公司

电子世界 2022年1期
关键词:尺度注意力卷积

河南中光学集团有限公司 余 科

河南中光学集团有限公司 河南科技大学 骆 沛

河南中光学集团有限公司 梁 涛 白晓波

利用车辆重识别技术能够对车辆进行跟踪定位,可实现对感兴趣车辆的轨迹分析、跨摄像机接力跟踪等应用,在边海防智能视频监控领域有着重要的研究和应用意义。目前车辆再识别技术常见有三类:(1)利用无线磁感应器、感应线圈、无线射频等硬件设备实现;(2)通过颜色、纹理等人工设计特征实现;(3)基于深度学习方法。

近些年,深度学习技术在车辆再识别领域取得了很多重要研究成果。Tian等人于2016年提出了一种深度相对距离学习方法,利用双分支深度汇总网络进行投影计算距离来测量车辆相似性。2017年,Yan等人采用两种多粒度排序约束方法,通过多任务学习解决精确车辆搜索问题;Qian等人提出了一种能够学习不同尺度深度特征表达的新模型;Tang等人将深度特征和手工特征进行融合,为车辆重新识别提供了一种更稳健更具判别力的特征表达。2018年,Liu等人使用一种基于多模态感知数据的渐进式车辆重识别方法提高了车辆发现效率和准确性;Teng等人提出了一种基于DCNN的空间和通道注意网络可以提取更多车辆判别特征。

在边海防视频监控中,视场范围大,监控车辆目标较小,且存在光照变化、场景变化、背景干扰等情况,车辆再识别比较困难,准确率很低。本文针对这种场景,提出一种注意力机制和多尺度特征融合的方法进行车辆再识别,通过多尺度融合获得网络不同深度目标特征信息,再通过注意力机制选择更具判别力的特征,极大提高网络学习能力。

1 算法设计

首先构建一个注意力机制的深度学习网络,提取目标全局特征信息;然后,根据网络深度提取不同尺度目标特征,防止部分特征多次提取后消失;同时,对融合后的特征空间引入一个局部特征提取模块,并与全局特征进行融合,获取更多车辆再识别的特征信息。

1.1 网络结构

网络框架主要由一个骨干网络、注意力模块和局部特征提取模块构成。特征提取的骨干网络选用ResNet50,Conv1、Conv2卷积组采集图像特征信息,Conv3到Conv5卷积组引入空间通道注意力机制(CBAM)模块;同时,每个残差块经过卷积和池化运算后,使用级联方式进行不同层级的多尺度特征融合,获取特征空间;然后再对该特征空间通过分块方式获取局部特征与全局特征进行融合,得到用于识别的特征图,具体网络结构如图1所示。

图1 网络框架结构图

ResNet50网络共6个卷积组模块,其中2-5卷积组为残差模块,每个残差模块由两个1h1卷积和一个3h3卷积组成。残差模块就是在两个卷积层前后做了直连,但取得了非常好的效果,所以本文特征提取的骨干网络选用ResNet50。

残差模块后依次添加空间通道注意力模块:1)通道注意力(CAM)采用全局最大池化(Global Max Pooling,GMP)和(Global Average Pooling,GAP)组合,可以挖掘更丰富的关键特征,去除无关干扰信息;2)空间注意力(SAM)增强网络学习车辆特征表示的辨别能力。之后将各级特征沿通道维度连接,获取一个级联空间特征:1)经过1h1卷积层后获取多通道空间特征,再通过全局平均池化(Global Average Pooling,GAP)处理后,通过全连接层进行特征降维,得到一个256维的全局特征;2)通过切块方式获取4个局部子特征,每个子特征通过GAP处理后,连接全连接层降维到256维,再与全局特征进行融合。

1.2 注意力机制

注意力机制可以在网络引入少量参数情况下,有选择地学习关键特征,减少无用特征,提高车辆的深度特征表达能力,尤其是对于外观高度相似的车辆,通过在不同尺度特征图上添加注意力机制,可获得更具判别力的特征信息。本文在4、5组卷积层之后添加空间通道注意力(CBAM)模块,具体结构如图2所示。

图2 空间通道注意力结构图

(1)通道注意力(CAM)

通道注意力机制,能够捕获跨通道的潜在语义信息。通过给每个通道分配不同的权值,选择对车辆任务有用的特征通道,提高特征的判别性。常用的通道注意力机制SENet仅采用了最大池化(maxpool),本文将最大池化(maxpool)与平均池化(avgpool)进行融合,将两个pool后的结果相加,使提取的高层特征更加丰富。具体实现过程如下:

1)输入特征F进行GMP和GAP运算,得到两个1h1hC的通道权重的矩阵;

2)将两个权重矩阵输入到一个多层感知机(MLP)中,获得2个输出特征;

3)2个特征通过向量相加操作后再使用sigmoid激活函数,生成一个通道注意力图;

4)通道注意力图与输入特征进行乘法操作,即可生成空间注意力模块需要的输入特征。

(2)空间注意力(SAM)

空间注意力机制,能够捕获空间域的重要特征信息。通过聚焦网络中最具信息特征部分,实现空间层面的注意力,是对通道注意力的补充,增强了网络车辆特征表示的辨别能力。具体实现过程如下:

1)通过maxpool与avgpool操作,对通道特征进行降维,然后将它们连接起来生成一个2D特征图;

2)再使用一个卷积层进行学习,经过sigmoid激活函数计算,生成一个大小为RhHhW的空间注意力图。

1.3 多尺度特征融合

高层网络感受野大,语义特征表达能力强,但分辨率低,很多细节特征变得模糊;低层网络感受野小,细节特征表达能力强,但提取语义特征能力弱。监控场景中车辆目标较小,尤其一些部件只有很小的分辨率,高层网络很容易丢失小目标的特征信息。考虑到高层网络和低层网络的互补性,本文在车辆再识别时引入多尺度特征融合机制,对不同阶段的特征图进行组合,使识别网络获取更多的判别特征。多尺度结构图如图3所示。

图3 多尺度结构图

分别从ResNet50+CBAM网络的Conv3、Conv4、Conv5残差模块中得到3个特征图,使用1h1大小的卷积运算对3个特征图进行通道调整,确保三个特征通道数一致;然后通过AvgPool进行下采样,调整特征图大小;最后利用3个分支处理后的信息进行融合,使识别网络可以获取更丰富的多尺度特征。

本文除了多尺度特征融合,还采用了全局特征和局部特征融合方法,提升车辆目标的判别精度。1)局部特征:按照空间分块方式,将由多尺度融合获取的空间特征分割为四个子块,使用GAP对每个子块提取局部特征;2)全局特征:对空间特征使用1h1大小的卷积运算将N维特征通道维度提升到4N维,再使用GAP提取全局特征,然后按照通道分割将4N维分割成四个特征;最后,对四个局部特征和全局特征进行叠加,获取用于车辆识别的一个256维特征信息。

2 实验结果与分析

2.1 数据集准备

车辆重识别常用到的是Vehicle-ID和VeRi-776公开数据集。Vehicle-ID数据集包含了221,763张26,267辆车图像,每种车辆仅包含8.4张图像,且只考虑了车辆前后两种视角,无法满足复杂场景需求。VeRi-776数据集包含了超过776辆车的50,000多张图像,考虑到边海防监控的特殊性,这些样本数量并不多,很难满足监控场景的需要。所以在Vehicle-ID和VeRi-776数据集的基础上,我们通过采集实际监控场景的各种车辆数据,构建边海防监控场景的车辆再识别数据集来验证注意力框架及多尺度融合的有效性。

2.2 实验结果分析

骨干网络采用在ImageNet上预训练过的ResNet50模型参数进行初始化,网络输入为224h224。训练时采用小批量随机梯度下降(SGD)来更新网络参数,初始学习率(learning_rate)为0.001,权重衰减(weight_decay)为0.0005,批量大小(batch_size)为32。数据集随机分为训练集、验证集、测试集3部分,其中一个batch包含m个车辆,每个车辆包含n张车辆图片,一个batch总共包含个训练样本。所有车辆图像乱序排列并进行随机抽样组成训练的正负样本,并在训练前进行数据归一化处理。

为了评估我们算法的有效性,实验中通过基础网络、基础网络+SENet注意力机制、基础网络+CBAM注意力机制、基础网络+CBAM注意力机制+多尺度(scal)特征融合、基础网络+CBAM注意力机制+多尺度(scal)特征融合+全局局部(LC)特征融合几种不同组合进行训练和测试比对,使用均值平均精度(mAP)、rank1、rank5参数评估度量车辆再识别的准确率,实验结果如表1所示。

表1 注意力机制及多尺度融合有效性分析

从表1中可以看到,添加注意力机制和多尺度特征融合及局部全部特征融合后,车辆再识别准确率明显有提升,证明了我们网络结构的有效性。

在实际测试场地安装2台分辨率为1920h1080的摄像机,摄像机中间没有重叠区域,加载车辆再识别算法,车辆进入第一台摄像机时检测抓拍,途径第二台摄像机时,能够及时识别到该车辆,效果如图4所示,验证了算法的有效性。

图4 车辆识别效果图

结论与展望:本文设计并实现了一种基于注意力机制和多尺度特征融合的车辆再识别方法。通过空间通道注意力机制,提高了车辆的深度特征表达能力;通过多尺度特征融合,充分利用高层和低层网络优势,使识别网络获取更多的判别特征;还采用了全局特征和局部特征融合方法,提升了车辆目标的判别精度。通过实验验证,本设计是一种可行的车辆再识别方法。实验中还存在着一些不足,比如数据采集的场景不够多,模型的泛化能力不强。下一步通过采集更多监控场景的车辆视频,或通过图像增强等方法丰富数据集,网络的性能预计会有进一步的提升。

猜你喜欢

尺度注意力卷积
让注意力“飞”回来
基于3D-Winograd的快速卷积算法设计及FPGA实现
财产的五大尺度和五重应对
如何培养一年级学生的注意力
卷积神经网络的分析与设计
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
A Beautiful Way Of Looking At Things
宇宙的尺度
9