APP下载

基于动态前景聚焦与伪孪生网络的跨分辨率行人重识别*

2023-07-03吉海瑞张宝华

内蒙古科技大学学报 2023年1期
关键词:分支行人分辨率

吉海瑞,张宝华

(内蒙古科技大学 信息工程学院,内蒙古 包头 014010)

行人重识别(Person Re-identification,ReID)旨在研究同一身份行人在非重叠监控场景下的匹配检索问题.在实际场景中,不同摄像机捕获的同一行人图像分辨率差异显著,直接跨分辨率匹配会使网络性能下降.

为解决分辨率不匹配问题,JIAO等[1]人提出一种级联超分辨率(Super Resolution,SR)模型和Re-ID子网络的方法,通过多尺度的SR网络重建低分辨率图像中的高频信息. WANG等[2]人通过级联多个GAN网络,通过尺度自适应放大因子逐步重建低分辨率图像中的细节,以解决跨分辨率图像特征不一致问题.这些方法利用级联图像超分辨率或GAN网络的优势解决跨分辨率问题,而SR和ReID联合网络的兼容性问题并未得到有效解决.为此,CHENG等[3]人利用超分辨率技术和行人重识别之间的底层关联信息增强子网络之间的兼容性,从训练策略角度优化超分辨率技术和行人重识别的联合框架,以提高网络性能.ZHANG等[4]人利用教师学生模型分阶段训练网络,以减少跨分辨率图像之间的特征分布差异.而这些方法却忽略了如何在超分辨率重建过程中获取有效的判别区域.

为此,提出了一种基于动态前景聚焦与伪孪生网络的跨分辨率行人重识别算法.该算法利用动态前景聚焦超分辨率网络,恢复低分辨率图像.然后构建伪孪生网络,实现对不同粒度特征进行自适应特征提取,以学习细粒度局部特征和粗粒度全局特征.

1 基本原理

1.1 网络框架

整体网络框架由2部分组成,分别为动态前景聚焦超分辨率网络(Dynamic Foreground Focusing Super Resolution, DFFSR)和伪孪生网络(Pseudo Siamese Network, PSN)模块,如图1所示.

图1 整体网络架构

1.2 DFFSR网络

DFFSR网络由编码器(Encoder),动态感知模块(Dynamic Perception Network, DPN)和解码器(Decoder)3部分组成,其中,动态感知模块是由n个Attention in Attention Block(A2B)网络构建而成链式子网络,每个A2B由非注意力分支(Non-attention Branch),注意力分支(Attention Branch)和动态注意模块(Dynamic Attention Module, DAM)3分支组成,如图2所示.

图2 动态前景聚焦网络

首先,原图像经过编码器学习得到中间特征Fc,通过动态感知模块动态感知中间特征中的显著区域,得到具有判别信息的中间特征Fd.其次,经过解码器进行超分辨率重建,得到超分辨率图像.最后,利用高斯掩码抑制背景杂波干扰.

编码器用两个以步幅为2的卷积层对输入图像进行下采样,得到中间特征Fc,然后将其输入到动态感知模块,得到具有判别区域的中间特征Fd.公式如下:

(1)

式中:f(·)为非注意力分支和注意力分支与由输入特征确定的动态权重相结合的函数.

在每个A2B中,动态注意力模块分支利用加权求和方式平衡注意力分支和非注意力分支,控制两分支的动态加权贡献,自动丢弃不重要的注意力特征.计算公式如下:

(2)

πn=fatt(xn) .

(3)

式中:fatt为动态注意力模块计算函数.

提取到具有判别性的中间特征后,通过解码器对Fd进行重建.首先使用最近邻插值对其上采样,并在低层和高层之间添加跳跃连接,保留原始图像中的视觉线索,提高重建图像的质量.最后对输入图像特征和重建后特征融合,生成超分辨率特征Fsr.

行人前景可以为行人重识别提供更多的特征信息,为了在行人前景上恢复更多视觉线索并抑制杂乱的背景,提出动态前景聚焦SR损失LDFFSR,计算公式如下:

(4)

1.3 PSN网络

单独应用DFFSR网络不足以挖掘深层语义信息,并且低分辨率和高分辨率图像传达的视觉线索数量不同.为此,设计了PSN网络进行分辨率自适应特征提取.在PSN网络,首先利用Stage0、Stage1和Stage2提取特定分辨率特征图的低频信息;然后将Stage3和Stage4设置为具有共享参数的伪孪生网络框架进行粗细粒度特征学习,实现分辨率自适应特征提取.

在细粒度分支,经过Stage4后将n个局部特征向量连接成单个列向量,学习具有局部分辨率的判别特征:

(5)

进一步用于产生ID预测损失:

(6)

式中:Wj、Wyi分别为权重矩阵W(g的单个分类器)的第j列和第yi列对应的权值.

该分支采用难样本挖掘三元组损失作为细粒度分支损失函数Lf_tri,对于batch中的每个特征fa,通过挖掘最难正负样本对fp和fn来构造三元组以计算细粒度分支损失.

在粗粒度分支,采用异中心三元组损失函数[5]作为粗粒度分支损失函数Lc_tri.对于每个行人,通过关注跨分辨率正中心对和最难(模态内和模态间)负中心对.PSN模块总损失为:

LPSN=Lf_tri+Lid(f)+Lc_tri+Lid(fc) .

(7)

式中:Lf_tri为细粒度三元组损失,Lid(f)为细粒度分支分类损失;Lc_tri为粗粒度三元组损失,Lid(fc)为粗粒度分支分类损失.

1.4 跨分辨率数据特征间的约束准则构建

在目标函数构建方面.行人重识别任务的目标是最小化同一个人图像之间的距离,同时保持不同人图像之间的较大距离.考虑到行人图像分辨率的影响,将跨分辨率行人重识别的目标函数O定义为:

(8)

式中:Fsim为计算同一行人两张图像之间的特征距离函数;Fdif为计算不同行人两张图像之间的特征距离函数;r1和r2分别为距离计算中2个图像的分辨率.

2 实验结果与分析

2.1 数据集评估与评价标准

实验所涉及的数据集包括2个用于传统行人重识别任务的高分辨率数据集(MLR-Market-1501[6]、MLR-DukeMTMC-ReID[7]),2个以随机的下采样率对所有图像进行预处理的合成数据集(MLR-Market-1501、MLR-DukeMTMC-ReID),和一个本身存在高低分辨率图像的数据集:CAVIAR[8].

实验采用首位命中率Rank-1和前5位命中率Ran-5作为实验评估指标.

2.2 实验配置与实验细节

实验是在2张NVIDIA GeForce RTX 2080Ti显卡环境下实现的.实验中采用PyTorch1.10.0框架,输入图像尺寸大小为256×128,网络基本结构为OSNet50[9],设置batch大小为64.采用Adam优化器优化参数,模型初始学习率为3.5×10-5.

2.3 实验结果分析

2.3.1消融实验

首先,对DFFSR网络进行有效性验证.实验在MLR-Market-1501数据集上进行.采用RestNet50作为特征提取模型,并且测试了不同的超分辨率方法(双线性插值Bilinear,NLSN[10]和EMASRN+[11]),结果如表1所示.

表1 不同超分辨率模型的精度对比(准确率,%)

从表1中可以看出,在DFFSR网络中仅应用注意力分支比仅应用非注意力分支稍有提升,可以得出注意力机制更有利于SR模型感知判别特征.当2个分支结合后,相对仅应用注意力分支,Rank-1和Rank-5分别提高了2.5%和0.8%,表明将2个分支结合更有利于低分辨率图像的恢复,捕获判别特征.在双分支的基础上应用动态注意力模块后,精度明显提升,这说明该模块可以更好地抑制无效感知区域,增强对关键特征的感知能力.当结合高斯掩码后,Rank-1和Rank-5提升至55.1%和73.6%,表明结合高斯掩码后的DFFSR能有效地提取更多的图像前景关键信息,缓解多分辨率图像携带的高低频信息特征差异,并且一定程度上增强了模型的检索性能.通过与目前主流超分辨率模型(NLSN,EMASRN+)对比,算法有明显提升.

其次,对PSN网络进行有效性验证.实验在MLR-Market-1501数据集上进行.采用双线性插值作为超分辨率重建模块.为评估PSN网络不同深度设置的影响,对其进行研究,结果如表2所示.由于OSNet50有5个残差块,表中的C0-S1234为将第一个残差块作为浅层,其余4个块作为伪孪生网络共享深层.其他方法也以同样方式命名,其中C01234为没有设置伪孪生网络.

表2 PSN网络不同深度设置的精度对比(准确率,%)

从表2可以看出,C01234在所有方法中性能最差,说明构建伪孪生网络是必要的,并且随着浅层深度的增加和伪孪生网络的深度的减小,识别性能先提高后降低.当浅层深度较小时,无法充分提取不同模态的模态特征.当浅层深度较大时,不同形态的2个分支过于独立,提取的特征差异太大,C012-S34在2个数据集上性能最佳.因此实验将OSNet50的前3个残差块设置为浅层,后2个残差块设置为伪孪生网络架构.

将PSN网络与四种特征提取模型进行对比,实验结果如表3所示.

表3 不同特征提取模型的精度对比(准确率,%)

在表3中可以发现,OSNet50比ResNet50精度少有提升,这是因为ResNet网络具有下采样特性,导致分辨率的降低.通过融合2个ResNet50和两个OSNet50来增加网络参数会比单独1个分支带来更多边际改进,进一步提高了网络精度,其中,Rank-1分别提高了1.5%和1.8%.在比较的方法中,PSN网络取得了最好的性能,Rank-1比基线高出了6.3%,结果表明,PSN网络可以更好地挖掘深层语义特征,增强对判别性特征的提取能力.

最后,进一步验证DFFSR和PSN对公式(9)中定义的目标函数的影响.实验在MLR-Market-1501和MLR-DukeMTMC-ReID数据集上进行.为简单起见用基础网络ResNet作为特征提取器.结果如图3所示.

图3 DFFSR和PSN对目标函数的影响

在具有不同r1和r2组合的2个数据集上计算O(r1,r2),其中,图(a)和(b)是在MLR-Market-1501数据集上进行的结果,图(c)和(d)是在MLR-DukeMTMC-ReID数据集上进行的结果.图(a)和(c)为固定r1=r2并将它们的值从0.25增加到1.可以观察到,较低的分辨率会导致较大的O,从而导致较低的准确率.图(b)和(d)为固定r2=1并将r1从0.25增加到1.可以得出,2个图像分辨率差较大时,会降低识别精度.从图中也可以发现,DFFSR和PSN都降低了目标函数的值,并且都降低了原始曲线的斜率,意味着所提算法可更好地处理分辨率变化的行人图像.结合DFFSR和PSN可带来最佳性能.

2.3.2与现有主流算法比较

为了验证所提算法的有效性,将其与最近的7种跨分辨率行人重识别算法(SING[1],CSR-GAN[2],INTACT[3],RIPR[12],CAD-Net[13],CAD-Net++[14]和B-F+RFD[15])比较.在表4中总结了3个数据集的实验结果.

表4 与其他先进算法的精度对比(准确率,%)

从表4中可以看出,所提算法在3个数据集上的Rank-1和Rank-5指标均超越了之前算法,取得目前领先效果.这说明所提算法可以有效提取跨分辨率行人图像的模态不变性特征,以实现更好的检索与匹配.

3 结论

针对跨分辨率行人重识别场景复杂等问题,提出了一种跨分辨率行人重识别算法,通过动态前景聚焦超分辨率重建网络恢复低分辨率图像中缺失的判别性特征,通过构建多粒度相互协同的伪孪生网络实现了对超分辨率重建图像的精细化识别.通过端到端训练,使模型强有力地解决了多分辨率图像特征不一致、网络级联训练困难等问题.实验结果表明,所提算法有效提高了多分辨率情况下的识别准确率,相比于主流算法具有一定优势.

猜你喜欢

分支行人分辨率
毒舌出没,行人避让
巧分支与枝
EM算法的参数分辨率
路不为寻找者而设
原生VS最大那些混淆视听的“分辨率”概念
一类拟齐次多项式中心的极限环分支
我是行人
基于深度特征学习的图像超分辨率重建
一种改进的基于边缘加强超分辨率算法
生成分支q-矩阵的零流出性