基于生成对抗网络的跨模态行人重识别研究

2020-07-31冯敏张智成吕进余磊韩斌

现代信息科技 2020年4期

冯敏张智成吕进余磊韩斌

摘要：红外图像与可见光图像的跨模态行人重识别是一个备受关注的任务问题。与传统可见光条件下的单一模态行人重识别问题相比，跨模态行人重识别还包含成像原理导致的模态差异的难点。现有方法仅从特征级别增加约束，忽略了模态差异的独特性。为此，文章将分别处理模态差异和外观差异，使用循环生成对抗网络减小模态差异，使用度量学习降低外观差异。同时，还提出一个跨模态的图像融合模块。在RegDB和SYSU-MM01数据集上的实验结果证明了该方法的有效性。

关键词：生成对抗网络;行人重识别;跨模态

中图分类号：TP391.41 文献标识码：A 文章编号：2096-4706（2020）04-0107-03

Abstract：The problem of cross modal pedestrian recognition of infrared image and visible image is a task of great concern. Compared with the single modal pedestrian recognition problem under traditional visible light，cross modal pedestrian recognition also involves the difficulty of modal difference caused by imaging principle. The existing methods only add constraints from the feature level，ignoring the uniqueness of modal differences. For this reason，the paper deals with the modal difference and appearance difference respectively，uses the cyclic generation countermeasure network to reduce the modal difference，and uses the metric learning to reduce the appearance difference. At the same time，a cross modal image fusion module is proposed. Experimental results on RegDB and SYSU-MM01 datasets show the effectiveness of the proposed method.

Keywords：generate countermeasure network;pedestrian recognition;cross modal

0 引言

行人重识别任务的目的是跨设备检索给定行人的图像，在电力设备安全管理领域有着重要应用。行人重识别技术可以弥补目前固定摄像头的视觉局限，如拍摄角度、分辨率、目标姿态以及障碍物遮挡等。该技术可与人物检测、人物跟踪技术相结合，能够应用于电力生产管理、运行视频监控、安全防护等领域。现有行人重识别方法主要依赖于良好光照条件下的行人外观[1，2]。但在黑夜环境下，光照条件不佳会导致行人的外观模糊，现有的行人重识别方法不能很好地处理这种环境。因此，可见光和红外图像的跨模态行人重识别任务是一个亟须解决的问题。

现有方法将模态差异看作是外观差异的一部分，并试图使用传统的行人重识别方法中的特征级别的约束同时优化两种差异[3，4]。单模态行人重识别和跨模态行人重识别任务之间的性能差异巨大，同时存在的外观差异和模态差异使得优化任务更加困难，因此仅使用特征级别的约束不能有效地缓解模态差异。

由于待检索图像和图库来自不同的模态，因此直接将两种不同模态的图片映射到同一特征空间性能不佳。为了缓解这个问题，本文提出了一个生成对抗网络的跨模态行人重识别的方法，将模态差异和外观差异分别处理。首先使用图像级别的模态差异子模块，生成可见光（红外光）图片对应的红外光（可见光）图片，实现将不同模态的图片映射到同一空间的目的，并通过一个基于生成对抗网络的融合模块将可见光（红外光）生成的对应模态结果融合。随后，使用特征级别的外观差异子模块来处理外观差异。本研究提出的此项基于生成对抗网络的跨模态行人重识别方案，同时从图像级别和特征级别缓解模态差异。该方案能够帮助本企业以低成本高效率解决电力设备安全管理领域中的行人重识别问题，从而增加电力设备管理领域性的安全性，实现系统的平稳运行。

1 跨模态行人重识别方法

给定X和Y，分别代表可见光图像集和红外光图像集，每一张图片x∈X或者y∈Y对应一个标签i∈{1，2，…，Np}，其中Np是行人的总数。给定一张待检索的可见光图片x，或者红外光图片y，和对应的需要检索的红外光图库Y，或者可见光图库X，跨模态红外-可见光行人重识别任务的目标是得出图库的排序列表R，其中和待检索图片有着相同身份的图片应该排序在顶部。常规的做法是通过特征嵌入將x和y投影到相同的特征空间，即fx=hx（x），fy=hy（y），随后依据特征之间的距离得出一个排序列表R。

图1展示了本文的总体框架，包含三个子模块：

（1）用来降低模态差异的子模块NI;

（2）用来将不同模态图片进行增强的融合子模块;

（3）用来降低外观差异的子模块NF，三个子模块之间是级联的，并且能够端到端联合优化。

1.1 图像级别的差异缓解模块NI

为了在图像级别缓解差异，本文设计了图像级别的差异缓解网络NI，使用变分自编码器（VAE）对两种模态的图片进行特征映射，将红外图像和可见光图像映射到同一特征空间中，这个特征空间中只保留两种模态的图片的共同特征，同时过滤两种模态不同的特征。在获得这样的模态无关的高维特征后，使用生成对抗网络来进行特定域的图像生成，包括两个编码器-解码器结构，分别对应可见光和红外图像模态的生成。变分自编码器的损失函数LVAE定义如下，其中KL是Kullback-Leibler散度，第二项中的||.||代表L1损失：

LVAE（Ev，Gv）=λ0KL（qv（zv|x）|pn（z））-λ1Ezv～qv（zv|x）[||x-Gv（zv）||1]

1.2 融合模块

在使用变分自编码器获得输入图片的对应输出结果后，还应该考虑将输入图片和生成图片融合。本文从生成对抗网络的角度，将融合问题看作是对抗性问题，具体结构如图1中融合模块所示。首先，将红外图像和可见光图像拼接，输入到生成器中，生成器生成对应的融合图像，可见光图像和融合图像输入到鉴别器中，鉴别器鉴别图像是来自可见光，还是来自融合后的图像，直到鉴别器不能鉴定真假，融合模块收敛。

1.3 特征级别的差异缓解模块NF

特征级别的差异降低网络NF在融合模块的输出基础上，进行特征提取和度量学习。给定一张融合后的图片Ifusion，深度特征提取网络提取判别特征。本文使用ResNet-50作为特征提取的骨干网络，最后一层1 000维的全连接层被替换为1 024維的全连接层，并使用Batch Normalization、ReLU和Dropout层。全连接层的输出被送至两个独立的128维的全连接层中，两种形式的损失函数分别作用于这两个全连接层，其中一个是三元组损失函数，用来监督相似度学习;另外一个是交叉熵损失函数，用来监督行人身份识别。

2 实验

本节将展示实验设置、和其他方法的结果对比、消去实验。

2.1 实验设置

本文在两个公开的跨模态行人重识别数据集上验证提出的方法的有效性：RegDB和SYSU-MM01。RegDB数据集包含412位行人，每人有10张可见光图像和10张红外图像;SYSU-MM01数据集包含395人，有22 258张可见图像、11 909张红外图像;测试集包含96人，其中3 803张红外图像用于待检索，301张随机选择的可见光图像作为图库。

本文采用标准累积匹配特征曲线（CMC）和平均精度（mAP）来衡量本文方法的有效性。在测试期间，一种模态的图像用作图库，而另外一种模态的图片作为待检索集合。

2.2 结果对比

为了验证本文提出方法的有效性，本文和现有的跨模态行人重识别方法进行对比，这些方法包括Zero-padding、TONE和BDTR。除此之外，还包括几种基于特征学习的方法进行比较，HOG、LOMO以及一阶段和两阶段方法。表1和表2展示了所有方法在两个数据集上的结果，实验结果显示，本文提出的方法在RegDB和SYSU-MM01数据集上的性能均超过了之前的方法，验证了本文提出的方法的有效性。

2.3 消去实验

本文的方法包括三个模块：用于降低模态差异的子模块、用于融合多模态图像的融合模块、用于降低外观差异的子模块。模态差异消除网络使用变分自编码器和循环一致损失进行优化，融合模块采用对抗损失进行优化，外观差异消除网络采用交叉熵损失函数和三元组损失函数进行优化。表3展示了在RegDB数据集上，消去每一个损失，对CMC和mAP性能造成的影响。消去实验证明了本文提出的模态差异降低子模块和融合模块的有效性。

3 结论

本文提出基于生成对抗网络的红外-可见光跨模态行人重识别方法，首先将跨模态行人重识别任务的差异性分解为模态差异和外观差异，并利用循环生成对抗网络来降低图像级别的模态差异。其次使用基于生成对抗网络的融合模块来对上一级网络的输出进行增强。最后利用基于度量学习的特征嵌入层学习相似度，以此完成重识别任务。在两个公开的数据集上的实验表明本文提出的方法能够更好地处理模态差异，验证了本文方法的有效性。

参考文献：

[1] WANG Z，HU R M，CHEN C，et al.Person Reidentification via Discrepancy Matrix and Matrix Metric [J].IEEE Transactions on Cybernetics，2017：1-15.

[2] WANG Z，HU R M，LIANG C，et al.Zero-Shot Person Re-identification via Cross-View Consistency [J].IEEE Transactions on Multimedia，2015，18（2）：260-272.

[3] WEI L H，ZHANG S L，GAO W，et al.Person Transfer GAN to Bridge Domain Gap for Person Re-Identification [C]//Proceedings of Conference on Computer Vision and Pattern Recognition，2018.

[4] WU A C，ZHENG W S，YU H X，et al.RGB-Infrared Cross-Modality Person Re-Identification [C]//2017 IEEE International Conference on Computer Vision （ICCV）.IEEE，2017.

作者简介：冯敏（1972-），男，汉族，江苏如皋人，工程师，硕士研究生，主要研究方向：视频图像处理。

现代信息科技

2020年4期

基于生成对抗网络的跨模态行人重识别研究

杂志排行

现代信息科技的其它文章