APP下载

基于多标签神经网络的行人属性识别

2020-04-09陈桂安王笑梅刘鸿程

计算技术与自动化 2020年1期
关键词:神经网络深度学习

陈桂安 王笑梅 刘鸿程

摘   要:在多标签行人属性识别的问题中,为了充分利用标签之间的相关性,解决传统方法识别准确率低和效率慢的问题,提出了一个多标签卷积神經网络。该网络在一个统一的网络框架下识别行人多个属性。把行人的多个属性看作是一个序列,然后构建了一个时序分类模型。提出的方法不仅避免了复杂的多输入MLCNN网络,也不需要多次训练单标签分类模型。实验结果表明,本文方法准确率均优于SIFT+SVM和多输入的MLCNN模型,平均准确率达到了90.41%。

关键词:多标签分类;神经网络;行人属性;深度学习;

中图分类号:TP391.41                                             文献标识码:A

Pedestrian Attributes Recognition Based on Multi-label Neural Network

CHEN Gui-an?覮,WANG Xiao-mei,LIU Hong-cheng

(Shanghai Normal University,Shanghai 200234,China)

Abstract:In the problem of multi-label pedestrian attributes recognition,in order to make full use of the correlation between labels and solve the problem of low recognition accuracy and low efficiency of traditional methods,a multi-label convolutional neural network is proposed,which is in a network. Identify multiple attributes of pedestrians under a unified network framework. We consider multiple attributes of a pedestrian as a sequence and then construct a time series classification model. The proposed method not only avoids the complicated multi-input MLCNN network,but also does not need to train the single-label classification model multiple times. The experimental results show that the accuracy of the proposed method is better than that of SIFT+SVM and multi-input MLCNN model,and the average accuracy rate is 90.41%.

Key words:multi-label classification;neural network;pedestrian attributes;deep learning

分类任务是计算机视觉、模式识别和图像处理领域的一个基本任务,而多标签分类任务作为其中的一种也很有研究价值。比如,在监控场景下,常常会用行人的性别、年龄、发色等特征来进行人物检索[1-2]、人物识别[3-4]、面部验证[5]和人物再识别[6]等。通常情况下,公共场所的监控摄像头为了覆盖比较广的区域,都会被安装在较远的位置,因此获得的行人分辨率比较低。然而这种情况下的行人属性因其光照不变性和对比度不变性,仍然有很好的应用价值。

行人属性分类问题中有三个主要的挑战。首先,由于多样的衣服、复杂的背景和不同的镜头角度,属性的类内变化比较大。其次,不同的属性位于图片中不同的位置,比如头发通常位于图片的上方,鞋位于图片的下方等,造成了提取特征比较困难。第三,这是一个多标签的问题,不是单纯的多分类,且标签之间有一定的相关性。因此,很多现有的分类算法都不适用,即便是有一些多分类网络也有其挑战性。

多标签识别问题目前主要是各个标签分开处理。如:朱旭锋等[7]提出基于多不变量和多分类器融合的识别方法;李新德等[8]提出基于 Hu 矩、PNN 和 DSmT 融合的方法;Hussein 等[9]提出转换特征和模糊聚类的飞机识别方法;Zhu 等[10]提出基于优化的 BoW 模型识别方法;Li 等[12]提出 PCNN 模型用于飞机识别。行人属性识别中一个比较受欢迎的方法是用手工提取特征(sift[12]等)然后用SVM去单独的分类各个属性[6,13-15]。但这不能很好的解决上述的三个问题,因为手工提取的特征有有限的表达能力而数据集类内变化太复杂,也不能够应用内间的相关性信息。Jiangqing Zhu等[16]提出了一个多输入的多标签分类网络(MLCNN)来进行行人属性识别。受Xiang Bai等[17]在研究场景文字识别所使用模型的启发,本文使用了一个时序模型来实现行人属性多标签分类,该网络以ResNet50[18]为基础以及连接时序分类(CTC)[19]的损失函数来输出序列。该网络是直接用图像像素训练而不是手工特征,并且能识别多个属性。通过在PETA[13]数据集上进行实验验证,取得了良好的识别效果。

1   材料和方法

1.1   行人属性数据集

有很多用于监控研究的公开行人属性数据集,比如VIPeR,PRID,GRID,APiS,and PETA,PETA是最新的数据集,包含65个属性标签,一共19000张图片,分辨率最小为17x39,最大为169x365。19000张图片中共包含有8705个行人,每个行人用61个二分类属性标签和4个多分类属性标签打标,部分示例如图1所示

1.2   ResNet

卷积神经网络因其强大的特征表达能力和提取能力在图片分类领域取得了很高的准确率,如今,它的应用延申到了图像分析的各个领域,本课题采用深度卷积神经网络的方法,研究行人属性多标签分类识别。

加深网络以获取更高的准确率的同时也使得网络变得难以优化,因为它可能引起梯度消失或梯度爆炸的问题,以及越深的网络反而效果越差的退化问题。

ResNet[18]解决了这个问题,并且获得了2015年ILSVRC第一名。它通过拟合残差映射而不是原始映射,以及在层之间添加多个连接。这些新的连接跳过各个层并执行标识,而不增加任何新参数,或简单的1×1卷积。特别是,该网络是基于对构建块的重复使用,网络的深度取决于使用的构建块的数量。该模块由三个卷积块组成,分别是 1×1卷积块,3×3卷积块接着又是1×1卷积块,并且将第一个卷积的输入连接到第三个卷积的输出,每个卷积块包含一层batch normalization层、激活层和卷积层,如图2所示。对于我们的问题,我们使用了具有50层的ResNet50。

图1    PETA行人图片示例

图2    ResNet的基本构建单元

1.3   标签序列概率

采用Graves等人[19]提出的连接时序分类(CTC)中定义的条件概率。该概率是在每帧预测y = y1,…,yT的标签序列l上定义的,并且它忽略了每个标签具体的位置。因此,当我们使用这个概率的负对数似然作为目标函数,我们只需要图像及其相应的标签序列,避免标记各个序列元素的位置。

CTC的公式简单的描述如下:输入是序列y = y1,…,yT,T是序列长度。这里每一个yt∈R[L],是集合L′ = LU‘—上的一个可能分布,L包含所有任务中的所有标签,‘—表示空格。一个序列到序列的映射函数B是定义在上π∈L′T的。B通过移除相同的标签和空格将π映射到I,例如B将“-hh-e-ll-oo-”(‘-表示空格)映射为“hello”。然后,一个条件概率定义为所有被B映射到I的π的和:

p(l | y) = ■  p(π | y)       (1)

π的概率是p(π | y) = ■Tt=1ytπt,ytπt表示在t时刻有标签πt的概率。由于大量的指数求和,直接计公式算式(1)是不可行的,但是可以用[19]中描述的前向-后向算法有效的计算出来。

1.4   网络结构

研究网络结构如图3所示:

图3   网络结构图

ResNet_input图片大小为160 × 80 × 3,经过ResNet50卷积提取特征后,ResNet_output大小为5 × 3 × 2048,Reshape输出大小为30 × 1024,全连接层Dense将Reshape得到的30 × 1024输出特征进行全连接,输出大小为30 × 53,其中,30是时间序列的时刻,53是分类数。最后,用全连接层的输出和真实标记通过CTC公式计算损失并对网络进行优化。

1.5   算法验证

所使用的数据集是行人属性数据集PETA。PETA数据集是由10个子集构成如:VIPER,PRID,GRID以及CAVIAR4REID等,因此,PETA是一个包含不同镜头角度、光照、分辨率和场景的复杂数据集。

如果相应属性的样本量过少则会导致数据不平衡,因此我们忽略了及其不平衡的属性选择样本量大于1500的26个二分类属性如表1所示。因此每张图对应26个标签共53个分类,其中除了26个正反类以外还有一类为CTC中的空格‘-。实验中把图片大小调增为180×90,然后用随机裁剪,随机翻转,随机旋转等策略扩充数据集,随机裁剪的大小为160×80,裁剪后的图片大小与裁剪前的图片相差不大,一般不会造成图片信息的损失。

表1   26类属性识别精度对比表,粗体字表示最好的表现

实验平台为i5-6500 CPU,NVIDIA GTX 1070 GPU以及16GB内存的服务器。训练数据为11400张图片,验证数据和测试数据各3800张。训练时,先用ImageNet参数初始化ResNet50,再用PETA數据去训练。采用随机梯度下降法(SGD)优化网络,初始学习率为0.001,momentum为0.9,batch大小为32,训练50个epoch。

为了验证本文提出方法的有效性,本文使用了两个对比模型。第一个是ikSVM[20],使用的特征和[13]中类似,它有2784个维度,包括8个颜色通道,如RGB,HSV和YCbCr,以及在亮度通道上使用Gabor和Schmid滤波器获得的21个纹理通道。第二个是MLCNN[16],用滑动窗策略把图片分割成多个小图,然后输入到多输入的神经网络里自动提取特征,并用此特征进行分类。

2   分   析

实验结果如表1,26个属性中有24个是本文方法的分类准确率更高。本文方法的平均准确率为90.41%,高于ikSVM的81.01%和MLCNN的85.83%。这些结果表明本文的方法在大部分属性上都优于ikSVM和MLCNN。ikSVM是对每个属性单独的训练分类器,因此在某些属性上ikSVM的准确率要高一点,MLCNN虽然是对多个属性联合训练,但是多输入的网络,其复杂度要高很多,训练参数也很多,因此训练难度更大。本文把多属性当作是一个序列结合CTC loss设计了一个单输入的时序网络,使用ResNet50充分发挥深度网络特征表达能力强的优势,使得多标签的分类准确率很高,用ImageNet预训练参数初始化ResNet50,大大提升了训练速度。因此,本文方法在大部分属性分类中取得了更高的表现。

3   结   论

提出了一个用于行人属性分类的多标签分类网络,该网络通过CNN自动提取特征,并且能够预测多个属性。在PETA数据集上的实验表明了该网络在行人属性分类上有很好的效果。未来的研究目标,在网络中加入多尺度特征融合以应对数据集中图片大小相差比较大的问题,进一步提升分类效果。

参考文献

[1]    JAHA E S,NIXON M S. Analysing soft clothing biometrics for retrieval[C]. Biometric Authentication,2014:234—245.

[2]    DANTCHEVA A,SINGH A,ELIA P,et al. Search pruning in video surveillance systems:eficiency-reliability tradeoff[C]// IEEE International Conference on Computer Vision Workshops,2012.

[3]    JAIN A K,DASS S C,NANDAKUMAR K. Soft biometric traits for personal recognition systems[M]// Biometric Authentication,2004.

[4]    DANTCHEVA A,DUGELAY J L,ELIA P. Person recognition using a bag of facial soft biometrics (BoFSB)[C]// IEEE International Workshop on Multimedia Signal Processing,2010.

[5]    KUMAR N. Attribute and simile classifiers for face verification[C]// IEEE International Conference on Computer Vision. IEEE,2010.

[6]  LAYNE R,HOSPEDALES T M,GONG S. Towards person identification and re-identification with attributes[C]// European Conference on Computer Vision,2012.

[7]    朱旭鋒,马彩文.基于多不变量和多分类器融合的飞机识别[J].仪器仪表学报,2011,32(7):1621—1627.

[8]   LI X D,YANG W D,JEAN D. An Airplane Image Target′s Multi-feature Fusion Recognition Method[J]. 自动化学报,2012,38(8):1298—1307.

[9]    HUSSEIN G T,REDDY S E. Satellite remote sensing image based aircraft recognition using transform features and detect fuzzy clustering[J].International Journal of Engineering Science and Computing,2016:4590—4594.

[10]  ZHU X,MA B,GUO G,et al. Aircraft type classification based on an optimized bag of words model[C]// Guidance,Navigation & Control Conference,2017.

[11]  LI H,JIN X,YANG N,et al. The recognition of landed aircrafts based on PCNN model and affine moment invariants[J]. Pattern Recognition Letters,2015,51(C):23-29.

[12] YAN T W,GARCIA-MOLINA H. SIFT:a tool for wide-area information dissemination[C]// Usenix Technical Conference,1995.

[13] DENG Y B,LUO P,CHEN C L,et al. Pedestrian Attribute Recognition At Far Distance[C]// the ACM International Conference. ACM,2014.

[14]  JAHA E S,NIXON M S. Soft biometrics for subject identification using clothing attributes[C]// IEEE International Joint Conference on Biometrics,2014.

[15] AN L,CHEN X,KAFAI M,et al. Improving person re-identification by soft biometrics based reranking[C]// Seventh International Conference on Distributed Smart Cameras,2014.

[16]  ZHU J,LIAO S,LEI Z,et al. Multi-label convolutional neural network based pedestrian attributeclassification[J]. Image & Vision Computing,2017,58(C):224-229.

[17]  SHI B,BAI X,YAO C. An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2015,39(11):2298-2304.

[18]  HE K,ZHANG X,REN S,et al. Deep residual learning for image recognition[EB/OL]. https://arxiv.org/abs/1512.03385,2015.

[19] GRAVES A,SANTIAGO F,GOMEZ F. Connectionist temporal classification:labelling unsegmented sequence data with recurrent neural networks[C]// International Conference on Machine Learning,ACM,2006.

[20]  DENG Y,LUO P,LOY C C,et al. Learning to recognizepedestrian attribute[EB/OL]. https://arxiv.org/abs/1501.00901,2015

猜你喜欢

神经网络深度学习
基于人工智能LSTM循环神经网络的学习成绩预测
基于图像处理与卷积神经网络的零件识别
基于改进VGG-16神经网络的图像分类方法
基于自适应神经网络的电网稳定性预测
三次样条和二次删除相辅助的WASD神经网络与日本人口预测
基于BP神经网络PID控制的无刷直流电动机调速系统设计
有体验的学习才是有意义的学习
电子商务中基于深度学习的虚假交易识别研究
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望