基于CNN特征和标签信息融合的图像检索

2017-10-19李秀华宋立明

长春工业大学学报 2017年4期

关键词：查准率检索标签

李秀华，高珊，宋立明

(长春工业大学计算机科学与工程学院，吉林长春 130012)

基于CNN特征和标签信息融合的图像检索

李秀华，高珊*，宋立明

(长春工业大学计算机科学与工程学院，吉林长春 130012)

针对基于内容的图像检索(CBIR)中图像底层视觉特征与高层语义特征之间存在的“语义鸿沟”问题，提出了一种基于卷积神经网络(CNN)特征和标签信息融合的图像检索算法。首先使用CNN模型提取图像的CNN特征以及标签信息，然后使用余弦距离分别计算这两个特征的相似度，最后将这两个相似度进行加权融合，用作图像检索排序准则。在caltech101和caltech256数据集上分别进行实验，实验结果表明，所提算法加强了图像特征与高层语义的结合，大大提高了图像检索的查准率。

卷积神经网络； CNN特征；标签；图像检索

0 引言

随着Internet的高速发展，图像信息快速增长，如何从海量的数字图像集合中快速提取有价值的内容已经成为人们的迫切需求[1]。基于内容的图像检索(CBIR)应运而生，它是一门直接从查询图像的底层特征(如颜色、形状、纹理等)出发，通过特征匹配，在图像库中找出与之相似的图像，从而实现检索的技术。几十年来，尽管研究者们进行了广泛的研究，获得了大量的成果，但仍有一个难题阻碍着CBIR系统的成功，那就是人们熟知的通过机器提取的图像底层特征和人们所理解的图像高层语义之间的差距，即 “语义鸿沟”问题[2]。

近年来，深度学习技术得到很大的发展，深层结构将底层特征和通过非线性变换提取的高层特征结合起来，使它有能力学习图像的语义表示，因此，深度学习有可能成为跨越“语义鸿沟”的桥梁[3-4]。卷积神经网络(Convolutional Neural Network， CNN)作为深度学习的一种算法，自从被提出后，在图像视觉等领域得到广泛的研究，也被证明在一些图像分类和图像检索任务中取得了良好的结果。但是，以往使用卷积神经网络来做图像检索的文章中都仅用全连接中某一层的向量作为特征，没能很好地结合图像的标签语义信息。文中提出一种将CNN特征和标签信息进行融合的算法，来提高图像检索的查准率。

1 卷积神经网络

卷积神经网络的思想最早是 LeCun[5]等在1989年提出的，并且成功应用于英语手写字体识别中。卷积神经网络是一种多层前馈网络，包括输入层、卷积层、池化层和输出层，每层由多个二维平面组成，每个平面由多个神经元组成。输入层可直接接收二维视觉模式，如二维图像，有助于学习当前分类任务最为有效的视觉特征。卷积层为特征抽取层，每个神经元的输入与前一层的局部感受域相连，并提取该局部的特征。卷积层的计算过程如下：

σ(·)----激活函数；

池化层为特征映射层，每个池化层由多个特征映射组成，每个特征映射为一个平面，平面上所有神经元的权值相等。经过池化层，可降低特征的维数，也可防止过拟合。池化层的计算过程如下：

式中：down(·)----下采样函数，该函数对输入图中每个不重复的图像块求和，得到输出图中的一个点值，每个输出有个特定的乘性偏置β。

输出层为全连接方式，该结构可充分挖掘网络最后抽取的特征与输出类别标签之间的映射关系[6]。

2 基于CNN特征和标签信息融合的图像检索算法

提出了一种将CNN特征与图像标签信息融合的图像检索算法，由于网络输出层的输出为类别标签，它包含最好的语义信息，因此,将标签信息融合进CNN特征来进行图像检索，可以更好地结合图像语义，提升检索的查准率。

1)使用卷积神经网络模型对图像库整体进行特征提取，文中使用网络模型中第二个全连接层的输出(fc2)作为图像的CNN特征，建立图像特征库。此CNN特征是输入图像的像素经过多次卷积和池化后形成的2 048维或4 096维向量。

式中：fc1----第一个全连接层的输出；

w1----权重。

激活函数σ通常使用ReLU函数，表达式为：

同时,文中使用模型中输出层的输出(prob)作为图像的标签信息，建立图像的标签信息库。此标签信息是经过softmax分类器后的1 000维向量，代表样本属于给定类的概率。

式中：fc3----第三个全连接层的输出，为1 000维向量;

w2----权重。

2)由用户向网络中输入待查询的图像，通过卷积网络提取出待查询图像的CNN特征及标签信息。提取方法与步骤1)相同。

3)分别计算待查询图像的CNN特征与特征图像库之间的相似度及待查询图像的标签信息与标签信息库之间的相似度，使用余弦距离作为相似度的衡量标准，公式如下：

式中：q----查询图像的特征向量；

D----检索库中图像的特征向量；

dist1----待查询图像的CNN特征与特征图像库之间的相似度；

dist2----待查询图像的标签信息与标签信息库之间的相似度。

余弦值越大,说明查询图像与图像库的相似程度越大。

4)这两种相似度进行加权融合，形成总相似度，按照总相似度从大到小的准则,返回检索的图片,公式如下：

式中： dist----总相似度；

ω1，ω2----权重。

算法流程如图1所示。

图1 算法流程图

3 实验与分析

实验使用当前比较流行的ResNet[7]和VGG-F[8]两种模型作为提取特征的卷积神经网络,在对相似度进行加权融合时，CNN特征的权重ω1设为0.9，标签信息的权重ω2设为0.1(此权重配置是经过实验得到的最优配置)。

3.1实验数据集

实验选用了两个公开的数据集：caltech101[9]和caltech256[10-11]。caltech101数据集总共包含9 144幅图像，101类,包括动物、车辆、花朵等，这些种类在形状上有显著差异，每一类图像最少包含31幅，最多800幅。caltech256数据集总共包含30 607幅图像，256类，相比于caltech101，它在物体的大小、位置和形态上都提供了更多的差异，每一类至少包含80幅图像。

3.2性能评价指标

实验采用查准率(precision)、查全率(recall)、曲线(PR curve)和平均查准率(mean Average Precision, mAP)作为性能评价指标。查全率反映检索的全面性，查准率反映检索的准确性，公式如下：

式中：a----检索结果中相关图像的个数；

b----检索结果的图像个数；

c----系统中所有相关图像个数;

Q----查询图像集,Q={d1,d2,…,dmq}；

Rqk----检索到dk元素时的排序结果。

3.3实验结果及分析

3.3.1 检索实例分析

文中分别在基于ResNet和VGG-F模型的检索系统中进行了实验，结果分别如图2～图5所示。

(a) caltech101数据集查询图像示例 (b) 仅用CNN特征检索结果

(a) caltech256数据集查询图像示例 (b) 仅用CNN特征检索结果

实验返回的检索结果前30张中不相关图像的张数见表1。

由表1可以看出，使用融合特征时不相关的图像张数最少，最好时为0张，表明本算法可以提升检索的查准率。

3.3.2 检索性能分析

3.3.2.1 平均查准率(mAP)

实验在两个数据集上对所有的图像类别都进行了测试，在caltech101数据集上随机返回2 000张图像，在caltech256数据集上随机返回5 000张图像，平均查准率结果见表2。

表2 检索结果平均查准率比较 %

由表2可以看出，在caltech101和caltech256数据集中，使用融合特征的检索平均查准率均有提升，最少提升5.51%，最多提升12.79%，同样表明,本算法可以提高检索的查准率。

3.3.2.2 查准率-查全率曲线(PR 曲线)

实验在两个数据集上对所有的图像类别都进行了测试，在caltech101数据集上随机返回2 000张图像，在caltech256数据集上随机返回5 000张图像，并设置查全率间隔为0.02，根据查全率计算出查准率。caltech101 和caltech256数据集在基于ResNet和VGG-F模型系统中的检索PR曲线分别如图6～图9所示(横轴为查全率，纵轴为查准率)。

图6 caltech101在ResNet模型系统中的PR曲线

图7 caltech101在VGG-F模型系统中的PR曲线

图8 caltech256在ResNet模型系统中的PR曲线

图9 caltech256在VGG-F模型系统中的PR曲线

从图中可以看到，当查全率相同时，使用融合特征的查准率均优于仅使用CNN特征或标签信息的查准率，说明本算法能够提升检索的查准率。

4 结语

提出了基于CNN特征和标签信息融合的图像检索算法，主要对比分析了使用融合特征和仅用CNN特征或标签信息的检索查准率。实验表明，文中算法在ResNet和VGG-F两种模型里都适用，并且在caltech101和caltech256两个数据集上检索查准率都有所提升。文中在进行相似度融合时，只进行了简单的加权融合，并且标签信息的泛化能力不是很好，因而影响检索结果。将进一步研究提升标签信息泛化能力及融合的方法。

[1] 周明全，耿国华，韦娜.基于内容图像检索[M].北京：清华大学出版社，2007：231.

[2] Wan J, Wang D, Hoi S C H, et al. Deep learning for content-based image retrieval: A compre-hensive study[C]//Proceedings of ACM Int-ernational Conference on Multimedia.[S.l.]:ACM,2014,22:157-166.

[3] Wang H, Cai Y, Zhang Y, et al. Deep learning for image retrieval: What works and what doesn′t[C]//2015 IEEE Internat-ional Conference on Data Mining Worksh-op (ICDMW).[S.l.]:IEEE,2015:1576-1583.

[4] 刘兵,张鸿.基于卷积神经网络和流形排序的图像检索算法[J].计算机应用,2016,36(2):531-534.

[5] LeCun Y, Boser B, Denker J S, et al. Backpropagation applied to handwritten zip code recognition[J]. Neural Computation,1989,1(4):541-551.

[6] 谢剑斌，兴军亮,张立宁,等.视觉机器学习[M].北京：清华大学出版社,2015:170-173.

[7] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]// Proceedings of the IEEE Computer Vision and pattern Recognition.2016:770-778.

[8] Russokovsky O, Deng J, Su H, te al. Image Net large scale visual recognition chaccenge[J]. International Jourmal of Computer Vision,2014,115(3):211-252.

[9] Fei Fei L, Fergus R, Perona P. One-shot learning of object categories[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2006,28(4):594-611.

[10] Griffin G, Holub A, Perona P. Caltech-256 object category dataset[EB/OL]. (2007-08-21)[2017-03-21]. http://authors library cattech edu/7694.

[11] 王宏志,刘媛媛,孙琦.基于小波变换矩阵的改进脊波变换图像去[J].吉林大学学报:理学版,2010,48(1):99-103.

ImageretrievalbasedonthefusionofCNNfeaturesandlabelinformation

LI Xiuhua, GAO Shan*, SONG Liming

(School of Computer Science & Engineering, Changchun University of Technology, Changchun 130012, China)

To solve the “semantic gap” existing between image low and high level semantics in the content-based image retrieval (CBIR), an image retrieval algorithm based on the fusion of convolution neural network (CNN) feature and label information is proposed. First, CNN features and labels of images are extracted using CNN model, and then similarity of both the features and labels are calculated with cosine distance. The fused similarities by weight are used as sorting criteria for image retrieval. Experiments based on caltech101 and caltech256 data sets indicate that the algorithm enhances image retrieval precision by combining the image features and high-level semantics.

convolution neural network; CNN feature; label; image retrieval.

TP 391

1674-1374(2017)04-0346-08

2017-03-21

吉林省科技厅基金资助项目(KJT2016-1)

李秀华(1971-)，女，汉族，吉林桦甸人，长春工业大学副教授，博士，主要从事图像处理及智能控制方向研究,E-mail:1156061155@qq.com. *通讯作者：高珊(1993-)，女，汉族，河北石家庄人，长春工业大学硕士研究生，主要从事图像处理与智能控制方向研究,E-mail:779661456@qq.com.

10.15923/j.cnki.cn22-1382/t.2017.4.06