基于多融合模型的图像语义描述研究

2019-09-10王媛华

河南科技 2019年14期

关键词：卷积神经网络

王媛华

摘要：图像语义描述可以自动生成图像的自然语言描述，对场景理解具有重要意义。本文主要针对图像语义描述的特征学习和语义学习等进行改进，提出一种新的多融合模型。实验结果表明，本文提出的模型有较好的描述效果，但模型在训练时时间过长，有待改进。

关键词：图像描述;语义网络;卷积神经网络;LSTM

中图分类号：TP391.41 文献标识码：A 文章编号：1003-5168（2019）14-0034-03

Image Caption Based on Multi-fusion Model

WANG Yuanhua

（College of Mathematics and Computer Science， Yan'an University，Yan an Shaanxi 716000）

Abstract： Image semantic description can automatically generate natural language description of images， which is of great significance to scene understanding. In this paper， we proposed a new multi-fusion model for feature learning and semantic learning of image semantic description. The experimental results show that the model proposed in this paper has good descriptive effect， but the training time of the model is too long and needs to be improved.

Keywords： image caption;semantic compositional network;Convolutional Neural Network;LSTM

計算机视觉（Computer Vision，CV）作为人工智能的重要分支之一，随着深度学习模型的建立开始蓬勃发展。现代科技生活带来了各种各样的图像，这些图像大多数都没有具体的语言描述，对人类而言，其可以轻而易举地理解它们，但对机器来说，要将图像描述得很全面是比较困难的。图像语义描述综合了计算机视觉与自然语言处理（Natural Language Processing，NLP）的任务，越来越引起人们的重视[1-4]。图像语义描述的目的是解决机器表达图像这个问题，可以分为图像理解和图像的语言描述。图像理解需要检测和识别物体，需要了解场景类型或位置、对象属性及其之间的关系，最后生成格式良好的句子，同时需要对语言进行语法和语义理解。图像所包含的信息量非常巨大，而且在语义概念上也存在模糊和多义的特点。目前，借助深度学习的方法，图像语义描述取得了一定成效，但仍存在样式单一、语义信息缺失、抗噪声能力较弱的问题。因此，本文提出多融合模型。

1 图像语义描述研究现状

目前，图像语义描述方法较多，早期主要使用自下而上的范式来进行图像语义描述。这种范式首先通过对象识别和属性预测生成图像的描述词，然后再结合语言模型生成最终的语义表达。最近，由于神经网络在机器翻译中的成功应用，编码解码器框架已经被引入图像语义描述中。遵循这一框架的方法，通常通过卷积神经网络将图像编码为单个特征矢量，然后将这些矢量输入循环神经网络以生成描述，此外还制定了各种建模策略。Karpathy和Fei-Fei等人提出了通过检测图像中的对象来增强模型的方法。Ranzato等人提出了一个序列级的训练算法。在推理过程中，大多最先进的方法都使用一种常用的解码器机制，即贪婪搜索或光束搜索。

2 多融合模型

本文提出的多融合模型包括两部分：在编码过程中以语义组合网络（Semantic Compositional Network，SCN）作为提取图像特征的网络;解码过程提出一种可以推理下一个单词的LSTM变体模型[5-11]。

2.1 编码器

在编码器中，本文以SCN作为图像的输入网络。在实验中，SCN基于对被测图像中的语义概念（即标签）的检测。为了从图像中检测这样的语义图像，本文首先从训练集中的标题文本中选择一组标记。笔者使用训练标题中最常用的K个词来确定标签的词汇，其中包括最常用的名词、动词或形容词。

2.2 解码器

语言模型是一种概率分布模型，是自然语言处理领域里一个重要的基础模型。目前，最成功的语言模型是LSTM模型。对于解码器，本文使用图1中的模型结构，其中区域特征用于产生检测分数和bounding box offset，以及输入LSTM以生成区域描述，LSTM在每个步骤中预测一个词，并利用这个预测词来预测下一个词。图2显示了使用这种重复过程生成描述的例子。

3 实验及评估指标

3.1 数据集和评估指标

图像语义描述需要大量的图片资源以及对应的标注信息才可以进行训练，数据对于深度学习的算法至关重要。MSCOCO数据集是微软提供的一个包含图像识别、图像分割以及图像描述的数据集合。该数据集有328 000张图片，超过200万的对象，80个物体种类。MSCOCO数据集主要有四个部分：Detection、Keypoints、Stuff和Captions。本文主要使用的是Captions集合，分别包含82 783、40 504幅和40 775幅图像用于训练、验证和测试。集合中的每张图片都带有5个人工标记好的句子。

BLEU（Bilingual Evaluation Understudy）是一種用于衡量机器生成文本质量的指标，是将各个文本片段与一组参考文本进行比较，并为每个文本片段计算得分，在估计生成文本的总体质量时，对计算的分数进行平均。METEOR（Metric for Evaluation of Translation with Explicit Ordering）是用于评估机器翻译语言的另一个度量标准，是将标准单词段与参考文本进行比较。除此之外，一个句子的词干和单词的同义词也被认为是匹配，METEOR可以在句子或段级别上实现更好的相关性。CIDEr（Consensus-based Image Description Evaluation）是用于评估图像描述的自动一致度量。现有的大多数据集每个图像只有5个字幕，以前的评估指标适用于这些少量的句子，并不足以衡量生成的字幕与人类判断之间的共识。

3.2 实验和训练

为了预测给定一个测试图像的语义概念，笔者把这个问题作为一个多标签的解谜任务来处理。假设有N个训练例子，而[yi=yi1，…，yik∈0，1k]是第i个图像的标签向量，其中[yik]=1，如果图像有标记K的注释，而[yik]=0则不然。让[vi]和[si]表示图像的特征向量和图像的语义特征向量，最小化的损失函数为：

[1Ni=1Nk=1Kyiklogsik+1-yiklog1-sik] （1）

其中，[si=σfvi]是K维向量[si=si1，…，sik]，[σ·]是逻辑Sigmoid函数，[f·]实现为多层感知器（MLP）。

在测试中，笔者计算了每个输入图像的语义概念向量S，其由所有标记的概率组成，由语义概念检测模型计算。

语义特征在第一个时间步骤中只被输入LSTM，然后是一个特殊的句首符号，然后是一个接一个的预测单词的嵌入特征向量。

3.3 实验评估

在MSCOCO数据集上，训练模型并且进行微调（Fine-tune），验证后和一些目前较新的模型作对比，对比实验结果如表1所示。

实验结果显示，多融合模型通过微调后，可以得到模型的最优性能。实验显示，评价指标相比其他模型有良好的表现能力。

4 结语

本文通过研究SCN网络和LSTM，将两种模型结合在一起，提出一种新的多融合模型。通过改进编码器和解码器，使图像内容表述简洁通畅。实验结果表明，本文提出的模型有较好的描述效果，但模型在训练时时间过长，有待改进。

参考文献：

[1]Bengio Y，Louradour J， Collobert R， et al. Curriculum learning[J]. Proc.int.conf.on Machine Learning，2009（60）：6.

[2]Chen X ， Fang H ， Lin T Y ， et al. Microsoft COCO Captions：Data Collection and Evaluation Server[J]. Computer Science，2015（5）：1-7.

[3]Chen X ， Zitnick C L . Mind's eye：A recurrent visual representation for image caption generation [C]//2015 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）.2015.

[4]Cho K， Van Merrienboer B， Gulcehre C， et al. Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation[J]. Computer Science，2014（6）：1724-1734.

[5]Chung J ， Gulcehre C ， Cho K H ， et al. Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling[J]. Eprint Arxiv， 2014（2）：1-9.

[6]Deng J， Dong W， Socher R， et al. ImageNet： a Large-Scale Hierarchical Image Database[C]// IEEE Conference on Computer Vision & Pattern Recognition. 2009.

[7]Donahue J， Hendricks L A， Guadarrama S， et al. Long-term recurrent convolutional networks for visual recognition and description[C]// Computer Vision & Pattern Recognition. 2015.

[8]Elliott D， Keller F. Image description using visual dependency representations[EB/OL].（2016-04-01）[2019-04-22]. http：//www.doc88.com/p-5416901465276.html.

[9]Hao F， Platt J C， Zitnick C L， et al. From captions to visual concepts and back[C]// IEEE Conference on Computer Vision & Pattern Recognition. 2015.

[10]Farhadi A， Hejrati M， Sadeghi M A， et al. Every picture tells a story： generating sentences from images[J]. Lecture Notes in Computer Science，2010（10）：15-29.

[11]Frome A ， Corrado G S ， Shlens J ， et al. Devise：A deep visual-semantic embedding model[C]// International Conference on Neural Information Processing Systems. Curran Associates Inc. 2013.