基于卷积神经网络模型的分层特征提取

2018-05-14周丽娜

科技风 2018年5期

周丽娜

摘要：针对传统人工特征无法捕捉图像目标语义信息的缺点，本文提出一种基于卷积神经网络模型VGG-Net的分层特征提取方法，对模型的高低卷积层分别进行特征提取和深入的分析。实验结果表明低层特征图分辨率高包含更多细节信息，高层特征图分辨率低能提取更多语义信息。因此可根据不同任务选择不同层特征以获得最佳的目标特征表达。

关键词：特征提取；卷积神经网络；VGG-Net模型；分层特征

特征提取是计算机视觉领域研究的基础内容。传统的人工特征需要小心构造光照、旋转不变性等特性，无法捕捉目标的语义信息，对目标的特征表达能力存在一定的局限性。近几年，深度学习理论成为人工智能领域的研究热点[1]。其中卷积神经网络（Convolutional neural network，CNN）通过多层的自主学习，可以从颜色、边缘等底层细节特征得到更强大的特征表达能力而备受关注，并在图像分类及语音识别领域取得了重大成果。本文采用深度模型VGG-Net[2]进行目标特征提取，分析高低卷积层的特征特点，从而获取更强大的特征表达能力。

1 卷积神经网络的基本结构

基本的卷积神经网络包括：输入层、卷积层、下采样层（池化层）、全连接层和输出层。如图1所示，其中C1，C2为卷积层，S1，S2为下采样层。最终，处理后的数据被连接成一个向量经过全连接层输出。

2 基于VGG-Net模型的分层特征提取

本文采用卷积神经网络模型VGG-Net提取目标特征。卷积神经网络模型中每个卷积层都可以可视化输出一组图像的特征数据，每层的输出特征对图像的描述情况不同[3]。

2.1 VGG-Net模型结构

VGG-Net模型由大型图像数据集ImageNet训练得到，是具有43层结构的深度卷积神经网络。共有19个权重学习层包含16个卷积层（5组）和3个全连接层。5组卷积层中分别包含2、2、4、4、4个卷积层，每组卷积层后面接一个最大池化层，激活函数采用非线性纠正单元Relu。网络最后接三个全连接层。

2.2 分层卷积特征提取过程

（1）卷积层：卷积神经网络因“卷积”操作而得名，卷积的目的就是从输入图像中提取特征。假设每个卷积层输入大小为N×N，卷积核矩阵大小为m×m，则得到的每个特征图的大小为（N-m+1）×（N-m+1）。输入图像与滤波器和偏置值进行卷积，通过激活函数产生特征图，每个特征图代表学习获得的一组特征。计算公式如下：

wi表示各输入信号与该神经元对应的连接权值，b为神经元的偏置值，激活函数f（x）可以决定神经元是否被激活。VGG-Net模型中采用ReLU函数（非线性纠正单元）作为激活函数，当输入值为负输出结果为0，输入为正则原样输出。

（2）下采样层：下采样层的作用是降低特征映射的维度，保留最重要的特征信息。通过卷积层获得特征之后，若直接将这些提取到的特征直接输入至后续层中，需要很大的计算开销。因此采样过程可以表示为：

其中，down（·）表示采样函数。一般可采用最大池化（max-pooling）和均值池化（mean-pooling）。对于2*2大小的池化，最大池化取输入图像2*2区域中的最大像素值作为结果。均值池化是取2*2区域块的平均像素值作为结果。两者均将原图像缩小了4倍，减小了计算开销。

在VGG-Net模型中，通过此方式在每个卷积层进行分层特征提取并进行可视化输出。

3 实验结果与分析

图2给出了图像经VGG-Net网络提取的4层卷积特征图（conv2层、conv3层、conv4层和conv5层）。可以看出高低层卷积特征具有不同的特点：低层的conv2层特征图包含更多细节信息，能够清晰地看到目标的边缘和纹理信息；隨着网络深度的增加目标细节信息减少，高层的conv5层特征图经过多次下采样操作后分辨率降低，只可以提供更多语义信息和目标所在的大概区域。卷积神经网络提取的高层特征有利于对不同类别的物体进行分类，低层特征可以进行类内区分物体。因此可以根据不同的任务有针对性地选择高低层特征进行目标的特征表达。

4 小结

本文通过分析深度卷积神经网络VGG-Net的模型结构，针对各卷积层提取分层特征，并对特征的提取过程进行了分析，最后通过实验对各卷积层特征进行了可视化分析。结果表明：低层特征图分辨率高包含更多细节信息，高层特征图分辨率低能提取更多语义信息。因此深度卷积神经网络提取分层特征的方法解决了人工特征无法提取目标语义信息的缺点，有利于提高目标的特征表达能力。

参考文献：

[1]Lecun Y， Bengio Y， Hinton G.Deep learning[J].Nature， 2015， 521（7553）： 436-444.

[2]Simonyan K， Zisserman A.Very Deep Convolutional Networks for Large-Scale Image Recognition[J].Computer Science， 2014.

[3]Zeiler MD， Fergus R.Visualizing and Understanding Convolutional Networks[J].2013， 8689：818-833.