基于深度卷积网络的目标检测技术综述

2018-08-18胡金辰王雨晨蒋江红张锲石

数字技术与应用 2018年4期

胡金辰　王雨晨　蒋江红　张锲石

摘要：目前，基于计算机视觉分析的目标检测技术已被广泛研究并应用在众多学科领域中。本文从卷积神经网络结构（CNN）演化的角度，对基于深度卷积网络的目标检测技术进行分析、比较和总结。首先简要介绍了基于CNN的目标检测技术流程；其次重点分析和比较了以CNN为基础的基于深度卷积网络模型的目标检测技术的发展，针对不同选择的预处理方法进行分类、纵向和横向对比；最后总结了目前研究中存在的问题，并对目标检测技术未来发展进行了展望。

关键词：目标检测；卷积神经网络；深度学习

中图分类号：TP391 文献标识码：A 文章编号：1007-9416（2018）04-0097-02

目标检测技术是通过目标特征提取、分割等技术来确定图像中目标物体具体位置的技术，随着目标检测技术的不断发展，其内涵和范畴也在不断丰富拓展。目前，针对目标检测技术的研究引起了持续而普遍的关注，已成为计算机视觉领域中的研究热点和难点。深度神经网络模型通过模拟人脑的视觉感知系统，从输入图片中提取边缘特征，并将边缘特征逐层向上抽象传递，以此获得更高级的特征。随着深度神经网络日趋火热，深度学习模型也被广泛应用于图像识别领域，如目标分割、识别和检测等问题。随着模型的改进和算法的发展，基于卷积神经网络（Convolutional Neural Network，CNN）的目标检测技术突破了传统算法的瓶颈，准确度和效率大幅提升，成为当前的主流算法。

1 基于卷积神经网络的目标检测系统技术流程

目标检测主要分为两个步骤：目标分类和目标定位，分类主要用于判断出输入图像中具有所需特征的物体，定位则是对目标物体确定位置和范围，这两个步骤保证了系统目标识别的准确性和实时性。不同于传统的手动特征提取，深度卷积网络提供了一种端到端的学习模型，模型中的参数可以通过梯度下降方法进行训练，使网络模型能够自主学习图像特征，完成对图像特征的提取和分类。在CNN的卷积层中，一个神经元只与部分邻层神经元连接。基于深度神经网络的目标检测系统在设计过程中，主要涉及到三个流程：图像选择性预处理、基于CNN的图像特征提取及候选框优化、特征分类。图像选择性预处理主要分为候选区域搜索和回归两种方法，经过CNN提取图像目标特征后，又依据第一步预处理方法的不同，特征分类又分为分类器分类以及直接计算类别概率两种方法。图1为基于深度卷积网络的目标检测系统技术流程图。

2 基于卷积神经网络的目标检测技术发展

现代第一个结构较为完整的CNN是由加拿大多伦多大学LeCun 教授提出的LeNet[1]网络，该模型使用ReLU代替了传统的激活函数，另外使用可叠加的池化层以及Dropout减小过拟合，LeNet-5在手写字符识别领域的成功应用引起了学术界对于CNN的关注；随后，Geoffrey和他学生Alex利用AlexNet[2]在ImageNet的竞赛中一举夺冠，在top-5错误率上达到历史性突破；2014年，Andrew Zisserman等人提出的VGG-Net[3]在ILSVRC localization的问题上获得第一名； GoogLeNET[4]为了解决网络中巨量参数过擬合问题和减小计算量，将全连接以及一般的卷积层转为稀疏连接，保证了网络结构的稀疏性和密集矩阵的高计算性能。CNN通过卷积运算使得计算机能够自动从图像中提取目标特征，这使得网络获得的特征更自然，并且通用性好，对一定程度的扭曲形变有良好的鲁棒性。随着卷积神经网络技术的发展及在目标检测领域的应用广泛，很多基于加深网络模型的层数、增强卷积模的计算功能等算法思路的改进，许多优秀的网络模型也不断涌现。表1是基于Region Proposal和Bounding Boxes方法下的深度卷积网络在目标检测方面的性能对比。

2.1 基于Region Proposal的方法

2.1.1 RCNN

目标检测的思路通常是采用滑动窗口检测器，通过所有的滑动窗口提取特征，再传送至分类器，但这种方法存在极大的计算复杂度挑战。Region CNN（RCNN）[5]利用微调后的训练分类模型，使用Region Proposals的理念，修正图像中提取的候选框，使其达到适合CNN的输入，再利用回归器优化候选框，在VOC2007上取得了显著的效果。RCNN借助CNN良好的特征提取和分类性能，通过Region Proposal方法对候选区域进行特征提取，降低了传统滑动窗口方法的算法复杂度，大幅提高检测率。

2.1.2 SPP-NET

SPP-Net[6]在RCNN的基础上做了实质性的改进。通过采用空间金字塔池化替换了全连接层之前的最后一个池化层，有效解决了RCNN的重复提取特征的计算问题，突破了速度瓶颈。SPP-Net在设计上借助分块兼容特征的思路，在固定输入的全连接层前，接入网络层，拼接特征解决CNN需要的固定输入问题，然而SPP-Net仍然存在训练多阶段和花费大的问题。

2.1.3 Fast-RCNN

Fast-RCNN[7]借鉴SPP思路，提出基于感兴趣区域分割的池化层映射的特征向量，使得图像的各区域均可提取固定维数的特征，有效解决SPP-Net存在的整体网络训练问题。Fast-RCNN通过建立用多任务模型，使用神经网络来进行分类操作，实现实时的端到端联合训练。同时，Fast-RCNN利用网络末端同步训练提高准确度，然而在分类步骤的性能提升方面并没有显著的表现。

2.1.4 Faster-RCNN

Faster-RCNN[8]在Fast-RCNN的基础上，添加区域建议网络（Region Proposal Network， RPN），将候选框提取合并到深度神经网络中，通过交替训练建立统一的深度神经网络框架，减少重复计算，大大提高运行速度，几乎达到了效果上的最优。Faster RCNN 的提出已有两年多时间，但引入的RPN实现了端到端的训练，生成了高质量的区域建议框，使得该框架仍旧是行人检测领域的主流框架之一。

2.2 基于Bounding Boxes的方法

2.2.1 YOLO

YOLO[9]的思想是采用單个神经网络直接对整张输入图像作为输入进行训练，更加快速地区分背景区域和目标，它不同于2.1中生成候选区域的中间步骤，能够更加简单、快速地对目标物体进行实时监测。该方法将输入图像分成 S×S大小的网格，每一个网格单元预测边界框和这些边界框的可信度。YOLO从本质上解决了目标检测领的实时性问题，真正实现“端到端”的CNN结构。

2.2.2 SSD

SSD[10]改进了YOLO目标位置准确性比较差的问题，并基于Faster-RCNN中的Anchor机制，在识别阶段，该方法通过整张图像的输入选定若干个边界框的位置信息和类别信息，并在特征图像中使用几种不同尺度形状的边界框对目标物体进行预测。在测试阶段，该网络对每每边界框中各个类别的物体存在可能性进行预测，并且通过对边界框的调整以适应目标物体的形状，最后经过非极大抑制（NMS， Non Maximum Suppression）的方法筛选得到最终的检测结果。

3 目标检测数据库

近年来，有关目标检测的研究不仅提出了大量算法模型，而且也收集了很多用于训练、测试网络模型的数据库。图像数据库是一种通过有效标注及精准分类完成的宝贵资源，权威的数据集为模型的建立和完善打下了坚实的基础。以下列出了目前研究中常用的目标检测数据库，并对每个数据库进行简要说明：

（1）PASCAL VOC[11]：2005年由Everingham等人建立，作为一个供机器识别和训练的大型图片数据库，共包含20个大类别，每类图片数量在一千至一万张不等。（2）LableMe[12]：2008年由Russell等人收集而成的物体及场景识别数据集，原始数据集包含至少183个类别、3万幅图像、11万个标记对象，对于监督学习和定量分析有巨大的帮助。（3）ImageNet[13]：由Li Fei-Fei及其团队于2012年为了让机器学习避免过拟合并尽量满足更多实例，构建的一个视觉信息复杂、模型趋于高维、并配以大量参数的数据集。（4）Caltech[14]行人数据集：由总共约10小时的640×480 30Hz视频组成，该系列视频是在城市环境中通过常规交通工具拍摄的。其中包含大约25万帧（约137分钟长的片段）的35万个边框和2300个姿态各异的行人。（5）INRIA[15]行人数据集：在2005年由Navneet Dalal等人提出，用于检测图像和视频中行人。数据集主要包含GRAZ 01数据集的图像与相应的注释文件、标准化64×128像素的正样本图像两种格式，原始的正面高分辨率图像可以突出人物。

4 结语

传统的目标检测任务主要通过不同尺度的滑动窗口提取特征模型，在建立特征模型后通过SVM或者Adaboost进行分类任务，最终得到目标结果。但是由于传统特征模型的局限性，近年来，通过CNN与目标检测技术的结合得到的特征信息，在精准度和测试速度上都获得了极大突破。尽管基于卷积神经网络方面的研究已经取得了一些成功，但是距离广泛实际应用还有一段距离。基于CNN的目标检测是当今形势下一个具有挑战性的课题，有十分重要的研究意义和应用价值。随着大数据和人工智能时代的到来，有理由相信，在未来的目标检测问题中，如果将现有的网络模型多层特征表示融合优化，更好地解决在复杂场景下的鲁棒性和网络计算复杂性的问题，那么基于深度卷积网络的目标检测技术将会得到更广泛的实际应用。

参考文献

[1]Y. Lecun， L. Bottou， Y. Bengio， and P. Haffner， “Gradient-based learning applied to document recognition”， Proceedings of the IEEE vol. 86， no. 11， pp. 2278-2324， 1998.

[2]A. Krizhevsky， I. Sutskever， and G. Hinton， “ImageNet classification with deep convolutional neural networks”， International Conference on Neural Information Processing Systems （NIPS）， vol. 60， no. 2， pp. 1097-1105， 2012.

[3]K. Simonyan and A. Zisserman， “Very deep convolutional networks for large-scale image recognition，” arXiv preprint： 1409.1556， 2014.

[4]C. Szegedy， W. Liu， and Y. Jia， “Going Deeper with Convolutions”， Conference on Computer Vision and Pattern Recognition （CVPR）， pp. 1-9， 2014.

[5]R. Girshick， J. Donahue， and T. Darrel， “Rich feature hierarchies for accurate object detection and semantic segmentation”， Conference on Computer Vision and Pattern Recognition （CVPR）， pp.119-135， 2014.

[6]K. He， X. Zhang， and S. Ren， “Spatial pyramid pooling in deep convolutional networks for visual recognition”， European Conference on Computer Vision （ECCV）， pp.346-361， 2014.

[7]R. Girshick， “Fast R-CNN”， arXiv1504.08083， 2015.

[8]S. Ren， K. He， and R. Girshick，“Faster R-CNN： towards real-time object detection with region proposal networks”， Advances in Neural Information Processing Systems （NIPS）， pp.1137-1149， 2015.

[9]J. Rendmon， S. Divvala， and R. Girshick，“You only look once： unified， real-tme object detection”， arXiv： 1506.02640，2015.

[10]W. Liu， D. Anguelov， and D. Erhan， “SSD： single shot multibox detector”， European Conference on Computer Vision. Springer， Cham， pp.21-37.2016.

[11]M. Everingham， L. V. Gool， C. Williams， J. Winn， and A. Zisserman， “The pascal visual object classes challenge，” International Journal of Computer Vision （IJCV）， vol. 88， no. 2， pp.303-338， 2010.

[12]B. Russell， A. Torralba， K. Murphy， and W. Freeman， “Labelme： a database and web-based tool for image annotation，” International Journal of Computer Vision （IJCV）， vol. 77， no.1-3， pp. 157-173， 2008.

[13]J. Deng， W. Dong， R. Socher， L. J. Li， K. Li， and F. F.Li， “Imagenet： a large-scale hierarchical image database，” Conference on Computer Vision and Pattern Recognition （CVPR）， pp. 248-255， 2009.

[14]N. Dalal， and B. Triggs， “Histogram of oriented gradients for human detection”， Conference on Computer Vision and Pattern Recognition （CVPR）， pp. 886-893， 2005.

[15]P. Dollar， C. Wojek， and B. Schiele， “Pedestrian detection： An evaluation of the state of the art”， IEEE Transactions on Pattern Analysis and Machine Intelligence （TPAMI）， vol. 24， no. 4， pp. 743-761， 2012.

猜你喜欢

基于深度卷积网络的目标检测技术综述

猜你喜欢

杂志排行

数字技术与应用的其它文章