基于深度学习的监控视频中多类别车辆检测

2019-07-31徐子豪黄伟泉王胤

计算机应用 2019年3期

徐子豪黄伟泉王胤

摘要：针对传统机器学习算法在交通监控视频的车辆检测中易受视频质量、拍摄角度、天气环境等客观因素影响，预处理过程繁琐、难以进行泛化、鲁棒性差等问题，结合空洞卷积、特征金字塔、焦点损失，提出改进的更快的区域卷积神经网络（Faster R-CNN）和单阶段多边框检测检测器（SSD）两种深度学习模型进行多类别车辆检测。首先从监控视频中截取的不同时间的851张标注图构建数据集;然后在保证训练策略相同的情况下，对两种改进后的模型与原模型进行训练;最后对每个模型的平均准确率进行评估。实验结果表明，与原Faster R-CNN和SSD模型相比，改进后的Faster R-CNN和SSD模型的平均准确率分别提高了0.8个百分点和1.7个百分点，两种深度学习方法较传统方法更适应复杂情况下的车辆检测任务，前者准确度较高、速度较慢，更适用于视频离线处理，后者准确度较低、速度较快，更适用于视频实时检测。

关键词：深度学习;车辆检测;空洞卷积;特征金字塔;焦点损失

中图分类号： TP301.6

文献标志码：A

文章编号：1001-9081（2019）03-0700-06

Abstract： Since performance of traditional machine learning methods of detecting vehicles in traffic surveillance video is influenced by objective factors such as video quality， shooting angle and weather， which results in complex preprocessing， hard generalization and poor robustness， combined with dilated convolution， feature pyramid and focal loss， two deep learning models which are improved Faster R-CNN （Faster Regions with Convolutional Neural Network） and SSD （Single Shot multibox Detector） model were proposed for vehicle detection. Firstly， a dataset was composed of 851 labeled images captured from the surveillance video at different time. Secondly， improved and original models were trained under same training strategies. Finally， average accuracy of each model were calculated to evaluate. Experimental results show that compared with original Faster R-CNN and SSD， the average accuracies of the improved models improve 0.8 percentage points and 1.7 percentage points respectively. Both deep learning methods are more suitable for vehicle detection in complicated situation than traditional methods. The former has higher accuracy and slower speed， which is more suitable for video off-line processing， while the latter has lower accuracy and higher speed， which is more suitable for video real-time detection.

Key words： deep learning; vehicle detection; dilated convolution; feature pyramid; focal loss

0 引言

隨着经济和城镇化建设的快速发展，我国各城市的道路和车辆总量不断增长，交管部门的管理压力与日俱增。虽然高清监控摄像头已经在绝大多数路口部署，但每日产生的视频量也越来越庞大，通过人工进行视频实时监控或离线处理既费时又费力，而且容易延误和遗漏，所以亟须寻找一种自动化方法辅助人工进行监控处理，这也是智能交通系统的核心[1-4] 。

交通监控视频中蕴含丰富的信息，是智能交通监控系统的重要数据来源。监控视频可以应用在车辆违法行为判断、跨摄像头车辆追踪、分时段分车道车流量统计等实际场景，而车辆检测则是车辆行为分析和智能交通监控的重要基础。

我国的相关管理部门一直在积极改进交通视频监控系统，但由于视频监控系统建设时间以及监控需求不同，监控视频的分辨率、摄像角度、摄像方向都有很大差异，加之不同的时间、天气，如：夜间车辆灯光、恶劣天气的能见度、大风带来的摄像头抖动等因素都会严重影响视频质量。这些因素使得获取到的视频质量良莠不齐，而传统车辆检测方法[5-9] 应对复杂场景往往表现较差，好的表现更依赖于好的视频质量和简单场景，这是车辆检测在实际应用上表现不佳的重要原因。

近几年，深度学习方法在计算机视觉领域不断取得突破[10]，一些基本任务也都有了优秀的解决方案，基于深度学习的目标检测算法也在众多检测算法中异军突起，其准确率远远超过传统检测算法，鲁棒性也更强。深度学习方法使用卷积神经网络（Convolutional Neural Network， CNN）摆脱了传统机器学习方法预处理及构造特征的繁琐过程，同时大幅降低了因角度、遮挡等因素造成的误检和漏检，对复杂场景的适应性更强。目前，深度学习的目标检测方法主要分为以文献[11]和文献[12]为代表的单阶段模型和以文献[13]为代表的两阶段模型两大类。

本文将更快的区域卷积神经网络（Faster Regions with CNN， Faster R-CNN）、单阶段多边框检测检测器（Single Shot multibox Detector， SSD）等深度学习的目标检测模型引入到交通监控视频中进行多类别车辆检测，并在基本模型基础上尝试使用更佳的骨干网络作特征提取，同时融合进空洞卷积[14]、特征金字塔[15]、焦点损失函数[16]等对基础网络进行优化。本文基于获取的监控视频构建了多类别车辆检测数据集，并以此为基础对不同模型的检测效果、应用场景进行比较分析。实验结果显示经过上述方法改进的模型效果好于基础模型，单阶段模型準确度较低，但速度较快，而两阶段模型准确度较高，速度较慢，所以对于在线监控可以选择速度更快的单阶段模型，而离线处理可以选择准确度更高的两阶段模型。

1 相关研究

视频流的本质是一帧帧图像，而需要检测的目标往往是视频中运动的物体，所以一种简单又实用的思路是利用视频图像中背景基本不动而前景持续运动的特点，通过比较帧间像素点强度的变化和相关性判断运动区域，这个区域即为检测的运动物体。应用这种思路并普遍使用的检测方法有：帧差法[17]、光流法[18]等。这类方法虽然计算速度快，但没有完整利用单帧图像的整体信息，难以扩展到多类别检测，准确率较低，鲁棒性也较差。另一种研究思路[19]是将视频流分成一帧帧图像处理，将视频中的目标检测转变成图像中的目标检测任务，这种思路虽然计算速度较慢，但充分利用了图像信息，准确性更高，鲁棒性更强，应用更广。

1.1 传统方法

在深度学习热潮兴起前，计算机视觉领域的研究者们通常使用传统目标检测算法完成这一任务。传统方法的步骤主要分为三步：候选区域提取、区域特征提取、特征分类。因为传统方法计算速度快，所以候选区域提取常采用贪心的滑动窗口策略，使用不同尺寸的滑动窗口对图片进行逐行扫描，每个窗口区域使用人为划定或特征提取算法进行特征提取，文献[20-24]详述了多种常用的特征提取算法。最后将特征向量送入预先训练好的分类器进行分类，统计每个窗口的分类结果整合成最终的检测结果。比较经典并且推广到实际应用中的算法有：文献[25]进行的人脸识别，文献[26]进行的行人重识别等，同样类似的方法也曾被应用在视频中的车辆检测[27]。

1.2 深度学习方法

自从2012年文献[28]提出深度学习分类模型开始，基于深度卷积神经网络的模型成为了图像识别与检测领域的首选之一。首先使用深度学习方法进行目标检测并取得很大进展的方法是2013 年文献[29]提出的OverFeat，该方法开始尝试使用CNN提取图片特征，利用多尺度滑动窗口算法进行检测，取得了很好的效果。

2014年文献[30]提出的区域卷积神经网络（Regions with CNN， R-CNN）完整地将CNN融合进目标检测任务中，成为深度学习进行目标检测的奠基之作。R-CNN利用文献[31]提取约2000个候选框，每个候选框通过CNN进行特征提取，结合多个二分类支持向量机（Support Vector Machine， SVM）实现候选区域目标的多分类，最后利用非极大值抑制（Non-Maximum Suppression， NMS）算法和框回归对候选框进行筛选融合和微调。R-CNN在检测准确度上大大超过了传统方法，但由于流程复杂，模型需要多阶段训练，预测一张图速度过慢，这些因素导致R-CNN无法真正进行实际应用。2015年文献[32]在R-CNN的基础上主要针对候选框特征重复提取的问题进行改进，提出了Fast R-CNN，它在速度和精度上较R-CNN有了很大提升。Fast R-CNN只对图片通过CNN进行一次前向运算提取特征，利用特征图坐标对应关系将提取的2000个候选框映射到底层特征图中，并且利用提出的感兴趣区域（Regions of Interest， ROI）池化结构有效解决了特征图上不同尺寸的候选框需要缩放到同一尺寸的问题。这一操作减少了大量重复的运算，大大提高了检测速度。同时，Fast R-CNN不再使用多个SVM进行分类，而是在特征向量后直接连接Softmax层和全连接层作框分类和框回归，将分类损失和边框回归损失结合进行统一训练，这一操作简化了模型训练流程，提高了训练速度。在此之后，为了解决候选框提取这一时间瓶颈，在Fast R-CNN的主网络中附加了区域候选网络（Region Proposal Network， RPN）在高层特征图上进行候选框提取，RPN的引入真正实现了一个网络的端到端目标检测，它在检测速度上获得了更进一步的提升，同时结合各种训练策略，Faster R-CNN的检测准确率在各大数据集上也取得了当时最高的结果。

上述系列方法进行目标检测时虽然整合在一个网络中实现了端到端训练和预测，但网络结构实际是将区域提取和目标检测分成两阶段进行计算，检测速度经过不断优化虽然有了大幅度提高，但即时在GPU上进行运算，最快速度也很难达到10fps每秒10帧。为了使目标检测算法可以应用到视频中进行实时检测，需要在保证准确率的前提下，继续提高单张图片的目标检测速度，YOLO（You Only Look Once）[11]、SSD[12]等算法将区域提取和区域分类整合到单阶段进行计算。YOLO预先将图片分为若干栅格，以这些栅格区域为候选区域进行框回归，网络主干仍为CNN结构，直接输出框回归以及对应框分类的结果，而SSD则是在多个CNN的底层特征图上进行框回归和分类，其检测精度要高于YOLO。单阶段网络减少了RPN的计算，更接近于纯粹的图像分类网络，在检测精度没有很大损失的前提下，其检测速度提升到了40fps每秒40帧以上，已经可以满足视频检测的需求。

目前，单阶段和两阶段模型仍是目标检测领域的两大分支。对于单阶段模型，在YOLO和SSD的基础上，研究者们提出了一系列模型[33-36]，旨在提高检测精度。在Faster R-CNN的基础上，原作者又对其进行细节优化，并且将分割任务融合进模型中，提出了Mask R-CNN[37]。也有一些其他工作分别从特征图的前后关联和损失函数入手进行优化，这些改进也可以与上述的主流模型进行融合提升检测效果。

2 算法设计

本文算法将监控视频当成一帧帧图像进行图像中的车辆检测，以Faster R-CNN和SSD这两类模型框架作为基础，结合空洞卷积、特征金字塔、焦点损失进行改进，下面对每部分进行介绍。

2.1 Faster R-CNN整体结构

Faster R-CNN的整体结构是在一个主干的特征提取CNN中引入RPN结构进行候选区域提取，筛选得到固定数量的候选框进行目标分类和框回归，最后经过NMS进行框融合以及框位置精修得到最终的检测结果。图1展示了以文献[38]提出的VGG为骨干网络的Faster R-CNN的整体结构。

对于一张输入圖片，首先经过特定骨干网络VGG头部的部分层计算得到某一层的高层特征图，RPN在特征图上进行滑窗计算，通过预先设置不同面积及尺寸目标框的方式实现候选框位置的预估，同时对每个预估框进行分类和框回归，这里的分类是判断框范围内的图像是前景还是背景的二分类，框坐标

回归是对包含前景的框的位置进行修正。不同大小的目标框经过ROI池化层调整成相同长度的特征向量，最后经过全连接层连接进行多分类和框回归。多分类是指目标框前景物体的准确分类的各类别得分，框回归是对框位置的再次修正。

在本文改进的Faster R-CNN结构中，为了获得更好的特征提取效果，本文算法使用不同层数的文献[39]提出的Resnet代替原始Faster R-CNN中的VGG结构。

2.2 SSD整体结构

SSD的整体结构是在一个主干的特征提取CNN中的多个高层特征图上直接回归候选区域的位置，并对每个位置框进行分类，其中预先设置的候选框区域依旧与Faster R-CNN的设置方法类似，以不同面积及尺寸的锚点在特征图上的每个像素点上密布不同大小的多个目标框。图2展示了以VGG为骨干特征提取网络的SSD的整体结构。

输入图片首先经过VGG头部的若干卷积层和池化层进行前向计算，之后分别连接全连接层、卷积层、池化层，取编号为Conv6、Conv7、Conv8_2、Conv9_2、Conv10_2、Conv11_2层的特征图。在这些特征图上直接进行框回归和多分类，框回归依旧是对预设框坐标的修正，多分类将背景单独算为附加的一类与前景k个类别一同计算，得到（k+1）个类别的得分。最后利用NMS算法进行框融合。

在本文改进的SSD结构中，为了获得更好的特征提取效果，并保证运算速度，使用相对轻量的Inception[40]代替原始SSD中的VGG结构。

2.3 改进方法

除了改进Faster R-CNN和SSD的骨干网络以提高其特征提取的能力外，本文在基础的Faster R-CNN中加入空洞卷积进行优化，在基础的SSD中加入特征金字塔和焦点损失进行优化。下面对每一项方法进行介绍。

2.3.1 空洞卷积

具体而言，卷积核在进行一般卷积运算时，是与特征图的相邻像素点作乘法运算，而空洞卷积运算允许卷积核与固定间隔l的像素点作乘法运算，这样在不增加额外运算量的同时，增大感受野。而对于分辨率较高的图像，相邻像素间的冗余信息相对较多，可以利用空洞卷积进行优化。为此，本文主要将空洞卷积引入到Faster R-CNN中的RPN对特征图的卷积运算中。

2.3.2 特征金字塔

最简单的特征金字塔结构可以依靠堆叠多个经过缩放的不同大小的同一张图片实现，而在各种CNN网络结构中，其前向传播的计算过程将原始图片逐步变成更小的特征图，即自底向上的结构，这是一种CNN都具备的原生金字塔。本文在基础SSD结构中加入自顶向下结构和横向连接，使其同时利用低层特征高分辨率和高层特征强语义信息，更兼顾位置信息和语义信息，提高SSD的检测能力。自顶向下结构通过上采样对高层特征图逐层进行放大，相当于自底向上结构的逆过程运算，横向连接将两次计算中相同大小的特征图逐像素相加进行融合。

图3展示了在图2基础上添加的金字塔结构，Conv6层到Conv11_2层是CNN的前向计算过程，即原始的自底向上结构，从Conv11_2通过一次次上采样计算生成对应大小相同的特征图，直到Up_Conv6，这个结构即自顶向下结构。Conv10_2层会与Conv11_2上采样得到的特征图进行融合得到Up_Conv10_2，其他层也依次通过这一操作进行融合，这个计算过程即横向连接。最后再对融合后的各层进行框坐标回归和分类预测。本文将其应用在网络的最后3个特征图上。

2.3.3 焦点损失

多分类任务常用的目标损失函数是交叉熵损失。假设任务中有n个样本，分类目标有C类，交叉熵CE定义如下：

针对类别不平衡现象，可以针对不同类别引入一个权重因子α削弱大数量类别对损失值的影响：

针对难分样本问题，一个样本的预测概率越高，模型对该样本的识别力越强，该样本成为易分样本，反之则为难分样本。可以以预测概率为基础，引入一个权重因子β削弱易分样本对损失值的影响， β定义如下：

本文将上述定义的多类别焦点损失应用到SSD模型中，并对不同的α和γ取值进行实验。

3 实验

3.1 数据集

实验数据集由从监控视频中截取的不同时间的图像组成，经过人为筛选剔除掉前后变化较小的图像，总计图像851张，划分训练集681张，验证集170张图片。由于各段视频的分辨率不同，获取的图像大小有1080×720和1920×1080两种。根据实际应用场景，本文将车辆类型分为四类：汽车（car）、公交车（bus）、出租车（taxi）、卡车（truck），各种类目标标注数量如表1所示。

3.2 模型训练

在训练前，对所有图片进行水平翻转、对比度增强、饱和度增强、色彩变换等操作进行图像增强。所有模型使用Tensorflow框架实现，在Nvidia1080显卡上训练300个周期。对于Faster R-CNN类模型，图片统一缩放到1280×720输入网络，初始化学习率为0.001，每隔100个周期下降到之前的1/10，梯度更新方法采用带有动量的小批量随机梯度下降，动量因子为0.9。对于SSD类模型，图片统一缩放到500×500输入网络，初始化学习率为0.001，每隔10个周期下降到之前的0.95倍，梯度更新采用RMSProp优化器，动量因子为0.9。

3.3 实验结果与分析

本文使用平均准确率（Mean Average Precision， MAP）作为检测准确性的评估指标，框匹配阈值设为0.5，该指标综合考虑了定位精度与分类准确率。同时为了比较模型进行实时处理的能力，本文在接入视频流的条件下，对每个模型处理单张图片的速度进行了测试，结果如表2所示。

实验结果显示本文改进的网络在不影响检测速度的情况下，提高了检测精度。其中，使用空洞卷积的不同骨干网络的Faster RCNN模型的MAP值提高了0.5个百分点～1.2个百分点，平均提高0.8个百分点，而使用特征金字塔和焦点损失改进的SSD模型的MAP值提高了1.9个百分点。本文也对焦点损失中不同的α和β取值对模型的影响作了测试，其中α=0.75， β=0.75时，MAP值最高，全部结果如表3所示。

对比每一类的检测结果可以发现，由于总类别数不是很大，且前三类样本数足够多，所以Faster R-CNN类模型对前三类的识别已经达到很高的水平，改进后的模型在前三类的准确率比改进前模型略有提高。MAP值的提高主要在于卡车这一类的准确率提高，这是因为该类的样本在数据集中相对较少，相比其他三类，模型对于这一类的学习难度是较高的，所以其准确率相对较低。改进后的模型在卡车类的识别上平均提高2.9个百分点，因为卡车样本数相对较大，空洞卷积减少了相邻冗余像素对特征的干扰，从而提高了检测准确性。

改进后的SSD模型MAP值提升了1.9个百分点，每一类的准确率都提升明显，其中特征金字塔结构融合了更多高层信息，提升了模型的特征提取能力，焦点损失增强了模型对难分的、准确率较低的样本的识别度，结果显示这些改进针对每一类都有明显效果。

此外，本文使用开源的MSCOCO目标检测数据集[41]对改进后的模型进行评估，全部结果如表4所示。结果显示，不同的改进后的Faster R-CNN模型的MAP平均提高0.8个百分点，改进后的SSD模型的MAP值提高1.5个百分点。

对比各模型的处理速度可以发现本文的改进措施基本没有引入过多的运算量，其中，空洞卷积和焦点损失属于计算的变化，与原模型相比并未有多余计算，而特征金字塔结构属于附加结构，虽引入了多余运算，但本质上只是若干次上采样和矩阵求和运算，也并不会引起运算速度的大幅降低。

实现结果也显示，两阶段的Faster R-CNN模型运算准确率高于单阶段的SSD模型，但速度明显慢于SSD模型。在实验运行环境中，最快的Faster R-CNN模型每秒最多检测6帧图像，而SSD模型每秒可以检测40帧图像。常见的视频流一般是每秒25帧图像，所以SSD类模型完全可以应用在交通视频的实时检测中，若想将Faster R-CNN接入实时视频流检测，则需要每隔几帧图像检测一帧，所以由于Faster R-CNN精度更高，其更适用于離线处理。

4 结语

本文将深度学习模型引入交通监控视频的车辆检测中，并对常用的Faster R-CNN和SSD两种模型进行改进，实验结果显示改进后的模型在不影响检测速度的情况下提高了检测准确性，取得了很好的效果。

本文的改进模型可以在更大型的数据集上进行更深入的实验，对于每项改进措施在模型中的应用，也可以进行更多的实验。同时，本文的工作也为后续车辆跟踪、车流统计等更具体的应用奠定了基础。

参考文献（References）

[1] WANG F-Y. Agent-based control for networked traffic management systems [J]. IEEE Intelligent Systems， 2005， 20（5）： 92-96.

[2] ROSSETTI R J F， FERREIRA P A F， BRAGA R A M， et al. Towards an artificial traffic control system [C]// Proceedings of the 2008 11th International IEEE Conference on Intelligent Transportation Systems. Piscataway， NJ： IEEE， 2008： 14-19.

[3] 赵娜，袁家斌，徐晗.智能交通系统综述[J].计算机科学，2014，41（11）：7-11.（ZHAO N， YUAN J B， XU H. Survey on intelligent transport system [J]. Computer Science， 2014， 41（11）： 7-11.）

[4] 刘小明，何忠贺.城市智能交通系统技术发展现状及趋势[J].自动化博览，2015（1）：58-60.（LIU X M， HE Z H. Development and tendency of intelligent transportation systems in China [J]. Automation Panorama， 2015（1）： 58-60.）

[5] MICHALOPOULOS P G. Vehicle detection video through image processing： the autoscope system [J]. IEEE Transactions on Vehicular Technology， 1991， 40（1）： 21-29.

[6] SUN Z， BEBIS G， MILLER R. On-road vehicle detection using Gabor filters and support vector machines [C]// Proceedings of the 2002 14th International Conference on Digital Signal Processing. Piscataway， NJ： IEEE， 2002： 1019-1022.

[7] Bochum R U， TZOMAKAS C， von SEELEN W. Vehicle detection in traffic scenes using shadows [J]. American Journal of Surgery， 1998， 130（5）： 585-589.

TZOMAKAS C， von SEELEN W. Vehicle detection in traffic scenes using shadows [EB/OL]. [2018-07-02].http：//citeseerx.ist.psu.edu/viewdoc/download;jsessionid=EB25161C6B0FFE3581F4DF3532E6DE28？doi=10.1.1.45.3234&rep=rep1&type=pdf.

[8] TSAI L-W， HSIEH J-W， FAN K-C. Vehicle detection using normalized color and edge map [J]. IEEE Transactions on Image Processing， 2007， 16（3）： 850-864.

[9] 宋曉琳，邬紫阳，张伟伟.基于阴影和类Haar特征的动态车辆检测[J].电子测量与仪器学报，2015，29（9）：1340-1347.（SONG X L， WU Z Y， ZHANG W W. Dynamic vehicle detection based on shadow and Haar-like feature[J]. Journal of Electronic Measurement and Instrumentation， 2015， 29（9）： 1340-1347.）

[10] LeCUN Y， BENGIO Y， HINTON G. Deep learning [J]. Nature， 2015， 521（7553）： 436-444.

[11] REDMON J， DIVVALA S， GIRSHICK R， et al. You only look once： unified， real-time object detection [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway， NJ： IEEE， 2016： 779-788.

[12] LIU W， ANGUELOV D， ERHAN D， et al. SSD： single shot multibox detector [C]// Proceedings of the 2016 European Conference on Computer Vision. Berlin： Springer， 2016： 21-37.

[13] REN S， HE K， GIRSHICK R， et al. Faster R-CNN： towards real-time object detection with region proposal networks [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2017， 39（6）： 1137-1149.

[14] YU F， KOLTUN V. Multi-scale context aggregation by dilated convolutions [EB/OL]. （2016-04-30） [2018-07-29]. https：//arxiv.org/pdf/1511.07122v3.pdf.

[15] LIN T-Y， DOLLR P， GIRSHICK R， et al. Feature pyramid networks for object detection [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway， NJ： IEEE， 2017， 1（2）： 4.

LIN T-Y， DOLLR P， GIRSHICK R， et al. Feature pyramid networks for object detection [EB/OL]. [2018-07-11]. https：//arxiv.org/pdf/1612.03144.pdf.

[16] LIN T-Y， GOYALP， GIRSHICK R， et al. Focal loss for dense object detection [C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Washington， DC： IEEE Computer Society， 2017： 2999-3007.

[17] ZHAN C， DUAN X， XU S， et al. An improved moving object detection algorithm based on frame difference and edge detection [C]// Proceedings of the 4th International Conference on Image and Graphics. Washington， DC： IEEE Computer Society， 2007： 519-523.

[18] HORN B K P， SCHUNCK B G. Determining optical flow [J]. Artificial Intelligence， 1981， 17（1/2/3）： 185-203.

[19] HAN X， ZHANG D Q， YU H H. System and method for video detection and tracking： U.S. Patent Application 13/720，653 [P]. 2014-06-19.

[20] LOWE D G. Distinctive image features from scale-invariant keypoints [J]. International Journal of Computer Vision， 2004， 60（2）： 91-110.

[21] SCHAPIRE R E， SINGER Y. Improved boosting algorithms using confidence-rated predictions [J]. Machine Learning， 1999， 37（3）： 297-336.

PAPAGEORGIOU C P， OREN M， POGGIO T. A general framework for object detection [C]// Proceedings of the 6th International Conference on Computer Vision. Washington， DC： IEEE Computer Society， 1998： 555-562.

[22] DALAL N， TRIGGS B. Histograms of oriented gradients for human detection [C]// Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Piscataway， NJ： IEEE， 2005，1： 886-893

[23] OJALA T， PIETIKINEN M， HARWOOD D. A comparative study of texture measures with classification based on featured distribution [J]. Pattern Recognition， 1996， 29（1）： 51-59.

[24] NG P C， HENIKOFF S. SIFT： predicting amino acid changes that affect protein function [J]. Nucleic Acids Research， 2003， 31（13）： 3812-3814.

[25] SCHAPIRE R E， SINGER Y. Improved boosting algorithms using confidence-rated predictions [J]. Machine Learning， 1999， 37（3）： 297-336.【和21重復？？

[26] CHEN P-H， LIN C-J， SCHLKOPF B. A tutorial on v-support vector machines [J]. Applied Stochastic Models in Business and Industry， 2005， 21（2）： 111-136.

[27] 刘操，郑宏，黎曦，等.基于多通道融合HOG特征的全天候运动车辆检测方法[J].武汉大学学报（信息科学版），2015，40（8）：1048-1053.（LIU C， ZHENG H， LI X， et al. A method of moving vehicle detection in all-weather based on melted multi-channel HOG feature [J]. Geomatics and Information Science of Wuhan University， 2015， 40（8）： 1048-1053.）

[28] KRIZHEVSKY A， SUTSKEVER I， HINTON G E. ImageNet classification with deep convolutional neural networks [C]// Proceedings of the 2012 Advances in Neural Information Processing Systems. Piscataway， NJ： IEEE， 2012： 1097-1105.

[29] SERMANET P， EIGEN D， ZHANG X， et al. OverFeat： integrated recognition， localization and detection using convolutional networks [EB/OL]. （2014-02-24） [2018-07-28]. https：//arxiv.org/pdf/1312.6229v4.pdf.

[30] GIRSHICK R， DONAHUE J， DARRELL T， et al. Rich feature hierarchies for accurate object detection and semantic segmentation [C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway， NJ： IEEE， 2014： 580-587.

[31] UIJLINGS J R R， van de SANDE K E A， GEVERS T， et al. Selective search for object recognition [J]. International Journal of Computer Vision， 2013， 104（2）： 154-171.

[32] GIRSHICK R. Fast R-CNN [C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Piscataway， NJ： IEEE， 2015： 1440-1448.

[33] JEONG J， PARK H， KWAK N. Enhancement of SSD by concatenating feature maps for object detection [EB/OL]. （2017-05-26） [2018-07-29]. https：//arxiv.org/pdf/1705.09587v1.pdf.

[34] FU C-Y， LIU W， RANGA A， et al. DSSD： deconvolutional single shot detector [EB/OL]. （2017-01-23） [2018-07-28]. https：//arxiv.org/pdf/1701.06659v1.pdf.

[35] REDMON J， FARHADI A. YOLO9000： better， faster， stronger [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway， NJ： IEEE， 2017： 6517-6525.

[36] REDMON J， FARHADI A. YOLOv3： an incremental improvement [EB/OL]. （2018-04-08） [2018-07-30]. https：//arxiv.org/pdf/1804.02767v1.pdf.

[37] HE K， GKIOXARI G， DOLLAR P， et al. Mask R-CNN [C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Washington， DC： IEEE Computer Society， 2017： 2980-2988.

[38] SIMONYAN K， ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [EB/OL]. （2015-04-10） [2018-07-25]. https：//arxiv.org/pdf/1409.1556v6.pdf.

[39] HE K， ZHANG X， REN S， et al. Deep residual learning for image recognition [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway， NJ： IEEE， 2016： 770-778.

[40] SZEGEDY C， VANHOUCKE V， IOFFE S， et al. Rethinking the inception architecture for computer vision [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway， NJ：IEEE， 2016： 2818-2826.

[41] LIN T-Y， MAIRE M， BELONGIE S， et al. Microsoft COCO： common objects in context [C]// Proceedings of the 2014 European Conference on Computer Vision. Berlin： Springer， 2014： 740-755.