深度学习目标识别算法发展趋势研究

2018-05-18

信息通信技术与政策 2018年4期

1 引言

目标识别技术是指基于计算机图像技术对感兴趣的目标的属性类别进行判断，即分类问题，是计算机视觉领域的基础课题之一，同时也是一个热点问题，具有非常广阔的应用市场，从国家视角来看，其可以应用于智能交通、公众安全监控等领域，而民用视角来看则可以应用于自动驾驶、智能家居、身份认证等场景。目标识别技术一直受到学术届的关注，早期的目标识别技术，通常基于手调特征与经典分类算法进行设计，如通过方向梯度直方图特征（Histogram of Oriented Gridients，HOG）结合支持向量机（Support Vector Machine，SVM）实现行人识别，基于哈尔（HaarLike）特征结合提升算法（Boosting）实现人脸识别。目标识别领域的传统算法具有实现方便、计算速度快等优点，但往往精度不高，对于方向、尺度变化、噪声、遮挡等干扰鲁棒性不强，同时对于数据集比较敏感。而深度学习算法在近年来发展迅速，在目标识别算法领域占据了主导地位。深度学习算法通常基于海量训练样本，依靠卷积神经网络强大的特征提取能力，实现分类。相比于传统算法虽然训练速度较慢，占用的计算资源较多，但能够实现高精度的识别效果。

2 深度学习目标识别算法的发展历程

深度学习目标识别算法通常基于卷积神经网络（Convolutional Neural Network，CNN）进行设计。从发展历程来看，深度学习类目标识别算法的发展主要经历了以下几个重要的时间节点。1998年，Lecun等人提出的LeNet结构，是最早的CNN模型，LeNet应用在MNIST手写体字符识别数据上取得了非常好的分类效果。但由于数据、算力等原因，没有得到广泛的推广。2006年，Hinton利用单层受限玻尔兹曼机自编码预训练，使得深层神经网络的训练变得可能，深度学习重新引起了学术界的重视。并行计算工具GPU的发展，使深度学习算法训练速度慢的问题得到了改善。2012年，AlexNet获得ImageNet大尺度视觉识别任务挑战赛（ImageNetLargeScaleVisualRecognitionCompetition，ILSVRC）的冠军，使得深度学习算法发展步入新的阶段，在AlexNet之后呈现出爆发式的增长趋势，相继诞生出VGG、残差网络（Deep Residual Network，ResNet）等著名方法。这些深度学习目标识别算法多数基于卷积神经网络结构进行设计，同时辐射向目标检测、目标分割等其他领域，推动了整个计算机视觉技术领域的进步。图1展示了近年深度学习算法不断刷新ImageNet等数据集的榜单的状态。图2展示了近年来较为著名的深度学习算法图谱。

3 深度学习目标识别算法发展趋势分析

总体来看，基于深度学习技术的目标识别算法多数基于CNN设计不同的结构，进而达到识别效果。这些算法在AlexNet的基础上，主要沿着以下几个趋势发展（见图3）。

（1）深度加深

深度是CNN结构的核心要素之一，AlexNet是一个8层的CNN结构，包括5个卷积层和3个全连接层。VGG以AlexNet为基础，提出了“卷积栈”的概念，VGG使用3×3的卷积核取代了AlexNet中的大核，通过“卷积栈”的堆叠实现了多个模型，其中最为著名的是16层的VGG-16和19层的VGG-19。深度的加深使得网络的性能得到改善。理论上来讲，深层的CNN结构应该具有更强的表示能力，然而深度的加深产生了梯度消失的现象，阻碍了网络的收敛。ResNet通过引入残差单元使这一问题得到了解决。残差单元的提出使CNN结构能够变得非常之深，目前最深的ResNet能够达到1000多层，深度的增加赋予了ResNet更强的分类能力。

（2）卷积模块功能增强

通过增强卷积模块的功能，能够赋予CNN更强的感知能力。

图2 卷积神经网络发展图谱

部分算法通过对改变卷积层的连接方式，组合搭建模块，进而增强卷积层功能，以GoogleNet、ResNet和DenseNet为主要代表。GoogleNet提出的Inception模块，在每个卷积层使用不同尺寸的卷积核进行卷积，然后再把各通道的输出进行串联。残差网络ResNet提出的残差单元模块，通过恒等映射、空间填充或1×1卷积层连接卷积层的输入和输出，形成“Shortcut”，“Shortcut”为梯度的前向传递提供了直接路径，从而能够解决随着网络加深而产生的梯度消失现象。ResNet使CNN网络结构层数加深，且易于收敛，进一步提升了深度学习算法的分类精度，同时也为CNN结构设计提供了新的思路，在ResNet的基础上形成了若干变种，其中较为著名的包括宽残差网（Wide Residual Networks，WRN），WRN 在ResNet的基础上调整了网络宽度，以浅而宽型的网络结构实现了更高的分类精度。DenseNet则认为解决深度学习梯度消失的现象需要增添层与层之间的连接，由此提出了紧致模块，在紧致单元内的层与层之间实现紧致连接，各层输出采用串联形式。整个网络通过若干紧致模块连接而成，各模块之间添加池化层、归一化层。DenseNet的出现使得算法精度得到进一步提升。

图3 基于卷积神经网络的深度学习算法发展趋势

也有部分算法面向方向旋转、尺度变化等干扰，通过改变卷积方式增强卷积功能，以方向卷积网络（Oriented Response Networks，ORN）、Gabor卷积网络（Gabor Convolutional Networks，GCN）、可变形卷积神经网络（Deformable Convolutional Networks，Deformable ConvNets）等为代表。其中，ORN主要面向方向鲁棒问题，通过对卷积核进行空域旋转产生自适应旋转卷积核（Active Rotating Filter，ARF），从而赋予了CNN感知方向变化的能力。GCN将Gabor小波变换的思想引入到CNN结构，通过传统卷积核与Gabor核的调制形成Gabor方向卷积核（Gabor Orientation Filters，GOFs），GOFs继承了 Gabor变换提取不同方向、不同尺度特征的思想，通过调制的方式将Gabor滤波器与CNN进行有机结合，实现了特征增强。DeformableConvNets打破了传统CNN对于卷积核形状的限制，使卷积核能够进行平移、缩放、旋转等仿射变换，产生灵活、非固定的卷积核形状，从而提升了卷积核的感知能力。

（3）设计新的功能单元、损失函数等

通过设计新的功能单元或损失函数能够改善网络性能。

空域变换网络（Spatial Transformer Networks，STN）在卷积层之间增添空域仿射变换层，提升网络对于仿射变换的学习能力。另一方面，经典的CNN结构常使用的损失函数主要包括交叉熵损失函数（Cross Entropy）、Softmax损失函数等，通过比较网络输出和真实标签的差异，进而计算误差传递梯度。通过此类损失函数能够较好地反应网络误差，但却无法评估样本分类后类内、类间的离散度。一个好的分类算法不仅要求高精度，且应该使得样本经过分类器后，类内差异小，而类间差异大，这样的分类器具有强的鲁棒性。而在参考文献[9]中，笔者提出了一种新的损失函数——中心损失（Center Loss），除了考虑Softmax损失，还将类内的离散度也作为计算损失的指标，加入Center Loss后对CNN网络提取的特征进行可视化降维，能够发现类内距离变小，模型判别力的提升。采取类似思路的还有FisherLoss，将类间间距加入损失函数考量，进而提升网络分类性能。

（4）辐射向检测任务

正确分类是进行目标检测的基础，深度学习在目标识别方面取得的发展同样推动了目标检测的进步，催生出了一系列新的卷积神经网络结构，以区域卷积神经网络（Regions with CNN Features，RCNN）、单次多框检测器（Single Shot MultiBox Detector，SSD）等算法为代表。RCNN采用“选择性搜索+迁移学习”的策略，通过区域提名算法生成大量候选区域，然后将这些候选区域尺寸归一化后，通过AlexNet在ImageNet上的预训练模型提取特征，以微调的方式对预训练网络参数进行调整。同时，将提取的特征用于训练SVM分类器。当待检测图像进行测试时，SVM分类器给出物体的类别属性。RCNN再从SVM选出的正样本中经过非最大抑制、包围框回归等对物体的位置进行精修，进而完成检测过程。RCNN使得目标检测算法的精度大幅提升，检测速度成为技术瓶颈。为进一步提升精度、改善速度，FastRCNN和FasterRCNN相继提出。相比于RCNN，他们所做的优化主要包括引入ROI-Pooling层解决了RCNN中冗余的特征提取、使用Softmax输出判断目标类别信息取代了SVM分类器、通过区域生成网络取代了区域提名算法，这些改善使得目标检测算法速度得到大幅提升。在RCNN系列网络的基础上，又相继诞生了YoLo（You Only Look Once）、单次多框检测器。目前，SSD已经能够实现58FPS的检测速度，基本能够满足实时性。

4 结束语

本文回顾了近年来深度学习在目标识别领域的经典算法，并对它们的发展趋势进行了分析和归类。从技术层面来看，以卷积神经网络为主的深度学习目标识别算法主要沿着以下4个方向发展：深度加深、增强卷积功能、设计新的功能单元或损失函数、辐射向检测、分割等其他任务，进而推动目标识别技术朝着更精准、更快速、应用更广泛的方向不断进步。