APP下载

基于深度卷积神经网络的宽光谱行人检测

2018-11-27刘正全邓亮吴杰

汽车零部件 2018年8期
关键词:光谱行人卷积

刘正全,邓亮,吴杰

(常州星宇车灯股份有限公司,江苏常州 213000)

0 引言

基于机器视觉的行人检测对于高级辅助驾驶系统至关重要。目前主要的研究内容都集中在可见光谱图像中的行人检测上,包含有多个数据集,并对行人进行了样本标注[1]。随着卷积神经网络(Convolutional Neural Network, CNN)的发展,越来越多的高性能识别器都开始使用CNN技术。可见光图像的行人识别器的一个主要缺点是在夜间表现较差以及对光照变化比较敏感。所以将可见摄像仪的信息与红外摄像仪提供的信息融合起来有助于克服上述缺点[3]。

作者利用基于YOLO深度卷积神经网络的检测方法,该方法在可见光环境下是确实可行的,并将其扩展到宽光谱情况。作者评估引入的模型和深度学习的数据集都是基于KAIST宽光谱行人检测的标注样本,同时与其他的方法展开性能比较。

1 宽光谱样本数据集和对比标准

KAIST宽光谱行人样本数据集[4]由时间和空间对应的可见和红外图像组成。数据集包含了可见和红外图像一共95 300组:训练集图像数据为50 200组,其中行人的标注数据41 500组;测试集图像数据为45 100组,其中行人的标注数据44 700组。

目前,KAIST标准测试中性能最好的是增强性聚合信道特征(Aggregate Channel Feature,ACF)识别器[5]。原始ACF检测器以滑动窗口方式操作,并使用二次采样和滤波通道作为特征。这些通道是CIELUV色彩空间的组成部分,归一化的梯度幅值和定向梯度的直方图。ACF识别器(ACF+T+THOG)的宽光谱扩展不仅包含了红外图像的对比增强版本,还有红外图像的HOG特征作为辅助通道。作者在实验中使用ACF+T+THOG作为标准与YOLO深度卷积神经网络的检测方法进行性能比较。

2 宽光谱深度模型

文中的模型是建立在YOLO识别架构的基础上,将行人检测作为一个回归问题进行求解。输入图像经过一次推断,即可得到图像中所有行人的位置和相应的置信概率,同时融合可见光和红外两种不同模式的信息来执行二元分类。

2.1 融合架构

融合架构(如图1所示)分别在两个子网络中处理可见光与红外光两种模式的图像数据,并将所得特征表示融合在全连接的层中。这两个子网都是基于YOLO深度卷积神经网络的,该网络中有24个卷积层和2个全连接层。在红外图像的子网络中,每个卷积层的滤波器数量和可见光图像的子网络是一致的。最后的全连接层将两个子网络所产生的结果与具有8 192个神经元进行完全相融合。融合层后面是一个ReLU非线性层、一个Dropout掉线机制层以及一个二元分类层。YOLO融合网络的所有参数是以不断迭代方式展开学习的。

2.2 训练过程

训练深度卷积网络时,提供足够数量的标注数据往往是提高性能的关键。由于数据采集和样本标注的成本较高,在大多数应用中可用的训练数据是有限的。克服这个问题的一种常用方法是在大型辅助数据集上对所要使用的神经网络进行预训练。

文中的预训练过程包括以下两个步骤:在第一步中, YOLO-RGB和YOLO-IR的网络卷积图层使用ImageNet数据集进行图像分类任务的训练;在第二步中,使用CALTECH标准的所有图像对网络进行微调[2]。

YOLO融合模型对KAIST数据的训练也分两步进行:首先根据预先训练的结果,融合架构的两个子网络用预先训练的权重或随机值进行初始化。 从这些参数开始,分别对两个子网络进行优化。 之后,包括对整个YOLO融合架构进行联合微调。当子网的权重固定并且只有融合层被训练时,可以达到最好的融合结果。

3 实验结果

YOLO识别器的评估是在KAIST测试数据子集上进行的,分别包含了白天和夜间拍摄的图像。图2显示了YOLO识别器的ROC曲线以及对数平均缺失率。基于YOLO融合的预训练深层架构明显优于目前的ACF+T+THOG识别器。YOLO融合的预训练深层架构性能与标准相比:在白天条件下,提高了6.95%;在夜间环境下,提高了12.24%。大多数情况下,YOLO融合架构可以达到目前ACF+T+THOG的性能。作者认为至少有3个原因:首先,YOLO融合构架中的子网络YOLO-IR专门使用KAIST数据集进行了训练;其次,YOLO融合网络在预训练过程中学习到了更多有意义的行人多模态特征,这是因为在红外图像通道中得到了有效的补充信息;最后,YOLO融合网络在空间信息不太相关的阶段展开了信息融合。 正如所预料的那样,红外模式在夜间所具备的优势显而易见。

4 结论

作者在宽光谱图像数据的基础上引入了深度卷积神经网络用于行人检测。KAIST宽光谱标准数据集的分析表明:基于YOLO融合的预训练深层架构与目前的ACF+T+THOG解决方案相比更有优势。这是由于YOLO融合的预训练网络在给定环境中,学习到了更多有意义的行人多模态抽象特征。

猜你喜欢

光谱行人卷积
基于全卷积神经网络的猪背膘厚快速准确测定
基于三维Saab变换的高光谱图像压缩方法
煤炭矿区耕地土壤有机质无人机高光谱遥感估测
基于3D-CNN的高光谱遥感图像分类算法
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
毒舌出没,行人避让
路不为寻找者而设
我是行人