APP下载

基于Resnet18网络的红外图像行人危险动作识别

2023-05-06龚佳佳王玉娟董世稳孔令坤郭姗姗

关键词:行人残差卷积

单 巍, 董 璇, 龚佳佳, 王玉娟, 董世稳, 孔令坤, 郭姗姗

(淮北师范大学 物理与电子信息学院,安徽 淮北 235000)

近年来以深度学习为代表的人工智能技术逐步深入到车辆辅助驾驶和无人驾驶领域[1-3],得益于行人检测技术的快速发展以及各类交通法规的严格执行,交通事故发生率得到一定的抑制.然而由于当前的行人检测研究集中于检测车辆行驶前方范围内直立行走的行人,当行人处于异常行为姿态时检测可靠性将大大下降,特别是在夜间光线不足的情况下,发生事故的概率随之提高.据报道,2016年2月6日,河南省平顶山市发生一起将醉卧在行车道内的市民碾压致其当场死亡的事故;2018年10月13日晚,上海市宝山区同样发生一起市民酒后醉卧马路而被碾压身亡的事故;2020年1月8日凌晨,相似的惨剧在珠海市香洲区再次上演.上述几起事故中受害人并非站立在道路上,且发生事故时间均为光线不足的夜晚,对夜晚光线不足情况下的危险行人动作进行准确识别,提高车辆夜间行驶的安全性,已成为一个亟待解决的问题.

当前行人检测技术已日臻完善,特别是以Faster R-CNN[4],YOLO[5],SSD[6]等深度卷积检测网络为代表的行人检测模型均取得了令人满意的检测效果[7-8].相对而言,人体行为动作识别领域的研究大多局限于光线充足的实验室环境或者室外规定化环境中.相对传统的行为识别方法需要设计行为动作的表达特征,深度学习可以通过构建相应的识别网络,让网络自主学习最优特征实现端到端的行人动作识别.Kumaran等[7]设计了一种将深度卷积网络和灰狼优化算法(grey wolf optimization)相融合的混合构架实现对视频序列中的人体行为的识别.Khan等[8]则将传统的人工特征和深度卷积网络相结合来解决视频动作识别问题,在该方法中他们将传统方法用于行人检测的HOG特征并与深度网络特征融合在一起,然后采用多类支持向量机完成特征识别.上述的人体行为动作识别方法都是针对包含人体动作的视频序列来进行建模的,需要一系列连续的序列图像才能得到识别结果,因此实时性不足.对于车辆行驶安全这样实时性要求很高的应用场景,希望仅通过当前图像即可判断目标行人的行为动作,从而对危险性行为做出及时的预防.针对上述缺点,文献[9]对基于单幅图像的红外行人危险行为识别进行了研究,通过设计深度卷积网络来获取目标特征,然后采用提升随机森林进行分类,该方法与CNN-SVM[10],CNN-MLP[11],CNN-RF[12]相比精度有一定程度提高,但受限于传统CNN的网络深度和学习能力,算法性能仍不能令人满意.

本文中,笔者针对夜间行人危险行为识别问题展开研究,提出一种基于单幅图像的红外危险行人动作识别框架,该框架首先选择残差网络(residual network,resnet)[13]作为基本网络结构,避免传统CNN网络深度加深时产生的梯度消失或梯度爆炸问题,结合数据集特点,选择Resnet18作为骨干网络,然后对数据集进行预处理使之能够适应网络,最后对网络进行训练与测试以确定网络的识别性能.

1 骨干网络

基于深度卷积网络的分类识别系统往往采用类似图1所示的结构框架,输入图像经骨干网络中一系列卷积操作的处理,最后连接到全连接层通过softmax归一化得到每一类的概率.在该框架中骨干网络通过一系列卷积网络生成图像的特征信息,对分类性能起到关键的作用.经过多年的研究,目前已出现多种通用的卷积网络结构,在这些网络结构中Resnet系列以其优越的性能得到广泛的应用.

图1 Resnet18的网络结构Fig.1 Architecture of the Resnet18 Network

由于主要任务是对红外图像中行人的危险动作进行识别,尽管红外成像对外界光线较为鲁棒,但相对可见光图像而言,红外图像的特征信息更加单一.考虑到识别任务的复杂度和训练数据集的规模,选用Resnet系列中深度较浅的Resnet18模型作为骨干网络执行分类识别任务.Resnet18的网络结构如图1所示,不考虑池化、批归一化等无参操作,该网络含有17个卷积层和1个全连接层,其中17个卷积层由一个独立卷积(conv1)和4个残差模块(conv2_x至conv5_x,其中x=1~4)组成.该网络的核心结构为4个残差模块,每个残差模块采用跳跃连接将该模块的输入和输出信息进行合并.最后一个残差模块与全连接层相连,然后经过softmax操作得到类别的概率.

由图1可见,残差模块中输入信息通过跳跃连接与经过2次卷积后的输出信息相融合,形成残差结构.假定输入信息为fin,最终输出为fout,则fout可以表示为

(1)

其中c1和c2为输入信息经过的2次卷积.上述的计算过程可以分为2种情况进行,第1种当fin与fout尺度相同时,只需要将fin与经过2次卷积后的输出进行相加,第2种情况当fin与fout尺度不相同时,需要首先将fin通过下采样(downsample函数)将其尺度变换至与fout相同,然后执行相加操作.

2 实验与分析

2.1 数据集预处理

实验采用PUB数据集[9]作为样本训练和测试集,该数据集的所有样本均采用车载红外摄像机在夜间拍摄采集,共包含1 200张训练图片和480张测试图片.如图2所示,该数据集共包含sitting,running,standing,looking-back,walking,lying-down等6种不同的危险行为样本,所有图像均为8位单通道灰度图像.考虑到Resnet18网络输入的是三通道图像,因此将数据集中所有图像复制到另外2个通道中,构成三通道图像.

图2 数据集所包含的6类行人行为Fig.2 Six Types of Pedestrian Behaviors Included in the Dataset

2.2 超参数设置与网络训练

训练过程中设定学习率为0.01,由于研究的目的在于验证所设计网络结构的性能,并没有采用更复杂的调参技巧.训练时将每个batch设置为128幅图片,共训练30个epoch,然后选用性能最优的网络模型作为最终模型.由于样本类别数为6,因此softmax模块中λ参数是长度为6的1维向量.图3给出了训练过程中的loss曲线,从图3红线可以看出误差损失平稳下降,整个训练过程较为稳定.

2.3 实验结果

图4给出了6类行为识别结果的混淆矩阵.可以看出,测试集中running有9张图像被误分类为walking,而其他5类行为sitting,standing,looking-back,walking,lying-down的预测结果完全正确,即真实类与预测类相同.

图3 训练过程loss曲线Fig.3 Loss Curve of the Train Stage

图4 混淆矩阵Fig.4 Confusion Matrix

2.4 本算法与其他算法的性能比较

为对实验结果进行量化表达,采用精确率P、召回率R和F1分数等3个通用指标来进行性能评估.令TP,FP,FN分别代表实际为正预测也为正、实际为负预测为正、实际为正预测为负的样本数量,则上述指标参数可以表达为

(2)

(3)

(4)

从上述公式可以看出,精确率主要衡量系统的查准性能,召回率主要衡量系统的查全性能,而F1分数则是精确率和召回率的综合评价.

为了更加直观地体现本算法的识别性能,将本算法与流行的GA-CNN[9],CNN-SVM[[10],CNN-MLP[11],CNN-RF[12]等4种算法进行实验对比.表1~3分别给出了5种算法在6类行人行为上的性能指标.表1给出了对各种算法的精确率指标进行对比的结果,纵观该项指标,在所有6种危险行为中有5种行为的最高精确率是由本算法取得的,而且针对平均精确率(mean precision)而言,本算法高出排名第2的算法1.8个百分点.

表1 不同算法精确率的对比结果Tab.1 Comparison Results of Precision with Different Algorithms %

召回率指标由表2给出,该指标中本算法同样在6类危险行为中的5类上达到了最高召回率,平均召回率高出排名第2的算法1.8个百分点.

表2 不同算法召回率的对比结果Tab.2 Comparison Results of Recall with Different Algorithms %

在准确率和召回率方面,本算法在5类行为都取得了100 %的精度,只有walking和running精度相对略低.为进一步检验算法性能,综合衡量前2个指标,表3给出了各类算法在不同行为类别上的F1分数.本算法在每类行为上都取得了最高分数,平均分数超出其他算法0.018以上,说明本算法整体上更加优异,相对其他算法具有更好的识别性能.

表3 不同算法F1分数的对比结果Tab.3 Comparison Results of F1 with Different Algorithms

3 结束语

对夜间场景下的红外行人危险行为问题展开研究,力求设计一种端到端的深度卷积网络来实现对红外行人危险动作的有效识别.首先选择使用残差网络作为网络的基本结构,然后根据问题的规模选择Resnet18作为骨干网络,在此基础上对数据集进行预处理以适应网络.实验表明,系统识别性能较传统方法有显著提升.在下一步的工作中,将研究如何进一步区分行走与跑步2种动作,并构建规模更大的红外危险行为数据集,为算法的实用性提供规模更大的衡量数据.

猜你喜欢

行人残差卷积
基于双向GRU与残差拟合的车辆跟驰建模
基于3D-Winograd的快速卷积算法设计及FPGA实现
毒舌出没,行人避让
基于残差学习的自适应无人机目标跟踪算法
基于递归残差网络的图像超分辨率重建
从滤波器理解卷积
路不为寻找者而设
基于傅里叶域卷积表示的目标跟踪算法
我是行人
平稳自相关过程的残差累积和控制图