基于双路神经网络融合模型的高速公路雾天检测

2019-01-31丛德铭

西南交通大学学报 2019年1期

项煜，丛德铭，张洋，袁飞

（1. 长安大学公路学院，陕西西安 710064；2. 西南交通大学信息学院，四川成都 611756；3. 河南省交通运输厅，河南郑州 450016；4. 河南省高速公路联网监控收费通信服务公司，河南郑州 450000）

我国近年来雾霾严重，由于雾霾天所引起的交通事故已经占到了交通事故总数的25%以上[1]. 由于气象部门尚未能够对雾霾天气进行细粒度的预报，导致在大雾天气时，一些路段的车辆大量出行从而引发重大交通事故[2-3]. 目前关于雾天检测的研究大部分还是停留在基于传统特征提取的方法. 但是由于传统特征由于需要人为设计，其模型迁移能力不强，难以适应全国的高速公路的雾天检测. 随着近年来深度学习的发展，深度学习在分类、检测等任务上取得了巨大的成功. 因此，本文中提出了一种基于深度学习的双路深度网络融合检测算法，不仅克服传统特征的迁移能力不强的情况，而且能够获得高精度的检测结果. 该方法首先利用了雾天的视觉特征. 由于雾天会导致视觉上的可视距离缩短，提取雾天的视觉深度图能够有效反映雾天可视情况，也是判断雾天关键特征. 其次，根据雾天成像的原理，提取雾天的暗通道图像，暗通道图像是对光照透射率的互补图像，暗通道值越小的位置则是光线透射率的越高的位置. 获得两种特征图之后，利用深度残差网络的强大建模能力，对两种特征进行建模分类，之后送到融合分类部分进行融合检测.

1 相关工作

1.1 雾天检测

雾天检测已经被广泛研究，Bronte等[4]通过计算边缘密度结合道路消失点，以此来检测雾的有无；Pavlic等[5]通过滤波提取全局的图像描述子来检测雾，Tan[6]、Hautiere等[7]、Busch 等[8]还分别研究了检测环境光强弱、不同对比度相结合、小波变换的方法评估图像的能见度. Schechner等[9]提出了使用由偏振滤光器的旋转产生的具有不同偏振度的相同场景的两个或更多个图像以计算场景深度的方法. 文献[10-12]中提出的方法估计场景深度，然后通过比较在不同天气条件下捕获的两个图像. Robert等[13-15]把待检测的图像和已知能见度的气象图像进行对比分析能见度，以此来实现对雾天的检测. Baumer等[16]通过数码全景摄像机获取的时间序列图像，通过可以检测到的最远的事物来实现对雾天的检测.

1.2 深度学习

深度学习是机器学习算法中的一个新兴技术.现在已经被广泛运用于图像分类[17]、人脸识别[18]、目标检测[19]和动作识别[20]等领域. 早期的 CNN （convolutional neural network）缺乏大数据，硬件性能差，不能处理复杂问题. 随着技术的发展，许多新的CNN结构被提出. ImageNet竞赛中，Krizhevsky等[21]训练的深度卷积神经网络AlexNet，借助了GPU的强大计算能力、深层的CNN网络、随机梯度下降（SGD）和Dropout等优化技巧，结构简单并且性能较高. 2013年的ZFNet把错误率降到了11.2%[22].Szegedy等[23]设计的卷积神经网络GoogleNet拥有22层的结构. He等[24]设计了一个多达152层的ResNet架构，它拥有更深层的深度神经网络和更低的复杂度，更易于训练，错误率也降到了3.6%. Huang等[25]设计的DenseNet的每一层都直接与前面层相连，实现特征的重复利用，同时降低了冗余性.

深度学习网络在图像识别领域具有很好的效果，目前关于雾天检测的算法大多使用传统方法，少有研究者使用深度学习的方法进行雾天的检测. 但在去雾领域有用到深度学习相关的方法，Cai等[26]设计了DehazeNet用于图像去雾，网络结构由4个连续操作（特征提取、多尺度映射、局部极值和非线性回归）组成. Ren等[27]通过学习有雾图像与其相应的透射图之间的映射，提出了一种用于单图像去雾的多尺度深度神经网络. 从去雾方法中受到启发，本文将采用特征提取与深度学习相结合的方法来实现雾天检测.

2 双路神经网络融合模型

双路神经网络融合模型主要分为两路，一路学习暗通道特征，一路学习深度图特征，见图1. 每一路网络分别进行深度网络建模，两路最后经过softmax后进行融合分类，本实验采用平均法. 以下依次对这几个部分进行详细介绍

2.1 暗通道特征

暗通道先验理论是一种图像去雾算法[28]，这个算法性能较强，在去雾方面表现出良好的效果，具有很高的鲁棒性，被广泛应用于图像增强和图像去雾.通过观察在去雾过程中提取的暗通道图片，发现无雾图像的暗通道特征图像在暗元素区域有更低的像素值，因此本文尝试将其用在高速公路监控视频上的雾天检测中.

暗通道的概念是在统计、分析了大量的外景无雾图像后而定义的，就是说在大多数不覆盖天空的局部区域中，通常有些像素会在至少一种颜色（R、G、B）通道中具有非常低的强度值. 该区域的光强度最小值很小，几乎趋近于0，因此被称为暗像素[28].对于图像J，定义对于任何的一个输入的图像，其暗通道 Jdark可以用式（1）表示.

图1 雾天检测双路神经网络融合模型Fig.1 Two-stream neural network fusion model for fog detection

式中：c为三基色的颜色通道； Jc(y) 为图像的像素在y位置的c通道像素值； Ω (x) 为以x像素点为核心的区域.

暗通道先验的理论指出：

造成暗通道的暗元素首先是来自图像中光照产生的阴影，例如树木、建筑物和汽车的阴影；第二，暗元素素可以来自富有色彩的物体，如花、叶、汽车、建筑物、路标或行人；第三，暗元素可以来自黑色物体，如车辆轮胎、路标和树干. 根据暗通道先验，雾天图像形成模型的数学描述如式（3）.

式中：I为特征图像；J为实际场景图像；A为大气光强；x为图像里的像素点；t为大气透射度，即场景中物体所反射的光线并没有发生任何散射，而是直接就传输到了摄像机中的比例值.

进一步假设局部区域 Ω (x) 中的传输是恒定的.将区域的透射率表示为 t˜ ( x) . 在雾影成像式（3）中对局部区域进行最小运算，得到式中： Ic(y) 和 Jc(y) 分别为特征图像和实际场景图像在y位置的c通道像素值； Ac为c通道的大气光强.

请注意，最小操作是在3个颜色通道上独立执行的. 这个等式相当于：

然后，在式（5）中的3个颜色通道中进行最小运算并获得

根据前述的暗通道先验理论有

由于 Ac始终是正的，可以推导出

实验中通过调用暗通道部分公式来提取图像的暗通道特征. 通过实验，提取了高速公路图像的暗通道图像，如图2所示.

图2 暗通道示例Fig.2 Dark channel examples

2.2 深度图提取

首先，将完整的卷积体系结构引入到深度预测中，并赋予新颖的上采样块，从而实现更高分辨率的密集输出映射，同时需要更少的参数和训练数据. 文献[29]提出一个完整的卷积架构，架构还包括残差学习，以模拟单目图像和深度图之间的模糊映射. 为了提高输出分辨率，提出了一种新颖的方式来有效地学习网络中的特征映射上采样. 最后为了优化，引入了反向Huber损失，由深度图中通常存在的值分布驱动. 该模型由单一架构组成，经过端对端的训练，不依赖后处理技术，如CRF （conditional random field algorithm）或其他细化步骤. 因此，可以在图像或视频上实时运行. 使用文献[29]中的模型（ResNet-UpProj）加载转换参数，提取深度图特征，提取的高速公路监控视频图像的深度图如图3所示.

图3 深度图示例Fig.3 Depth map examples

2.3 深度卷积网络建模

深度卷积神经网络在发展上主要趋势为更深更大规模结构的神经网络，往往会取得更好的性能. 因此，深层次的神经网络层出不穷. 遗憾的是，由于层次的加深，利用反向传播算法优化的神经网络往往难以将深层次的梯度传到到浅层，出现梯度消失的情况，使得浅层的网络参数难以得到合理的调整以拟合特定的数据分布.

对于该问题，深度残差网络（图4）在多层之间使用了跳过连接（Skip-connection）的结构，使得梯度可以根据优化权重的情况选择性地跳过某些层次，顺利传播到浅层以调整权重. 因此，在本论文中，利用ResNet-50的深度残差网络来对已经提取的暗通道和深度图进行建模.

2.4 融合分类及优化

图4 深度残差网络Fig.4 Deep residual network

双路网络的输出结果最后要输入到融合分类部分进行分数融合. 整个模型从暗通道图和深度图输入到整个结果输出为一个端到端（end-to-end）的模型. 在本文中采用的是均值融合方法，使用softmax进行激活归一化，使用交叉熵函数作为损失函数. 因此，目标函数L描述如下：

式中：y为图像x所对应的真实标签.

表示损失函数；w为双路模型中所有的权重； λ1为控制该正则项在目标函数中的权重；其softmax公式描述如下：

式中：i为类别数，本实验中K = 2为二分类；Di(x)为暗通道提取函数； ΩD为暗通道图像网络建模；Pi(x) 为深度图提取函数； ΩP为深度图图像网络建模.

3 实验与结果分析

3.1 数据集

为了验证本文提出算法的有效性，搜集了河南、广东、山西3个省份的651路视频监控图像，时间跨度从2015年11月—2017年7月，全面覆盖了各种天气、季节、光照等条下的监控视频，能够充分反映国内高速公路的雾天情况. 从中抽取了21 000张具有代表性的高速公路图像作为雾天检测数据集（express way fog detection dataset，EWFD）. 与此同时，为了增强模型的鲁棒性，从Google 图片搜索中利用关键词检索的方式，搜索爬取了8 000张雾天和无雾的风景图像，作为辅助数据集. 把数据集按照7∶2∶1的比例分别划分为训练集、测试集和验证集.为了客观评价算法的效果，采用了精确度作为基本的评价标准对结果进行全面分析.

3.2 特征样本分析

部分特征样本如图5所示.

针对样本的暗通道特征图如图5（a）、（b）、（e）、（f）所示. 光照射在物体上，会存在反射和吸收. 例如红色的物体便是吸收了红光，反射其他光，那么该物体在其他的颜色通道中就有很低的值. 如图5（f）所示，当光照没有受到雾气的影响时，暗通道特征显示正常，物体的暗通道值接近0；如图5（e）所示，光照由于受到雾气的影响，光线无法完全被反射或吸收，在有雾的区域图像偏白，暗通道值接近1.

图5 特征样本图Fig.5 Sample feature map

针对样本的深度图特征如图5（c）、（d）、（g）、（h）所示. 通过估计场景深度，比较图像深度值的方法来判断雾的有无，为了直观的表现有雾图像与无雾图像的区别，将深度值以坐标形式显示. 如图5（h）所示，针对无雾图像，估计的深度值为3.5；如图5（g）所示，针对有雾图像，估计的深度值仅有1.7.

3.3 模型实现及训练

在本论文中，基于Caffe构建[30]提出的双路神经网络融合模型. 该模型使用ResNet50 作为模型的骨干网络（backbone network），利用交叉熵损失函数（cross-entropy loss）计算网络损失用以调整网络. 利用网上搜集的辅助数据集作为预先训练的数据，对骨干网络进行预先训练，训练参数设置参见Alexnet.后利用预先训练的模型对双路神经网络融合模型进行初始化，后再使用EWFD数据集联合训练优化.

所有实验均基于单路Intel I7处理器及4路NVIDIA TitanXp的计算工作站进行. 使用随机梯度下降算法（stochastic gradient descent，SGD）来优化整个网络. 网络训练中的批大小（batch size）设置为128，初始学习率（LR）设置为 0.1，冲量（momentum）设置为10-4. 整个训练回合（epoch）数设置为60，学习率每20个回合进行十倍衰减.

3.4 双路神经网络融合模型分析实验

（1）暗通道建模分析

为了探索暗通道特征对雾天检测准确程度的影响，对暗通道单独建模分析. 为了实验的公平性，该实验也使用ResNet50作为建模网络. 实验结果如表1所示（表中黑体数据为采用本文算法的实验结果）. 从实验结果中可以看出，RGB图片直接分类取得了较高的准确度，达到了82%. 而与暗通道相比，暗通道取得了超过10%的提高. RGB图片中的雾天的视觉特征在神经网络中并不能很好地建模，这是由于数据集中图片具有背景多而复杂、不容易识别的情况，而暗通道可以准确将雾天的特征反映出来，再通过ResNet50的建模，可以获得很好的实验结果.

表1 双路神经网络融合对比实验Tab.1 Experiments on two-stream neural network fusion

（2）深度图建模分析

为了更好地了解深度图对于整个模型的贡献，单独对深度图的分类结果进行了分析. 由表1可以看到，深度图的分类结果达到了87.2%，可以明显看出，深度图的效果是高于RGB图像的，但比暗通道特征差. 这是由于深度图特征是直接利用通用模型训练的模型来提取的. 由于原模型训练中缺少高速公路这一类场景，导致抽取的深度图效果并不是很好.

3.5 现有方法对比分析

为了更好地检验本文中提出的双路神经网络融合模型的有效性，与现有最好的分类检测模型进行了对比实验，其中包括AlexNet、VGGNet-16、ResNet-50、ResNet101等4个取得巨大成功的分类检测模型，实验结果如表2所示. 从表2可以看到，Alex-Net和VGGNet的准确率均在80%以下，特别是AlexNet仅取得76.3%的准确率，这是由于AlexNet其本身网络结构偏小，难以捕捉到复杂多变的雾天情况；VGGNet的情况与之类似，虽然层数增加到16层，其提高是有限的；残差网络的表现略好，Res-Net-50层达到了82.3%，但是ResNet-101却只有不到1%的提高. 这一实验说明，单靠网络规模的增大是难以全面准确估计雾天的情况的. 而由于本文中提出的双路神经网络融合模型结合了暗通道和深度图这两种具有很强表达能力的视觉特征，再加上ResNet-50的建模能力，取得了93.7%的准确率（见表2中黑体数据）.