APP下载

基于DCNN的管制员疲劳状态检测

2022-01-11梁海军刘长炎陈宽明孔建国

科学技术与工程 2021年35期
关键词:管制员损失率集上

梁海军, 刘长炎, 陈宽明, 孔建国

(中国民用航空飞行学院空中交通管理学院, 广汉 618300)

随着民航业的迅猛发展,航线数量和飞机架次增多,扇区复杂度增大,空中交通管制员(简称管制员)的工作负荷越来越大,在岗疲劳也越来越成为影响民航安全的重大问题。2014年,东航MU2528航班在武汉进近阶段联系塔台时因管制员睡岗,被迫复飞。2016年,上海虹桥机场塔台管制员由于疲劳导致前后管制指令冲突,致使起飞和穿越跑道的飞机同时使用跑道,造成A类跑道侵入事件。2019年,靳慧斌等[1]提出应用支持向量机模型融合多生理参数和眼动指标构建疲劳检测模型,识别正常组与剥夺睡眠组的准确率为94.2%。Zhao等[2]提出了一种卷积神经网络EM-CNN(eyes and mouth-convolution neural network),从ROI(region of interest)图像中检测眼睛和嘴部状态,算法性能优于基于VGG16、InceptionV3、AlexNet等算法,准确率和灵敏率分别为93.623%和93.643%。冯文文等[3]提出将中心损失函数加入到softmax损失中,优化了其在深度卷积网络中类内间距大的问题,提高了脸部疲劳状态识别准确率。郑文倩[4]提出将MTCNN(multi-task cascaded convolutional networks)算法与改进的基于判别式尺度空间跟踪算法相结合的方法进行面部检测和关键点定位,采用基于MobileNet V2算法判定眼睛和嘴部状态,通过PERCLOS(percentage of eyelid closure over the pupil over time)值、眨眼频率、闭眼时间和哈欠频率等疲劳指标综合判断驾驶员是否疲劳。徐莲等[5]针对光照和头部姿态影响检测精度问题,提出将Gabor特征和LBP(local binary pattern)特征迁移到卷积神经网络中,并在实时检测中加入眼睛筛选机制,提高了检测准确率和速率。Xiao等[6]提出了一种利用驾驶员眼睛的时空特征来检测驾驶员疲劳状态的方法,首先通过深度卷积层学习空间特征,然后通过长短期记忆单元分析相邻帧之间的关系,最后,用搭建的模型对驾驶状态进行检测,达到了96.12%的准确率。胡习之等[7]通过优化SSD(single shot multi box detector)人脸区域定位方法,提高了对光线变化,背景相似干扰的鲁棒性。而随着深度学习的快速发展,深度卷积神经网络被广泛用于机器视觉领域,但目前针对管制员特定管制情景下的疲劳检测还较少,而且检测准确率和模型大小矛盾仍然存在,检测准确率仍提高,为解决以上两个问题,达到准确及时的检测管制员疲劳状态的目的,在迁移学习的基础上搭建了基于DCNN(deep convolutional neural network)的管制员疲劳检测模型,更精确及时的提取眼睛小像素图片特征,判定管制员疲劳状态。

1 疲劳检测流程

针对管制员在岗疲劳问题,目前研究大多选用在ImageNet的比赛上分类任务中表现出色的VGG16模型、Inception V3模型和ResNet50模型对眼部图像进行特征提取并分类,根据眼部状态将图像标记为0(闭眼)和1(睁眼)两类。王军等[8]利用迁移学习的VGG16模型和ResNet50模型提取面部图像中表情特征,最后对VGG16和ResNet50的输出进行加权融合进行表情识别,与传统卷积神经网络模型相比,有效提高了面部遮挡情况下的表情识别精度。Cheng等[9]以VGG19模型为基础对网络结构和参数进行了优化,采用迁移学习技术克服了图像训练样本不足,该网络模型对人脸表情识别的准确率达96%。本文中搭建DCNN模型用于眼部状态的检测。疲劳检测流程如图1所示。首先将视频图像通过MTCNN检测出管制员的人脸,同时获得左右眼睛的坐标,然后获取待检测的左右眼图像,使用训练好的DCNN眼部状态分类模型判断眼部的睁闭合状态,最后通过PERCLOS标准判断管制员是否疲劳。

图1 疲劳检测流程图Fig.1 Flow chart of fatigue detection

1.1 人脸检测和特征点定位

人脸检测和特征点定位是疲劳状态识别的关键部分,在实际复杂的管制环境内,由于进近和区域管制员需要实时关注雷达屏幕上的飞机动态,而且管制室内为保证管制员能看清雷达屏幕,故灯光较暗,目前传统的基于统计学习分类器的人脸检测方法和单一的CNN已经不能很好地满足人脸检测和人脸关键点定位的要求。MTCNN能够同时将人脸检测和人脸关键点定位结合起来,而定位的人脸关键点又可以用来实现人脸校正[10]。

MTCNN算法由3个阶段组成,如图2所示。

图2 MTCNN网络结构图Fig.2 MTCNN network structure chart

第一阶段为P-Net卷积神经网络,获得候选窗体和边界回归向量。根据边界框对候选窗体进行校准,利用非极大值抑制算法去除重叠窗口。

第二阶段为R-Net卷积神经网络,将经过P-Net确定的包含候选窗体的图片在R-Net网络中训练,并使用全连接神经网络进行分类。利用边界框向量微调候选窗体和非极大值抑制算法去除重叠窗体。

第三阶段为O-Net卷积神经网络,该网络功能与R-Net类似,在去除重叠候选窗口的同时标定5个人脸关键点的位置。

人脸检测和关键点定位可表示为

(face,L-eye,R-eye)=MTCNN(image)

(1)

式(1)中:face为检测的人脸边界框坐标;L-eye、R-eye分别表示左眼和右眼的点坐标;image为待检测的视频图像。

1.2 基于迁移学习眼部状态分类模型

1.2.1 迁移学习

针对目前管制员面部数据较少,难以收集足够的训练数据来重新建立模型的问题,迁移学习的目的是将知识从一个称为源域的大数据集转移到一个较小的目标域的数据集,多用于源域和目标域数据之间特征空间不同或者源任务和目标任务关注的领域不同等情况来提高目标任务的性能。基于卷积神经网络的迁移学习可以被大量、广泛地应用在不同的领域,谢小红等[11]利用ImageNet上训练完成的网络模型微调后在DeepFashion数据集上进行迁移学习,有效提高了模型的分类精读和时效性。在数据匮乏的医学图像领域,迁移学习是一种有效的方法,Atabansi等[12]利用大数据集的高分辨率图像特征训练相对小的数据集模型,增强模型的泛化能力,验证了采用迁移学习策略训练的VGG-16模型,得到了较高的准确率。Khan等[13]利用公开的PCG数据集预训练简而轻的CNN模型用于心血管疾病的检测,获得了较高的检测准确率。

用于迁移的数据可以分为与目标域数据相关的数据和不相关的数据。本文中,首先收集大量的与目标域数据相关和像素相近的人脸图像作为训练数据,其次采用迁移学习的方法对DCNN模型进行预训练,最后,利用眼睛图像对预训练的DCNN模型进行微调得到眼睛状态分类模型。

1.2.2 DCNN眼部状态分类模型

深度卷积神经网络是由若干层“神经元”组成的网络模型,当前层的每一个神经元对前一层神经元的输出应用线性滤波器,并在滤波器输出中叠加一个偏置量,对其结果应用非线性激活函数得到特征图。

(1)卷积层是整个神经网络的核心,采用“局部感知”和“权值共享”两种方式,进行降维处理和提取特征。相对于所有神经元应用不同滤波器的神经网络,卷积共享滤波器结构的参数数量急剧减少,降低了其过度拟合的能力。公式为

Zl+1(i,j)=[Zl⊗wl+1](i,j)+b,

(i,j)∈{0,1,…,Ll+1}

(2)

(3)

式中:Zl和Zl+1分别是第l+1层的输入和输出;Zl+1(i,j)是l+1层特征图的像素;w为卷积核;b为偏置量;s0、p和f分别是卷积步幅、填充层数以及卷积核大小;L是网络层数,其中卷积步幅是指卷积核每次移动的步幅。

(2)池化层又称下采样层,对特征图进行特征选择和过滤。池化层采用最大池化,大小为2×2。

(3)全连接层对经卷积层和池化层提取的特征进行非线性组合,实现分类,可表示为

Al=f(WTAl-1+b)

(4)

式(4)中:Al-1和Al分别是第l层的输入与输出;f为激活函数;W和b分别表示权重和偏置。

眼部状态分类模型由6个卷积层、3个池化层和2个全连接层组成,如图3所示。第一个卷积层的卷积核大小是32×3×3,第二个和第三个卷积层的卷积核大小是64×3×3,最后3个卷积层的卷积核大小是128×3×3。在所有卷积层中,卷积运算的边界模式相同,即卷积运算中输入和输出特征映射的维数一致。池化层采用最大池化策略对特征映射进行降维,所有池化层的降维比例均为2×2。全连接层中的单元数为512。最后,在顶层加入softmax分类器作为模型的输出,在该模型中所有层的激活函数均为ReLU函数。

图3 眼部状态分类模型Fig.3 Eye state classification model

1.2.3 Dropout

Dropout是一种用于训练神经网络的算法[14]。神经网络前向传播过程中,在Dropout所在位置,特征检测器将会以p=0.5的概率删除,剩余权重将会通过反向传播进行训练。该算法通过迫使神经元依赖群体行为,而不是依赖于其他特定单元的活动,以防止特征检测器的过度拟合,使模型的泛化性更强。本文中DCNN模型在全连接层后面加上Dropout正则化,参数设置为0.5,Dropout正则化示意图如图4所示,图4(a)为标准神经网络示意图,图4(b)为采用Dropout正则化策略后的神经网络示意图,隐藏层神经元以50%的概率随机失活,以此来增强模型的泛化能力,防止模型过拟合。

图4 Dropout正则化示意图Fig.4 Schematic diagram of dropout regularization

2 实验数据集

考虑到管制员工作的现实场景中可能会受到个体差异和各种环境变化(包括光照、遮挡和模糊)引起的具有挑战性的变化,收集ZJU、CEW、空中交通管制员眼部(air traffic controller eyes, ATCE)数据集,分别选取70%作为训练集,30%作为测试集,用于研究DCNN模型在上述条件下的性能、准确率和损失率。

(1)ZJU数据集[15]是浙江大学公布的开源数据集,在20个人闪烁的视频数据库中,总共有80个视频片段,每个人有4个片段:没有戴眼镜的正面观看片段、戴薄边眼镜观看片段、戴黑框眼镜正面观看片段、没有戴眼镜向上观看的片段。在每个闪烁过程中手动选择左右眼图像,部分图像模糊、分辨率较低或被眼镜遮挡。该数据集的部分样本如图5所示,前面两行为闭眼图像,后面两行为睁眼图像。

图5 ZJU数据集Fig.5 ZJU dataset

(2)CEW数据集[16]由南京航空航天大学发布,包括2 423张图像,其中1 192张闭眼图像为从互联网上收集,1 231张睁眼图像来自LFW(labeled faces in the wild)数据库,部分眼睛图像如图6所示。

图6 CEW数据集Fig.6 CEW dataset

(3)ATCE数据集,通过采集中国民航飞行学院管制员进行雷达模拟机管制任务时的实时面部图像,将采集到的面部图像经MTCNN模型进行眼部的识别和提取,得到ATCE数据集。该数据集共4 326张,其中睁眼图像为2 516张,闭眼图像为1 810张。ATCE数据集包括管制员戴眼镜分别从8个方向(上、下、左、右、左上、左下、右上、右下)注视雷达屏幕的眼部图像,以及管制员不戴眼镜分别从8个方向注视雷达屏幕的眼部图像,部分图像如图7所示。

图7 ATCE数据集Fig.7 ATCE dataset

3 验证实验

3.1 实验环境

验证实验在Windows操作系统上进行,搭载Intel Xeon Silver 4110 CPU和两张NVIDIA GTX1080Ti 11 G独立图形显示卡,存储硬件为128 GB 2 666 MHz ECC内存,480 G SSB和4 TB SATA硬盘,采用Keras构建神经网络模型。

3.2 实验分析

3.2.1 ZJU数据集上的测试结果

将目前在ImageNet的比赛上分类任务中表现出色的VGG16模型、Inception V3模型、ResNet50模型与本文中提出的DCNN模型在ZJU数据集上进行对比分析,其比较结果如表1和图8所示。由图8可以看出,DCNN模型在训练集和测试集上,30代的准确率稳定在97%左右,并且在20代开始收敛,损失率趋近于7%。

表1 VGG16、ResNet50、InceptionV3、DCNN在ZIU数据集上的评价指标对比结果

图8(a)中,DCNN模型训练集和测试集的准确率最高,ResNet50模型的训练集准确率约89%,测试集的准确率在84%左右。VGG16模型的训练集和测试集准确率约90%。InceptionV3模型的训练集准确率约92%,测试集准确率在90%左右。DCNN模型的识别精度较VGG16模型有约7%的提升,较InceptionV3模型有约5%的提升,较ResNet50模型有较7%的提升。图8(b)中,ResNet50模型的效果最差,训练集损失率在35%左右,测试集的损失率在26%左右,VGG16模型的训练集和测试集损失率在22%附近,InceptionV3模型的训练集损失率约18%,测试集损失率在22%左右,DCNN模型的损失率较VGG16模型降低了19%,较InceptionV3降低了15%,较ResNet50降低了15%。

图8 DCNN与其他3种模型在ZJU数据集上的损失率比较结果Fig.8 Comparison results of DCNN and other three models on ZJU dataset

F1分数是召回率(recall)和精确率(precision)的调和平均数。由表1可知,DCNN模型F1分数为97.63%,而其他3种模型F1分数大致在90%左右,DCNN较其他3种模型有7%的提升。

3.2.2 CEW数据集上的测试结果

DCNN与其他3种模型在CEW数据集上对眼部图像训练和测试的准确率和损失率曲线图对比分别如图9所示,可以看出,DCNN模型在15代便开始收敛,模型训练集和测试集的准确率趋近于97%,而模型训练和测试的损失率在7%附近。VGG16模型和InceptionV3模型较DCNN模型更早收敛,但是,DCNN模型的识别准确率较VGG16模型有3%左右的提高。ResNet50模型在收敛速度、模型准确率以及损失率等方面落后于DCNN。

图9 DCNN与其他3种模型在CEW数据集上的损失率比较结果Fig.9 Loss comparison results of DCNN and other three models on CEW dataset

VGG16、ResNet50、InceptionV3、DCNN在CEW数据集上的评价指标对比结果如表2所示,DCNN模型的F1分数为97.03%,VGG16模型和InceptionV3模型的F1分数在94%左右,ResNet50模型的F1分数为89.60%,4种模型中,DCNN的F1分数较其他3种提高3%~7%。

表2 VGG16、ResNet50、InceptionV3、DCNN在CEW数据集上的评价指标对比结果

3.2.3 ATCE数据集上的测试结果

DCNN与其他3种模型在ATCE数据集上对眼部图像训练和测试的准确率和损失率曲线图对比分别如图10所示。由图10可以看出,DCNN模型在区分眼睛状态任务中,迭代次数到15次开始收敛,训练和测试的准确率达到98.35%,损失率为5.23%。图10(a)中,VGG16模型的训练集和测试集准确率约为97%,InceptionV3模型的训练集和测试集准确率约为96%,ResNet50模型的训练集准确率约86%,测试集的准确率在88%左右。DCNN模型准确率较ResNet50模型提高了10%左右。图10(b)中,ResNet50模型的效果最差,训练集损失率在27%左右,测试集的损失率在24%左右,VGG16模型的训练集和测试集损失率在9%附近,InceptionV3模型的训练集和测试集损失率约8%,DCNN模型的损失率较VGG16模型降低了4%,较InceptionV3降低了3%,较ResNet50降低了18%。

图10 DCNN与其他3种模型在ATCE数据集上的损失率比较结果Fig.10 Loss comparison results of DCNN and other three models on ATCE dataset

VGG16、ResNet50、InceptionV3、DCNN在ATCE数据集上的评价指标对比结果如表3所示,DCNN模型的F1分数为98.06%,VGG16模型的F1分数为97.33%,ResNet50模型的F1分数为90.53%,InceptionV3模型的F1分数为96.31%,DCNN模型的F1分数较VGG16模型有0.73%的提高,较ResNet50模型提高了7.53%,较InceptionV3模型提高了1.75%。

表3 VGG16、ResNet50、InceptionV3、DCNN在ATCE数据集上的评价指标对比结果Table 3 Comparison results of VGG16, ResNet50, InceptionV3 and DCNN on ATCE dataset

根据DCNN模型和其他3种模型的对比实验结果可以看出,DCNN模型识别精度优于其他3种大型网络模型,由于DCNN网络模型的输入为64×64,卷积层的数量以及模型参数较其他3种网络少,在训练性能方面,DCNN模型更适合管制员眼部图像这种像素较小,特征较少的样本的分类任务;通过纵向对比DCNN模型在3种数据集上的识别精度、召回率和F1分数等指标,DCNN模型在ATCE数据集上具有更高的准确率,能够更准确快速的检测管制员疲劳状态。

4 结论

眼部状态检测是对管制员疲劳检测的一类主要技术,为提高疲劳状态检测的准确率和检测速率,提出了一种基于眼部小像素图像分类任务的DCNN模型来实现管制员疲劳检测的方法,得出以下结论。

(1)为提高疲劳检测模型的鲁棒性,采用MTCNN检测算法,可以对一些非正面人脸图像做到实时检测。

(2)为提高检测效率和准确性,利用迁移学习预训练了自建的DCNN模型,该模型简而轻,能更精确地提取眼部小尺寸图像疲劳特征,DCNN模型在ZJU数据集上的准确率提高了7%,在CEW数据集上提高了3%~7%。

(3)在ATCE数据集上,DCNN模型的测试准确率较ZJU数据集和CEW数据集提升了2%,更适合判定管制员眼部疲劳状态。

本模型对极端头部姿态识别时,可能发生误检的情况,在未来工作中,将丰富极端头部姿态下的眼部数据集,优化面部检测方法,提高检测的多样性,使其更符合实际管制情境。

猜你喜欢

管制员损失率集上
湿法炼锌除铝技术的研究与实践
关于短文本匹配的泛化性和迁移性的研究分析
农业农村部印发《意见》提出到2025年农产品加工环节损失率降到5%以下
不同油菜品种机收损失率及其与产量性状的相关性
基于互信息的多级特征选择算法
从心理学的角度浅谈空中交通管制中的“错、忘、漏”
空中交通管制员的情境意识与航空安全
控制塔
《飞机起飞了》
12部使用一年后最廉价转售车