基于多任务辅助学习特征的瞳孔中心检测

2023-09-27贾静付高波赵歆波邹晓春张宝尚

航空科学技术 2023年9期

贾静，付高波，赵歆波，，邹晓春，，张宝尚

1.西北工业大学，陕西西安 710072

2.光电控制技术重点实验室，河南洛阳 471009

近年来,随着计算机视觉、图形学、人工智能等新兴技术的发展以及应用需求的增加,学术界和工业界对眼动跟踪技术进行了大量深入研究。人工智能技术与装备的有机结合,将极大地提升装备作战效能[1],眼动技术应用于飞行训练方面的研究也不断发展,从早期的眼动仪系统在飞行模拟器中的测试,到现代眼动仪用于真实空中驾驶舱的当代试验,利用眼动仪收集眼动数据,监测飞行员的注意状态[2],眼动追踪技术在航空航天领域的应用正蓬勃发展。在瞄准具设计中,眼动跟踪技术提供实时的目标识别和定位以改进瞄准精度,可提高战斗人员的操作效率和打击效果。在飞行员行为分析中,利用眼动追踪技术来评估注意力分配和疲劳程度,以采取相应的措施进行提醒或干预。在飞行器界面设计中,眼动跟踪技术被用来记录、评估飞行员的眼动情况,以减少操作复杂性并量化用户体验。总之,眼动追踪技术通过采集分析眼动数据,为航空领域提供了实时精准的量化信息,为瞄准打击、飞行安全和人机交互提供了数据基础。

而鲁棒准确的瞳孔中心定位是眼动追踪的前提和核心技术。在复杂环境下,现有瞳孔检测方法的准确性和鲁棒性不够稳定,这与人类视觉相比是不可接受的,即人类具有很强的鲁棒性。根据认知心理学的相关研究[3],人脑具有多任务辅助学习的特点。凭借这一特性,人类在运动模糊、光照变化、噪声等复杂环境下仍能轻松完成视觉定位任务。因此,本文认为人类视觉系统的这一特性可以促进瞳孔定位的准确性。

在瞳孔检测任务中,现有的瞳孔定位方法可分为传统的瞳孔定位方法和基于深度学习的瞳孔定位方法。现有的瞳孔定位方法从瞳孔定位任务本身出发,忽视了人类视觉系统在处理瞳孔定位问题上的优越性。因此,无论是基于传统的图像处理还是基于深度学习,在复杂的环境下都很难取得令人满意的效果。

为了解决上述问题,受多任务辅助学习特性的启发,本文提出了一种用于瞳孔中心检测的由粗到精的神经网络架构,如图1 所示,其中,蓝色背景代表粗分类阶段,红色背景代表精细回归阶段。在网络的不同分支中定义了两个不同的坐标维度。粗分类阶段和细回归阶段是级联的。该架构主要分为粗分类和精细回归两个阶段。在粗分类阶段,将坐标值划分为不同的类别。这种分类在相应的尺度空间中执行多次。精细回归阶段进一步细化粗分类结果,计算出准确的瞳孔中心位置。粗分类阶段的主要任务用来辅助回归任务,以提高准确率。瞳孔中心的横坐标和纵坐标在两个独立的分类和回归模块中同时计算。它们共享相同的全图像卷积特征映射,这也在训练过程中引入了类似于多任务学习（MTL）[4]的优势。此外,在开放标准和具有挑战性的数据集上,将本文方法与大量优秀的ElSe[5]、ExCuSe[6]、SET[7]、DeepEye[8]等方法进行了比较,得到了最先进的结果。

图1 本文提出的由粗到精网络的结构Fig.1 The architecture of the proposed coarse-to-fine network

1 方法介绍

1.1 多任务辅助学习特征建模

为了提高瞳孔中心检测的鲁棒性和准确性,本文在瞳孔中心检测任务中引入多任务模块来模拟人类视觉系统的多任务辅助学习特性。多任务模块主要由两部分组成:一部分是在粗分类阶段使用多个具有不同尺度因子的子任务辅助主任务,以优化瞳孔中心检测的鲁棒性。另一部分通过对分类任务和回归任务的联合优化得到瞳孔中心坐标,从而提高瞳孔中心的检测精度。

假设输入图像为I,通过基本网络得到的输出为g(I)；Tasks表示不同尺度空间中的分类任务,定义为

式中,i表示分类任务的个数。在尺度空间中,将强约束分类和弱约束分类相结合,强约束分类表示主任务,弱约束分类表示子任务。

在获得多尺度分类节点的基础上,一方面,计算不同尺度空间中多任务单元的交叉熵损失。多任务分类损失定义为

式中,αi为不同尺度分类任务的权重系数；Ci表示每个任务的交叉熵损失。

另一方面,在主要任务节点的基础上建立了回归模型。首先通过主要任务节点求解最大期望值E(mainTask(g(I)),定义为

式中,n为主要任务分类节点个数；Nodes(i)表示主任务第i个节点的输出；Ki表示节点i对应的分类类别。

因此,Softmax(nodes(i))表示第i个节点对应瞳孔中心坐标的分类概率。

在得到瞳孔中心坐标的最大期望值后,通过均方误差计算回归损失。将多任务分类损失和回归损失相结合对模型进行训练,以优化瞳孔中心坐标。最终损失L定义为

式中:β为回归损失函数的权值；LE(mainTask(g(I)))是真实值与期望值之间的均方误差。

为了保证提取的特征尺度的一致性,Vera-Olmos 等提出的DeepEye 要求输入图像必须具有固定的大小,否则很难获得满意的结果。由于成像特性的不同,图像尺寸也会有所不同,这阻碍了深度学习网络鲁棒性的提高。在本文中,通过比例尺映射来解决这个问题。其思想是将不同大小的图像映射到固定大小的比例尺空间进行计算。

1.2 粗分类

粗分类主要包括点分类和多尺度约束。

1.2.1 点分类

N.Ruiz 等[9]首先使用姿态角范围（bin）分类提出了用于头部姿态估计的HopeNet。现有的bin 类函数为B(pointi)=[a,b]。如果pointi属于[a,b],则B(pointi)=a,最大极值误差为E=[0,|b-a|]。对于精确的回归阶段,这个误差太大而无法接受。为解决这一问题,本文在粗分类阶段提出一种新的点分类方法。在尺度空间中定义不同的等距点,每个点代表一个范畴。在点分类中,输出值属于最近的点。当距离相等时,它们属于具有较高节点的点。与bin分类方法相比,本文所提出的点分类方法可以根据不同的任务改变距离测量,扩展了高维数据空间。引入点分类,为粗分类阶段提供了一种相对公平稳定的分类策略。

1.2.2 多尺度约束

在定义分类尺度空间时,通过设置分类点的个数来确定每个类别在尺度空间中的范围。在粗分类阶段,首先,定义了一个包含513个分类点的尺度空间作为主要任务。其次,通过减少分类点的数量,定义了257、129、65、33、17、9、5、3个分类点,同时进行训练。

可以选择骨干网络进行多次试验,并扩展多个完全连接的层来预测瞳孔中心坐标。每一个全连通层代表一个不同的分类尺度空间。每个尺度空间都有一个确定的交叉熵损失。分类点越少,损失的尺度空间对应的权重越大。当分类范围较大时,错误的分类对应更高的惩罚。每个维度的分类损失定义为

式中:C(yi,)表示交叉熵损失；αi表示不同尺度空间的权重。

1.3 精细回归阶段

经过粗分类阶段的计算,在一个较小的范围内确定各个维度的坐标值,该范围代表一个类别。而在实际应用中,瞳孔位置是一个准确值。为得到更精确的瞳孔中心坐标,本文扩展了粗分类阶段之后的细回归阶段。

在精细回归阶段,只使用粗分类阶段的主要任务,它具有更精细的分类范围,因此精细回归任务更容易收敛。用softmax层输出的数学期望来表示回归方程,定义为

式中,Z表示来自全连接层的矢量输出和softmax 层的输入；i表示分类类别；分母起归一化作用。

回归损失定义为

在定义了回归方程之后,选择均方误差损失作为回归损失。最后,生成两个最终损失,分别对应瞳孔定位任务中图像的两个不同维度。每个最终损失被定义为分类损失和回归损失的线性组合。每个维度的最终损失定义为

式中,RegressionLoss 表示均方误差损失函数；β表示回归损失权值。

1.4 训练

在训练过程中,首先按照8/2 的比例对LPW 数据集进行分割,最终生成104685张训练图像和26171张测试图像。在将图像输入网络之前,将其大小调整为64×64。使用Resnet-50 作为骨干网络,训练了30 个epoch。在反向传播中使用Adam优化器。初始学习率设为0.001,每10次学习率减小,其中β1=0.9,β2=0.999,η=10-8。此外,在粗分类阶段定义了多个分类点,分类点为257 的尺度空间的分类范围最小,对整体任务的贡献最大,而分类点为3的尺度空间贡献最小,根据Wang Haofan[10]所提出的方案以及在训练测试过程中调整参数确定了权重因子。αi={1, 2, 3, 5, 7, 9, 11,13, 15},β= 0.15。

2 试验

2.1 试验装置

2.1.1 数据集

为了测试和训练所提出的网络,在室内和室外场景中使用不同的传感器采集瞳孔图像,它们包括三个已发表的具有挑战性的红外瞳孔图像数据集。

（1） LPW:该数据集包含66 个瞳孔区域视频。该数据集由22 人使用头戴式眼动仪收集,共生成130856 个视频帧。该数据集涵盖了室内和室外的照片条件。

（2） ElSe:该数据集包含55712张图像。数据集I-V通过眼动追踪设备在道路驾驶环境中记录。数据集VI-VII在室内试验中收集。

（3） PupilNet:该数据集包含41217 张图像。数据集PNIPNV包括更快的变化、不利的光源和眼睛生理结构的破坏。2.1.2 指标

为了评估和公平地比较本文提出的网络与其他算法,针对不同的阶段定义了不同的评价指标。

（1）检测率:如果预测坐标与真实标签之间的欧氏距离小于5px,则认为检测成功。检测成功的图像与所有图像的比值被定义为检测率。

（2）分类检测率:对于分类任务的每个维度,定义输出结果与真实标签之间的误差小于等于3px,表示分类成功。成功图像的比例定义为分类检测率。

（3）分类精度:当两个不同的维度同时分类成功时,就定义了分类精度。

（4）绝对误差:每个维度的预测值与真实值之间的像素误差的绝对值。

（5）欧氏距离误差:预测坐标与实际坐标之间的像素误差的欧氏距离。

2.1.3 实现细节

本文收集了有代表性的算法,将SET、Swisski、ElSe、ExCuSe、DeepEye 等算法与本文方法进行了比较。所有试验均在一台台式计算机上进行。

2.2 试验分析

2.2.1 分类网络与分类方法评价

为了获得更稳定的分类模型,考虑到不同的代表性模型AlexNet、VGGNet、ResNet-50,在现有研究绝大多数任务上的性能,ResNet-50 具有最高的性能。因此,本文选择Resnet-50作为骨干分类网络。

此外,为了测试点分类的准确性,本文将其与Ruiz等在LPW 数据集上提出的bin 分类方法进行了比较。同样,在粗分类阶段,使用之前定义的评价指标来计算两个维度的分类检测率。在精细回归阶段,使用不同维度的平均绝对误差和标准差作为评价指标。最后,计算了不同分类方法的平均欧氏距离误差。

试验结果见表1,分类阶段以分类精度作为评价指标。用平均绝对误差（MAE）、平均欧氏距离误差（MEDE）比较回归阶段。由表1可见,与bin分类相比,本文的点分类方法在两个维度的平均分类精度上提高了0.77%,在回归精度上平均欧氏距离误差降低了16.58%。与bin 分类相比,点分类更加公平、合理,不会带来数据偏移。

表1 bin分类与本文在LPW数据集上的点分类在分类和回归阶段的对比Table 1 Comparison between bin classification and proposed point classification on LPW data sets in classification and regression stages

2.2.2 多任务辅助特征有效性评价

为了验证架构的有效性,在LPW数据集上进行了分析试验,设置了两个对照组。在对照组1中,去除多尺度空间约束,只保留一个尺度空间与主任务。在对照组2中,删除主任务的分类损失,保留其他子任务的分类损失,结合最高尺度空间的回归损失对网络进行训练。

试验结果见表2。对照组1的检出率相对较低,因为删除了很多分类子任务。仅使用主分类任务,网络难以稳定收敛。对照组2 的分类精度较低,因为去掉了最高尺度的分类损失,很难得到准确的分类结果。

表2 多任务辅助效能控制试验（通过分类准确率和检测率对结果进行可视化）Table 2 Multi-task auxiliary effectiveness control experiment （The results are visualized through classification accuracy and detection rate）

2.3 试验对比

为了充分证明模型的性能,建立了对比试验。首先,将该模型与传统的瞳孔定位算法Swiski、SET、ExCuSe和ElSe进行了比较,将检出率作为评价指标。选择LPW作为测试数据集,因为它具有更多的连续帧图像和更高的图像分辨率。为了进行更详细和全面地比较,将每个参与者采集的图像视为一个独立的数据集,并对每个分割的数据集执行不同的算法。

表3 给出了本文模型和传统算法在LPW 数据集上的检测率。与传统算法相比,本文提出的模型有了显著的改进。还计算了每种方法在所有数据集上的平均检出率。本文方法的检出率为97.2%。在传统的瞳孔定位方法中,ElSe 方法的定位效果最好。然而,本文方法仍有大约28%的改进。

图2描述了在LPW上小于特定欧氏距离的预测和手工标记的地面真值的像素误差的平均检测率。当允许像素误差小于1 时,本文方法的检测率接近60%。当允许像素误差小于3 时,对应的检测率大于90%。与传统的最佳算法相比,本文方法提高了30%以上。因此,本文方法适用于高精度瞳孔定位。这也表明本文模型具有更高的检测率和更好的鲁棒性。

本文选择了在LPW 数据集上表现较好的两种传统算法ExCuSe 和ElSe 以及两种深度学习算法PupilNet 和DeepEye进行比较。

对于所有12个数据集,本文模型在8个数据集上实现了更高的检测率（见表4）。与PupilNet相比,所提出的方法将所有数据集的平均检出率提高了约20%。与DeepEye 相比,平均检出率略有提高6%。ElSe在传统方法中表现出更好的性能,但本文方法在平均检出率上仍然提高了30%。

表3 本文方法与传统方法在LPW数据集上的检测率比较Table 3 Comparison of detection rate between proposed method and traditional methods on LPW dataset

图2 所测试方法在LPW数据集上的像素误差和平均检测率分析Fig.2 Pixel error and average detection rate analysis of tested method on LPW dataset

为比较不同方法的时间效率,进行了一个对比试验。首先,在LPW上随机选择100张图像。其次,每种方法执行100 次,计算每张图像的平均处理时间,试验结果见表5。与DeepEye和ExCuSe相比,本文方法分别提高了1.34倍和3.04倍。

表4 本文方法与最先进的方法在混合数据库上的检测率比较Table 4 Comparison of detection rate between proposed method and the best-advanced method on the hybrid dataset

表5 不同方法在LPW数据集上的时间效率比较Table 5 Comparison of time efficiency between different methods on LPW data sets

3 结论

本文受人类视觉系统特点的启发,探索了人类视觉系统的多任务辅助学习特征与瞳孔中心检测任务之间的隐藏关系,将多任务辅助学习特征引入瞳孔定位任务,提出了一种从粗到精多任务协同优化瞳孔定位方法。本文方法在LPW 和ElSe、ExCuSe 上取得了最先进的结果,分别获得了97.2%和86.3%的检测率,距离误差小于5px。试验结果验证了多任务辅助学习特征的有效性。在未来的工作中,本文提出的网络架构可以应用到其他类似的任务中,并且可以根据不同的需求灵活更换相应的骨干网。