APP下载

基于多目摄像机的鲁棒眼动跟踪技术研究

2023-01-04谢子翰顾宏斌吴东苏

测控技术 2022年12期
关键词:注视点单目眼动

谢子翰, 顾宏斌, 吴东苏

(南京航空航天大学,江苏 南京 211106)

在场景知觉的研究中,通过眼动追踪技术可以实时记录被测用户的信息加工过程,且处理分析得到的眼动指标可以真实地反映信息加工过程中的心理机制,例如评估被测用户的视觉注意力、情绪状态和认知过程等信息[1]。眼动跟踪技术是指估计被测用户的注视行为,注视估计可以通过确定3D中的视线(Line of Sight,LoS)或2D中的注视点(Point of Regard,PoR)[2]来实现。其中,LoS描述了被测用户在3D世界坐标中的位置信息,而PoR表示视距与场景相交的位置,通常指屏幕或注视的东西,例如控制面板等。在本文中,眼动行为、注视信息用屏幕上的PoR表示。在国内外,有许多专家将眼动跟踪技术用于人机交互以及探索人的认知过程中[3],并作为界面元素位置分布合理性的参考反馈给机器、面板、界面的设计人员。其中,因飞行员在操作飞机的过程中所获得的信息情报有80%~90%是通过人眼获得的视觉情报[4],所以将眼动跟踪技术应用于评估飞行学员在模拟机上的训练绩效是眼动技术应用的典型场景。例如,国内由柳忠起[5-7]带领的北航科研团队致力于研究眼动评估在航空领域的应用,并做出重大贡献;国外Gomolka[8]、Li[9]等学者将眼动数据分析应用于飞行学员的训练研究方面。

眼动追踪技术需使用专用的眼动识别设备,现有的眼动识别设备分为半入侵的可穿戴式眼动仪和非入侵的远程传感式眼动仪两大类。由于可穿戴式眼动仪约束被测用户认知过程中的正常操作,可能会对被测用户的认知行为造成干扰,且面对特殊场景不具备灵活性,而远程传感式眼动仪可以非入侵地捕捉被测用户的眼睛,为用户提供最自然和方便的交互,因此远程传感式眼动仪是本文的研究重点。

基于远程传感器的眼动追踪方法分为基于特征的方法和基于外观的方法。基于特征的方法是提取眼睛图像上的局部特征,例如瞳孔中心和角膜上的反射来确定注视点[10];基于外观的方法是使用图像内容作为输入,通过机器学习等手段直接建立图像特征到注视点的映射关系。基于特征的方法大多需要特定的硬件配置,并利用眼生理学来分析、估计注视点相关的特征,在硬件系统的构建、实现过程中需要较高成本,且实验条件较为苛刻,而基于外观的眼动追踪方法在使用普通单目摄像头获取2D人眼信息的条件下即可粗略推测人眼的视线方向和注视点位置,能够显著降低系统搭建成本,普适性强且易于实现,因此本文采用基于外观的方法构建眼动追踪系统。

近几年,有许多学者提出并采用多种基于外观的眼动追踪方法,例如使用内置笔记本摄像头,基于被测用户的三维外观并结合头部姿态信息和几何眼睛特征,采用随机森林回归的方法估计注视点坐标[11];采用基于颜色强度变化的瞳孔检测算法,分别使用AdaBoost级联检测器检测人脸和使用霍夫变换对瞳孔进行定位,通过检测瞳孔中心来估计用户视线[12];使用毫米级RGB相机嵌入到正常眼镜框中来捕获眼睛的不同视图并放入神经网络进行视线跟踪,能达到1.79°的最小角度误差[13];也有学者建立眼睛跟踪数据集后使用卷积神经网络模型[14]、使用眼睛图片和人脸姿态一同训练的神经网络模型[15]分别进行训练来估计眼动信息,并得到了较为满意的实验结果,揭示使用神经网络的外观注视估计方法具有巨大潜力。但在以上研究中,结合了头部姿态的算法通常将头部姿态角度信息与瞳孔信息作为输入放入机器学习模型中进行训练,该做法加大了运算的时间成本和计算机功耗,且没有考虑头部姿态角度信息算法中容易出现单个传感器视场小、镜头捕捉被遮挡、头部姿态角度较大时丢失对瞳孔的捕捉等问题。

基于以上文献研究,本文针对现有问题提出用多个远程传感器采集瞳孔和头部姿态角度信息,采用深度学习方法建立瞳孔的图像特征到注视点位置的映射,再基于头部姿态角度创建加权融合方案对多组注视点进行融合得到最终整体注视点的方法,用简单算法和多个低成本、低分辨率摄像头实现大视场、灵活度高、适合复杂环境的眼动追踪。

1 实验平台搭建及实验设计

为实现本论文的目标,需设计一个非入侵式、灵活且适应大视角场景的多摄像机眼动追踪系统,该设计能够从不同的视角同时获取多种眼睛外观来获得大工作容积以允许较大的头部运动。

1.1 实验设备

为权衡精度和总成本,远程传感器设备采用的是4个最大分辨率为1920像素×1080像素、采样率为30 Hz的网络摄像头,摄像机的编号从左到右依次为1、2、3、4,安置在分辨率为1920像素×1080像素、大小为24 in(对角线)的屏幕显示器四周,如图1所示。

图1 屏幕显示器上的坐标轴以及屏幕显示器周围摄像机位置分布

在这个实验平台中,被测用户在距离屏幕显示器约为40 cm的位置进行测验。由于不需要头部固定,因此被测用户可以随意转动头部来注视已标定的标准点。被测用户注视标准点时,4个摄像机分别记录被测用户的图像信息。

实验设备还包括一张已标定的标准红点网格图,(x,y)代表屏幕像素点的位置信息,坐标的原点为屏幕显示器左上方第一个像素点的位置,向下为y轴正方向,向右为x轴正方向,如图1所示。被测用户要求依次注视标准点,每次注视时间为10 s,每个标准点分别注视10次,记录下每个摄像头所估计的注视点坐标,并将数据进行整合。

该硬件配置的主要优势是能处理低分辨率眼睛外观数据,利用多种眼睛外观以便在具有挑战性的跟踪条件下,特别是当被测用户在传统的单视图外观中由于大幅度的头部运动、干扰引起的遮挡而受到阻碍时可靠地检测注视特征。其大致实验流程如图2所示,虚线框内为单目摄像机眼动追踪系统的大致步骤,该实验先通过构造单目摄像机眼动追踪系统得到各个摄像机所预测的注视点位置,再将其通过加权融合方案融合得到整体的注视点位置,从而构建多目摄像机眼动追踪系统。

图2 实验流程

1.2 实验设计

每个摄像机都有单独的训练集和训练模型,估计的注视信息通过融合机制组合后输出被测用户整体的PoRs,设计方案如图3所示。该系统实验前不需要进行几何场景校准,具有特殊的优势。

图3 设计方案

实验开始前,被测用户依次用摄像机采集注视点坐标建立眼动数据集,并将得到的数据集依次用卷积神经网络进行训练得到每个摄像机的注视点估计模型,由此构建单目摄像机眼动追踪系统。记录被测用户相对每个单目摄像机的头部转动角度,基于头部姿态角对多个单目摄像机所采集的注视点位置信息进行加权融合,从而构建多目摄像机眼动追踪系统。

当多摄像机眼动追踪系统获得眼睛外观并提取局部特征后,该特征就被用于估计注视点输出。在本文中,注视估计基于卷积神经网络模型,使用图4所示的卷积神经网络模型来训练从低分辨率眼睛图像到注视点位置的映射。该模型由2个卷积层、2个最大池化层和1个全连接层构成,卷积层的激活函数为ReLU函数,全连接层的激活函数为Sigmoid函数,该模型将大小为(12,44,1)图像向量作为输入,最终通过学习输出线性回归层的预测。网络被训练来共同预测注视点位置的(x,y)坐标。

图4 卷积神经网络模型

2 多目摄像机眼动跟踪技术设计

2.1 眼动数据集构建

单目摄像机眼动追踪系统是基于深度学习原理,通过训练大量数据集对注视点位置坐标进行回归分析,因此实验前需先构建眼动训练数据集。不同被测用户所构建的数据集可以进行合并与互通,数据集内的数据量越大,则通过神经网络训练出来的模型鲁棒性越好。训练集的具体做法:被测用户在静态或自由头部运动条件下随机注视屏幕网格并获取该网格屏幕像素点坐标,摄像机记录下被测用户注视时的每一帧图像并从中裁剪出瞳孔图像,将被测用户的瞳孔图像作为输入特征,并将该像素点的位置坐标作为信息标签,以此作为放入卷积神经网络的向量。为避免被测用户造成人为误差及减小实验的偶然性,要求被测用户全面收集屏幕上的网格,并增加被测用户人数,若实验结果精度不佳,则酌情增加实验人数与训练样本直至实验结果符合应用要求为止。本文共采集10位被测用户的训练数据集一同放入卷积神经网络中进行训练。

为避免过拟合和减少训练时间成本,将得到的每一帧图像进行剪裁,裁剪方法为Haar级联分类器检测,其主要做法是首先使用Haar-like特征做检测,并使用积分图对Haar-like特征求值,最后使用AdaBoost算法训练区分人眼和非人眼的强分类器,然后使用筛选式级联把强分类器级联到一起,从而提高准确率。裁剪后的视频帧保留左右眼瞳孔周围图像,图像的标签为被测用户所注视的像素点坐标,如图5所示。

图5 数据集的特征和标签

将构建好的数据集放入卷积神经网络中进行学习训练,训练完成的模型可根据输入图像输出相应的注视点坐标信息。

2.2 头部姿态角估计

头部姿态估计是从数字图像或视频图像中推断出头部相对摄像机的平移和偏转运动。其关键步骤[16]包括:① 2D人脸关键点检测;② 3D人脸模型匹配;③ 求解3D点和对应2D点的转换关系;④ 根据旋转矩阵求解欧拉角。

头部姿态角估计精度的高低取决于人脸关键点检测精度,即是否能准确定位人脸面部眉毛、眼睛、鼻子、嘴巴、面部轮廓等多个部位的关键点。本文采用的是Guo等[17]发布的开源人脸关键点检测器PFLD,该检测器采用主干网络预测特征点和估计几何信息的分支网络组成的算法架构并设计新的损失函数,同时解决了针对局部变化、全局变化、数据不平衡、计算量大等问题,具有在复杂环境下检测精度高、运行速度快、模型轻量级的优势,其实用性经过相关领域专家的肯定。

推算出图像中头部的二维关键点后,需旋转三维标准模型至一定角度直到模型上三维特征点的二维投影与图像上的关键点重合,此时的旋转角度为所求的头部姿态角。本文使用的三维标准模型为C++开源工具包dlib库中的68标准点模型,该模型用68个特征点标志人脸的重要部位。可用基于梯度下降优化的非线性最小二乘估计来建立头部姿态角估计算法[18],其目标函数为

(1)

由于该算法较为成熟,在计算机视觉领域得到广泛认可与应用,且头部姿态的偏航角为本文首要研究对象,故只验证其偏航角的精度。令被测用户分别端坐于屏幕显示器前的A、B、C点(如图6所示),偏转头部至视线在屏幕显示器边缘,记录下此时由屏幕显示器中间的摄像机所记录下的图像并估计被测用户的头部姿态角。经多次检验,被测用户在A点时的偏航角在57°~61°之间,在B点时的偏航角在45°~48°之间,在C点时的偏航角在29°~31°之间。该结果符合本文对头部姿态角估计精度的要求。

图6 头部偏航角估计精度检验

2.3 基于头部姿态角的加权融合方案设计

基于头部姿态角的加权融合方案源于被测用户的注视习惯,即大部分被测用户在注视特定特征点时,首先会进行头部旋转以找到特定目标注视点的最舒适视角后再进行注视。当被测用户相对摄像机的头部姿态角越小,摄像机能捕捉到越全面、详细的瞳孔信息,从而预测注视点坐标时精度更高,因此,将头部姿态角作为确定注视点时的重要因素,其会影响加权融合方案的设计。由于屏幕显示器尺寸有限,被测用户在注视各个标准点时仅偏航角变化较大,因此本实验中只选取被测用户相对于摄像机的偏航角作为可靠性系数,其会影响加权融合方案的权重分配。可靠性系数的计算公式为

(2)

当头部相对摄像机的偏航角大于40°时,摄像机会丢失对瞳孔的捕捉,此时该计算机所估计的注视点位置不可靠,故将相对偏航角大于40°的摄像机的可靠性系数置为0。获得每个摄像机的可靠性系数后,计算分配给每个摄像机的权重,权重分配的计算公式为

(3)

基于分配的权重系数对每个摄像机的注视点位置进行加权融合得到整体的注视点位置,即多目摄像机眼动追踪系统评估得到的注视点位置,计算公式为

(4)

式中:λi为第i个摄像机的可靠性系数;αi为被测用户头部相对于第i个摄像机的偏航角;c为摄像机数目;ωi为第i个摄像机的权重系数;PoRi为第i个摄像机估计得到的注视点位置。

3 实验结果分析

每一次测试都要求被测用户依次注视标准点,每个注视点的注视时长为10 s,分别做10次测试。1次测试完成后可以导出5个数据表:4个单目摄像机数据表和1个多目摄像机数据表。单目摄像机数据表主要存储时间戳、每个单目摄像机估计的注视点位置和头部姿态角;多目摄像机数据表主要存储时间戳、加权融合后的注视点位置。一次测试中数据表约有100行数据,10次测试后,整合同一摄像机的数据表,约能得到1000行数据,对此数据进行处理分析。

3.1 单目摄像机性能评估

为准确分析确定每个摄像机的分配权重,需对单个摄像机进行性能评估。经实验测试,每个摄像机的精度与性能大致相同,在此选取具有对比意义的特定组数据进行展示与分析。根据被测用户的注视习惯,当被测用户注视标准点A、D、G时,被测用户的头部俯仰角约在0°、15°、30°之间浮动,因此令被测用户分别注视标准点A、D、G并得到注视点数据集以得到单目摄像机在垂直方向上的鲁棒性。图7为1号摄像机所估计的注视点坐标热点分布图,横纵坐标分别为注视点位置坐标的x轴和y轴,红点为标准点的确切坐标,红点周围的曲线代表可接受的注视点偏移程度,这个偏移程度是根据眼动仪可接受的误差、实验环境条件、应用场景要求而得到的,本实验的预期应用场景为飞行模拟器内驾驶学员的训练绩效分析,因此将偏移程度限制在据标准点5 mm范围内以满足能够检测到学员对各个仪表的注视情况的要求。定义精度为落入曲线内的注视点占总注视点的比例。

图7 被测用户分别注视A、D、G时的注视点分布热点图

从图7中可以大致看出摄像机精度随标准点离摄像机的垂直距离的增加而降低。计算每个注视点与标准点之间的距离,得到距离的概率分布直方图(如图8所示),横坐标为注视点与标准点间的距离,纵坐标为该距离在采样集里的概率分布,虚线为可接受误差距离。

图8 被测用户分别注视A、D、G时的距离概率分布直方图

如图8所示,单个摄像机的最高精度可达到90%,摄像机精度随标准点与摄像机之间的垂直距离的增加而缓慢降低,每次减少5%~15%,这是由于随着垂直距离的增加,被测用户相对摄像机的头部姿态俯仰角逐渐增大,摄像机能捕捉到的有效瞳孔信息有小部分被遮挡,导致摄像机不能有效分析注视点位置。

根据被测用户的注视习惯,当被测用户注视标准点A、B、C时,被测用户的头部偏航角在0°、30°、60°之间浮动,因此令被测用户分别注视标准点A、B、C并得到数据集以测试单目摄像机在水平方向的鲁棒性。图9、图10为1号摄像机所估计的注视点分布热点图和距离概率分布图,可以看出单个摄像机的精度随标准点与摄像机之间的水平距离的增加而大幅降低,并丢失眼动追踪功能。

图9 被测用户分别注视A、B、C时的注视点分布热点图

图10 被测用户分别注视A、B、C时的距离概率分布直方图

如图11所示,对比垂直距离和水平距离增加时的精度变化可以得出,单个摄像机相对于水平距离的鲁棒性极差,这是由于被测用户相对摄像机的头部姿态偏航角增大,单个瞳孔被面部五官全部遮挡,导致摄像机捕捉不到瞳孔信息,如图12所示。因此,当对多个摄像机进行权重分配时,应将头部姿态偏航角作为重要影响因子考虑进去。

图11 被测用户分别注视A、B、C、D、G时的精度折线图

图12 被测用户注视不同注视点时摄像机所拍下的瞳孔图像

3.2 多目摄像机性能评估

结合2.3节的加权融合方案得到表1所示的权重系数。

表1 被测用户注视不同标准点时摄像机所分配的权重系数和相对偏航角

可以看出,当被测用户注视不同的注视点时,随着偏航角的改变,每个摄像机所分配得到的权重也随之改变,偏航角越大,所得到的权重越小,当偏航角大于一定角度时,该摄像机所分配得到的权重为0。通过融合多个摄像机所估计的注视点得到新的数据点集,重新绘制其热点图与距离概率分布直方图,如图13所示。

图13 被测用户分别注视A、B、C、D、G时的注视点分布热点图和距离概率分布直方图

可以看出,多目摄像机系统对每个标准点的所估计的注视点精度在90%~95%之间,且随着头部姿态俯仰角、偏航角的增加,多目摄像机的精度不会受太大影响。当头部姿态角较小时,多目摄像机和单目摄像机的精度一致,当头部姿态角为30°时,其精度相比于单目摄像机提高了5%~15%,当头部姿态角为60°时,其精度保持不变,并保持眼动追踪功能,如图14所示。

图14 被测用户分别注视A、B、C、D、G时单目摄像机与多目摄像机的精度折线图

这是由于当被测用户因注视不同标准点导致头部姿态角过大时,单目摄像机丢失对瞳孔的捕捉,而对于多目摄像机眼动跟踪技术,当头部姿态角过大时该摄像机的权重系数会降低,将更多的权重分配给头部姿态角度小的摄像机,从而计算出更准确的注视点坐标。

因此,相比于使用单目摄像机,多目摄像机系统整体精度相对稳定,且对头部姿态角度的变化有较好的鲁棒性,可以灵活地测量用户的头部运动。

4 结束语

本研究针对目前存在的单个远程传感器视场小、容易被遮挡和基于外观的眼动追踪方法输入样本复杂、计算成本高的问题,进行了基于深度学习的多目摄像机眼动追踪系统及其算法设计。该系统硬件仅需要多个低分辨率摄像机,且摄像机的数目和位置可根据实验场景灵活调动,打破了实验空间布局的局限性,该系统先对被测用户的眼动信息和头部姿态分别进行评估,之后基于头部姿态角的加权融合方案得到精度更高的注视点位置信息,从而降低了算法的复杂度和运算成本。通过对实验结果分析得出,该系统能够高精度地估计被测用户的注视点位置,并对用户大角度头部运动具有良好的鲁棒性,在头部姿态角较大时,多目眼动追踪系统的精度仍保持在90%左右。由于目前在数据采集过程中仍存在人为误差,导致多目眼动追踪系统的精度仅能满足追踪飞行学员对飞行仪表的注视情况,在未来的研究中,拟将多目眼动跟踪技术与基于特征的眼动追踪方法相结合,采用红外摄像机来实现较暗环境下的眼动采集,从而达到更高的追踪精度,并应用于飞行模拟机上以探究该技术在模拟机复杂、幽暗环境下的适用性。

猜你喜欢

注视点单目眼动
眼动仪技术在里院建筑特色分析中的应用
基于单目视觉的分离图像分析方法
基于眼动的驾驶员危险认知
基于单目视觉车距测量方法综述
基于ssVEP与眼动追踪的混合型并行脑机接口研究
基于超复数小波和图像空域的卷积网络融合注视点预测算法
海豹的睡眠:只有一半大脑在睡觉
基于单目视觉的仓储物流机器人定位方法探讨
单目SLAM直线匹配增强平面发现方法
射击运动员的反向眼跳研究