APP下载

基于脑电和眼动信号的人机交互意图识别

2021-03-26王崴赵敏睿高虹霓朱帅瞿珏

航空学报 2021年2期
关键词:脑电眼动准确率

王崴,赵敏睿,高虹霓,朱帅,瞿珏,2,*

1. 空军工程大学 防空反导学院,西安 710051 2. 西北工业大学 航空学院,西安 710072

提高飞行器人机交互系统对飞行员的意图感知和状态识别能力是飞行器人机交互智能化的关键目标之一[1],可为自适应飞行器人机交互系统设计提供理论依据和技术支持,并减少操作过程中的人为差错[2]。人机交互意图指的是用户在进行计算机系统操作时的目标和期望,传统人机交互意图识别方法主要依靠脑电信号或眼动信号。

脑机接口(Brain-Computer Interface, BCI)是脑电信号的应用形式,可在人脑与外部设备建立通信关系,进而通过大脑控制外部设备[3-5]。BCI已经应用在医学[6]、神经生物学[7-8]和心理学[9-10]等领域。运动想象(Motor Imagery, MI)脑电图(Electroencephalogram, EEG)具有灵活、非侵入性、环境要求低和分辨率高的特点,因此MI是BCI广泛应用的形式之一[11]。运动想象过程中EEG信号的频带功率会随MI任务的内容变化,这被称为事件相关的同步化和去同步化(Event Related Synchronization/Desynchronization, ERS/ERD)[12],ERS/ERD的产生与内部或外部事件相关,当人的一侧肢体进行运动或进行运动想象时,大脑对侧的感觉运动区μ节律和β节律能量减少,同侧运动感觉区μ节律和β节律能量增加。这种规律使得ERS/ERD控制外部设备或进行运动想象意图识别成为可能[13]。蒋贵虎等基于固有时间尺度分解和支持向量机(Support Vector Machine, SVM)算法对第3届BCI竞赛的Dataset Ⅲa数据集和第4届BCI竞赛的Dataset 2a数据集进行了分类,最终分类结果分别达到94.65%和90.63%[14]。徐宝国等设计实验通过MI控制机械臂完成连续抓取任务,成功率达到85%[11],但这些意图识别方式都仅依赖脑电信号,没有融合眼动信号的优点,识别准确率有待进一步提高。

研究表明,视觉通道提供给人80%以上的外界信息[15],近年来,有许多学者依据人的视觉行为对用户人机交互意图进行研究。Deng和Gu利用眼动数据分析用户的行为意图和情感体验[16],赵其杰等通过检测眼睛与头部动作确定用户交互意图,其中注视意图关注区域正确率为92%[17]。此外,眼动追踪还广泛应用于用户交互行为分析[18]、用户视觉搜索分析[19]和视觉刺激兴趣分析[20]等领域,这些方法仅依靠眼动信号,没有融合脑电信号,未能充分利用脑电信号对人脑认知状态的分析。

近年来,很多学者尝试将多生理信息进行融合,以期提高人的搜索意图、动作意图或认知状态识别准确率。Park等融合脑电和眼动信号对人在视觉搜索过程中的隐式交互意图进行识别,发现融合脑电和眼动信号识别准确率比依靠单一生理信号准确率高5%左右[21]。Postelnicu等融合眼动、脑电和手势特征对6自由度机械臂进行操控,结果显示,可用性量表(System Usability Scale, SUS)分数高于平均水平[22]。谢平等融合脑电、心电和肌电信号对驾驶疲劳进行评估,结果表明多生理特征融合识别准确率明显高于单独生理信号识别率[23];融合脑电信号与肌电信号对动作模式进行识别,结果表明,脑肌电融合信号识别正确率为98%,高于单纯依靠脑电特征识别的准确率75%[24]。这说明多生理信号融合可提高对人认知和意图的识别准确率,但上述研究未涉及人机交互意图识别。

综上,本文提出了基于脑电、眼动信号特征融合并引入决策层融合的人机交互意图识别方法,可在用户进行人机交互时进行意图识别。具体实现过程为:采集用户脑电和眼动信号进行特征提取;采用模式识别算法对生理信号特征进行分类识别;对分类器分类算法进行决策级融合得到最终结果,设计用户意图诱发实验,验证方法可行性。本文还比较了不同脑电特征提取方法和不同机器学习算法对识别准确率的影响。

1 多生理信号特征提取

1.1 脑电信号特征提取

1.1.1 基于小波变换的脑电信号特征提取

小波变换(Wavelet Transform, WT)采用联合时间-尺度对原始信号进行分析,通过随机改变频率窗和时间窗同时获得较好的时间分辨率和频率分辨率,适用于处理非平稳信号,如脑电信号。

现有研究表明,运动想象的ERS/ERD特征主要出现在α波、β波和γ波3个波段,因此这3个频段的脑电波被广泛应用于运动想象评估。本文拟通过提取小波能量系数和小波熵作为脑电信号特征。

本文选用Daubechies 4小波基函数对采样频率为128 Hz的脑电信号s(t)进行3层离散小波变换,s(t)的离散小波变换定义为

〈s(t),φj,k〉j,k∈Z

(1)

(2)

式中:l′为小波分解层数;Al′为低频分量;Dj为不同频率下的细节分量,具体频带范围如表1所示。

表1 各子带信号对应频率范围Table 1 Frequency range of sub-band signals

各子带对应近似系数cAl′,小波系数cDj。单一尺度下小波能量Ei定义为该尺度下小波系数的平方,因此,总小波能量的定义为

(3)

(4)

小波熵可反映原信号在不同空间分布的有序程度,因此可用于定量描述原信号在时域上的能量分布特征。

1.1.2 基于共空域模式的脑电信号特征提取

共空域模式(Common Spatial Patterns, CSP)算法在基于ERS/ERD的脑电信号分析中被证明十分有效,但CSP模式算法是针对二分类问题提出的,因此针对多分类问题,需要对CSP算法进行改进,对任意2类进行一一比较。CSP通过对原始信号进行空间投影,找到最佳投影方向,满足第1类信号在某方向方差最大,第2类信号方差最小,得到2类差别最大的投影方向。

设E为去除直流成分处理后的脑电信号矩阵,维数为N×T,其中N为脑电数据通道数目,T为每个通道的采样点数。则脑电数据的平均协方差矩阵为

(5)

式中:trace(EET)为矩阵EET的迹。平均协方差矩阵之和为

Cc=C1+C2

(6)

对Cc采用特征值分解,有

(7)

I=PCcPT

(8)

式中:I为单位矩阵。对C1、C2进行变换,有

Si=PCiPTi∈{1,2}

(9)

式中:S1、S2有相同的特征向量,且对应的特征值和为1,换言之,在S1最大特征值的方向上,S2特征值取得最小;反之,在S1最小特征值的方向上,S2特征值达到最大。

S1=Bλ1BT

(10)

则有

(11)

投影矩阵W为

W=BTP

(12)

式中:B为任意与λi(i∈{1,2})乘法相容的矩阵。可以看出,W为N×N阶矩阵,原始信号E通过投影,得到新信号

Z=WE

(13)

选取经过W投影的信号前n行和后n行共2n行新信号进行如下变化,得到最终特征值:

(14)

式中:Zj为矩阵Z的第j行;var(Zj)为Zj的方差。

对3类信号中每2类都采用CSP进行处理,可得3个投影矩阵W,对每个矩阵W前后各选取4个最佳方向,共8个最佳方向,可得3×8=24维特征向量。然后采用Fisher判别法进行降维,可将24维特征向量降为3维特征向量。此处最佳方向的选取数量和降维后特征向量的维数选取是依据反复实验确定的,选取了分类效果最好的参数。最后,采用贝叶斯分类器,根据先验概率思想对降维后的特征进行分类:

(15)

式中:P(yi)为标签为i的数据先验概率;P(yi|f)为特征为f的样本属于第i类的后验概率;P(f|yi)为第i类样本产生特征f的似然比。分类结果为后验概率最大的i;C为数据类型总数。

1.2 眼动信号特征提取

本文采用RED-M型眼动仪采集眼动数据,采样频率可达60 Hz。眼动特征可以反映用户的眼动行为。本文中采集了注视点X坐标(Fixation pointXcoordinate,FX)、注视点Y坐标(Fixation pointYcoordinate,FY)、瞳孔直径(Pupil Diameter, PD)、注视时间(Fixation Time, FT)和眼跳幅度(Saccade Amplitude, SA)5个生理特征进行分析。由于眼动指标反映的认知状态并不完全确定,因此,本文所提到的眼动指标和认知状态的关系仅对类似实验环境和实验任务有效。

FX和FY表征用户在进行人机交互时的注视点X方向和Y方向的坐标,可以反映用户在屏幕上的注视点位置[24]。

PD可作为反映用户实时认知负荷的指标之一,当认知负荷增大时,瞳孔直径增大;反之,瞳孔直径减小,因此该指标可反映用户认知状态[25]。

FT可反映用户对视觉信息处理的难易程度,当用户面对复杂信息时,处理时间会加长[26],因此该指标可反映用户的认知状态。

SA通常反映为注视点之间跳动幅度,可反映用户对视觉信息的难易程度,当用户对视觉信息进行粗加工时,眼跳幅度较大;反之,当用户对视觉信息进行精加工时,则眼跳幅度较小[27-28],因此可以反映用户的认知状态。

2 基于SVM-DS的数据融合分析

2.1 SVM分类算法

SVM分类算法是一种基于统计学习理论的机器学习分类算法,与普通寻优算法追求经验风险最小不同,SVM算法通过追求结构化风险最小提高了算法的泛化能力,最小化经验风险和置信范围,较好地解决了小样本条件下模式识别算法中的过学习、模型选择、维数灾难和非线性问题。该算法的基本思想是找到使2类之间分类间隔最大的最优分类平面。

设样本集为

D={(x1,y1),(x2,y2),…,(xl,yl)}

xi∈R,yi∈{+1,-1}

(16)

式中:l为样本数目。则分类平面为n维超平面,可表示为

〈w,x〉+b=0

w∈Rn,b∈R,x=[x1x2…xl]

(17)

则分类间隔为2/‖w‖,显然,‖w‖取最小值时,分类间隔达到最大。因此,求最大分类间隔可转化为求如下的约束优化问题

(18)

当问题线性可分时,解向量w*即支持向量,SVM的分类功能由支持向量决定。支持向量机即描述最优分类超平面的决策函数,可表示为

f(x)=sgn(〈w*,x〉+b)

(19)

当问题线性不可分时,通常采用将样本非线性变换投影到高维空间的方法,使样本在这个高维特征空间可分,根据Mercer条件,此时决策函数为

(20)

式中:K1(x,xi)为核函数;αi为拉式乘子。

2.2 D-S证据理论

D-S证据理论是Dempster提出,由Shafer完善的一种不精确推理方法,可用于处理不确定信息,且需要的条件比贝叶斯概率论更弱。该理论不但能处理由不精确先验知识产生的不确定性,而且可以处理由不知道产生的不确定性。

设Θ为识别框架,m为区间[0,1]上的可信度分配函数,也称Mass函数,表示证据支持事件A发生的程度。m(∅)=0,且满足

(21)

对于∀{A,B,C}⊆Θ,根据Dempster合成规则,Θ上任意2个Mass函数m1、m2的合成方法为

(22)

(23)

对于∀A⊆Θ,根据Dempster合成规则,Θ上任意有限个Mass函数m1,m2,…,mn的合成方法为

m(A)=(m1⊕m2⊕…⊕mn)(A)=

(24)

(25)

2.3 决策级融合的人机交互意图识别

决策级融合的流程如图1所示,首先对采集到的生理信号进行预处理和特征提取,得到对应生理信号的特征向量,然后对脑电和眼动信号特征向量分别采用分类器进行分类,最后将各分类器分类结果采用D-S证据理论进行融合,得到决策层融合结果。

图1 基于SVM-DS理论的决策级人机交互意图识别原理图Fig.1 Diagram of decision-level human-computer interaction intention recognition based on SVM-DS theory

假设A1,A2,…,Ak为k种认知意图,通过n类生理信号进行了分类,则识别框架为

Θ={A1,A2,…,Ak}

(26)

每一种生理信号特征的识别算法对各类型意图可信度分配函数为

mi(A1,A2,…,Ak,Θ)=

(piqi1,piqi2,…,piqik,1-pi)

i=1,2,…,n;j=1,2,…,k

(27)

式中:pi为第i种生理特征识别算法正确率;qij为第i种生理特征识别判定样本为第j种认知意图的可信度。

对于识别框架Θ中任意认知意图Aj,采用多生理特征分类结果的Dempster决策规则为

m(Aj)=(m1⊕m2⊕…⊕mn)(Aj)

j=1,2,…,k

(28)

由式(27)、式(28)和式(23)可得

(29)

(30)

式中:算法正确率pi通常可取训练集样本正确率,采用D-S决策级融合交互意图判别方法不仅可以输出未知样本的类别,还可以输出样本属于每一类的概率。D-S证据理论中可信度分配赋值问题通过机器学习算法训练得到的总体分类正确率得到了有效直观的解决。

3 实验与结果分析

3.1 实验设置

为验证所提出的人机交互意图识别方法的科学性和有效性,需要采集用户在进行人机交互时的脑电和眼动数据。本文招募男性用户22人(其中2人因数据采集率低于50%不能作为有效受试者),年龄范围为18~22岁(均值M=22.3,标准差SD=1.8)。在实验前每位用户都熟悉了实验流程和注意事项并签署了知情同意书。

实验环境如图2所示,实验中保持窗帘关闭,每次实验只允许实验用户和操作人员进入并关闭其他电子设备,以消除光线变化和其他电磁信号的干扰。实验设备包括DELL计算机、RED-M型眼动试验仪(SMI Company, Berlin, Germany)和Neuroscan NuAmps 32导脑电仪(Synamps2, Scan4.3, EI Paso, USA)。眼动信号采样频率为60 Hz;显示器分辨率为1 280 pixel×1 024 pixel, 屏幕亮度为300 cd/m2;被试用户与屏幕距离大约60 cm,被试用户双眼与屏幕中心大致处于同一高度。脑电仪电极分布采用10-20国际标准导联系统,选取左侧乳突为参考电极,中前额叶为接地电极,采集垂直和水平2个通道眼电信号,采样频率为250 Hz,进行50 Hz陷波和0.05~10 Hz在线带通滤波,并确保电极阻抗小于5 kΩ,采集信号后对肌电和眼电伪迹进行剔除,电极具体位置如图3所示。

本文采用经典运动想象实验范式,如图4所示,操作想象开始前屏幕呈现“放松”字样,持续2 s,被试用户放松心情准备开始;随后屏幕呈现“准备”字样,持续1 s,提示用户准备开始操作想象;接下来,屏幕呈现操作界面,实验界面如图5所示,用户操作包括“向左移动”“向右移动”和“发射导弹”,需要进行用户操作想象时图标会转变为黄色,用户根据提示的不同进行不同的操作想象。每次操作想象总时间为9 s。

图2 实验环境Fig.2 Experimental environment

图3 电极位置Fig.3 Physical location of electrodes

图4 运动想象实验范式Fig.4 Experimental paradigm of motor imagery

图5 运动想象实验界面Fig.5 Experimental interface of motor imagery

3.2 结果分析

在3.1节的实验中,本文采集了注视点X坐标(FX)、注视点Y坐标(FY)、瞳孔直径(PD)、注视时间(FT)和眼跳幅度(SA)5项眼动参数,将FX与FY合成一类特征,作为注视点位置特征。将提取到的被试用户4类眼动特征作为算法分类依据,将20名受试对象的眼动数据进行预处理和特征提取后60%作为训练集,40%作为测试集,用SVM算法进行操作想象分类,分类准确率如表2所示。从表2中可以看出,眼动指标数目越多,识别准确率越高,且注视点位置特征对准确率影响更大。这说明注视点位置特征可较好反映用户的意图,但由于实验中注视点不稳定,因此需要结合其他眼动特征提高识别可靠性。本文选取的5项眼动特征对认知意图实验的准确率可达87.42%, 说明眼动指标的选取是有效的。

为了探究不同机器学习方法和数据预处理方法对人机交互意图识别的影响,本文选取SVM、WT+SVM、CSP+SVM、CSP+Fisher这4种方法对20名受试者脑电数据集进行识别,60%作为训练集,40%作为测试集,最终得到每名受试者识别准确率如图6所示,图中纵坐标为脑电数据处理方法,横坐标为分类准确率(Accuracy, ACC),P1~P20为受试者编号。可见对于不同受试者,算法识别的准确率与标准差略有不同。识别算法的识别结果如表3所示,CSP+SVM算法识别准确率显著高于另外3种算法(假设检验显著性水平P<0.05),且这种方法的标准差最小,说明该算法的敏感性低,泛化能力强,适合对脑电数据进行处理。表3中前2~4列为采用SVM算法对脑电的分类结果,从识别准确率看,同样采用SVM算法的条件下,采用WT方法和采用CSP方法平均识别准确率均显著高于不采用特征提取方法的平均准确率(方差分析F(2,57)=18.35,P=0.000 3<0.05)。表3中后2列为同样采用CSP特征提取方法对脑电数据的识别结果,从识别准确率看,SVM算法的识别准确率显著高于Fisher算法识别准确率(F(1,39)=9.016,P=0.004 7<0.05)。

表2 不同特征组合下的眼动分类预测准确率

图6 不同受试者识别准确率Fig.6 Recognition accuracy of different participants

表3 不同脑电处理方法下的平均分类预测准确率

本文对于脑电数据采用CSP+SVM方法进行预处理后对SVM算法进行训练,对于眼动数据进行特征提取,选取注视点位置(FX&FY)、瞳孔直径(PD)、注视时间(FT)和眼跳幅度(SA)4类眼动特征采用SVM算法进行训练,采用交叉对比法确定SVM算法参数,训练集识别结果见表4。

由D-S理论,本实验中3种认知意图构成一个识别框架Θ={左移,右移,发射导弹},采用表4中20名受试者样本平均值作为识别准确率,则有{p1,p2}={0.874,0.770},眼动和脑电识别方法由不知道而产生的不确定性为{m1(Θ),m2(Θ)}={0.126,0.230}。将与训练样本对应的测试样本分别进行SVM算法单独分类和基于D-S理论的决策级融合分类,识别结果如表5所示。

实验结果表明,测试样本识别率较训练样本有所下降,但降幅不大,眼动数据准确率下降0.99%, 脑电数据识别准确率下降0.72%,这表明SVM算法具有较强的泛化能力。比较眼动与脑电数据识别准确率,发现眼动数据识别准确率显著高于脑电数据识别准确率(P<0.005),说明眼动数据对人机交互意图识别准确率高于脑电数据。基于D-S证据理论对数据进行决策级融合后识别准确率最高可达96.03%,平均识别准确率可达92.34%, 高于仅依靠眼动或脑电数据的识别准确率,且数据识别准确率标准差仅为1.82, 表明基于D-S理论的数据融合方法对样本敏感性低,泛化能力强,验证了D-S理论在多生理信息的意图识别方面有优势,从图6和图7中也可看出基于D-S证据理论的决策级融合方法具有准确率高、对样本敏感性低、泛化能力强的特点,可用于下一步飞行器和武器系统人机交互系统自适应设计。

表4 训练集脑电和眼动数据识别准确率

表5 基于D-S理论的分类识别准确率

图7 不同脑电处理方法识别准确率Fig.7 Recognition accuracy of different EEG processing methods

4 结 论

1) 采用眼动信号特征越多,识别准确率越高,采用(FX&FY)&瞳孔直径&注视时间&眼跳幅度组合的人机交互意图识别准确率可达87.42%。

2) 4种脑电特征提取方法中,CSP+SVM方法识别人机交互意图准确率最高,平均准确率可达76.81%。

3) 提出了基于D-S证据理论的脑电眼动信息融合人机交互意图识别方法,能够识别用户的人机交互意图,平均准确率可达92.34%。基于D-S证据理论的脑电眼动信息融合人机交互意图识别方法具有准确率高、泛化能力强的特点。

[21] PARK U, MALLIPEDDI R, LEE M, et al. Human implicit intent discrimination using EEG and eye movement[C]∥ International Conference on Neural Information Processing, 2014: 11-18.

猜你喜欢

脑电眼动准确率
认知控制的层级性:来自任务切换的脑电证据*
基于脑电通道增强的情绪识别方法
基于眼动的驾驶员危险认知
工作记忆负荷对反馈加工过程的影响:来自脑电研究的证据*
基于成本最小化信息的社会性意图识别:来自脑电和行为的证据*
基于ssVEP与眼动追踪的混合型并行脑机接口研究
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
多层螺旋CT技术诊断急性阑尾炎的效果及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
颈椎病患者使用X线平片和CT影像诊断的临床准确率比照观察