基于视线追踪的军校心理测量应答倾向性识别与验证

2022-08-01李翊君林鑫鑫苗丹民

空军军医大学学报 2022年2期

吴靖，李翊君，毋琳，林鑫鑫，黄荷，方鹏，苗丹民

(空军军医大学军事医学心理学系： 1航空航天心理学教研室， 2教学实验中心，陕西西安 710032)

世界各国广泛采用心理检测技术选拔特殊人员，如飞行员、航天员、公务员、军事指挥员、特种驾驶员、潜水员、情报人员、运动员、狙击手等，并形成成套心理测验专项量表及标准[1]。传统心理选拔主要采用量表检测和面试选拔的方式，然而这种选拔方式受被试掩饰性和社会赞许性的影响，主观性强，标准难以统一[2]。因此，众多研究者开始尝试采用核磁共振、脑电图、眼动追踪等认知神经的方法对大脑的血流和电信号等进行测量，寻找意识活动的生物学标志物，并推测意识活动的内容和特点，从而进行人员筛查及选拔[3]。但是大脑神经活动与意识活动并不属于同质物理现象，认知神经指标与意识活动之间的关系尚不明确[4]。因此，对于人员筛查和选拔，我们还需从意识层面进行研究。现有的心理检测方式主要采用语言文字量表实现检测，语言是表达人类意识活动的直接产物，以语言为主导的人类心理测验，是特定情境下对意识探索最有效的手段[5]。为此，我们提出了多质融合心理检测技术的概念，即通过给被试呈现具有特定意识内容的语言刺激(如短语、量表、阅读材料等)，同步采集意识活动的认知神经指标(如眼动、脑电图、事件相关电位、表情、功能性磁共振成像等)，采用人工智能模式识别方法对心理测验中项目趋向态度的眼动轨迹、脑电图、微表情、躯体行为等特征及变化规律进行分析，构建量表项目应答倾向性识别模型，判断被试在心理测验量表项目上的真实态度，最后通过量表对被试的意识活动进行测量，从而避免掩饰性和社会赞许性回答，提高心理检测准确性。

眼动视线追踪是研究如何精确、无干扰地追踪人眼视觉过程的技术，具有非接触、无延时和操作简便的优势[6]。眼动暗示着大脑如何搜集或筛选信息，视觉信息的接收、搜索和提取特征与人的活动目的相关联，也就是与人的动机系统、态度体系相关联，是心理学研究的重要范式[7-8]。已经有研究开始采用眼动技术对抑郁症、精神分裂症、孤独症等精神疾病进行诊断[9-11]。因此，本研究将采用视线追踪来研究多质融合心理检测技术能否实现量表项目应答倾向性的准确识别。

1 对象与方法

1.1 对象

采取随机抽样的方法，通过广告招募了隶属于空军军医大学及附属医院的学生和工作人员70人，要求无精神病或家族精神病史，近视小于200度，自愿参加本实验。其中有3名被试在中途退出，实际完成实验被试67(男42，女25)人，年龄18～34(平均22.00±3.23)岁，接受教育时间(15.43±1.82)年。

1.2 方法

1.2.1 军人自杀风险筛查测验该测验一共33道题，使用的量表由空军军医大学军事医学心理学系武圣君编制，在全军范围进行了大规模施测和跟踪随访，具有良好的信效度[12-13]。该量表分为社交孤独、消极认知、生存信念和自杀风险四个维度，题目多是对个人内在信念、感知到的人际关系和个人特质的表述，表面效度高，具有较强的倾向性。在答题前要求被试按照个人实际情况进行答题。尽量确保作答选项是个人内心真实想法，符合个人实际情况。

在实验室施测过程中，每道题均采用两点计分法，并要求被试尽快完成答题，目的是采用迫选法使被试的态度尽量明确，减少犹疑和不确定。这样也有助于划分眼动数据，以量表的每个条目作为刺激材料，输出的判别参数越少，数据的稳定性越好。

1.2.2 眼动数据采集实验采用加拿大SR Research公司开发的Eyelink1000眼动仪。该设备由两台计算机组成，其中一台呈现刺激，另一台记录眼动数据。被试眼睛的注视情况通过红外摄像头输入计算机，采样频率为1 000 Hz。

实验材料呈现于19英寸显示器上，显示器的刷新率为60 Hz，分辨率为1 024×768 p。全部材料以白底黑字呈现在屏幕上，每一屏幕呈现一道题目，句子以左对齐的方式出现在注视点后，句首与注视点占位相同。所有汉字均以宋体20号字呈现。

1.2.3 实验程序 ①实验在主试的操作下对每个被试单独进行。②在被试进实验室前，主试向被试简要介绍实验目的、所用仪器、施测程序以及注意事项，并签署知情同意书。③被试进入实验室，熟悉实验室环境，然后坐在眼动仪前。主试对被试进行眼动校准，以保证被试眼动轨迹记录的准确性。实验采用遥测模式，最大程度地还原了征兵心理检测的原始场景。④实验流程如下：指导语呈现在屏幕的正中心，题目以上下居中、左对齐的方式呈现，起始点位置为(512，100)，选项“是”和“否”定位于屏幕下端，分别位于(188，550)和(491，550)处，校准注视点以白色十字呈现于黑色屏幕上，位置与条目起始点位置相同。当被试视线落在校准点时，主试方随即呈现下一题。被试阅读题目并做出选择(F键为“是”，J键为“否”)，按键后，呈现白屏，时间400 ms，以重置注视点[14]。⑤被试在电脑上答题完毕后，休息3 min，再由主试带至另一间实验室进行访谈，对每一道题，主试读出题目，并根据经验进行与题目相关的访谈，被试要按照自身真实态度，回答“是”或“否”或“不确定”，并进一步解释。对于明显异常的回答和被试表示犹疑之处，主试须进一步询问原因，并在试卷上做好标记。在数据分析时，考察这类题目对结果的影响。

1.2.4 机器学习算法眼动数据采集中，由于被试不可避免的生理活动给数据带来生理噪声。此外，系统噪声、矫正误差和个体差异等因素都会为眼动数据带来不利影响和无用信息。机器学习方法在特征提取与模式分类上有着独特的优势，可实现非线性高维空间的小样本精准识别。支持向量机(support vector machine，SVM)训练算法能组建一个将新样本分配到某一类的模型[15]。SVM模型寻找出空间中最优分类面以使得两类样本之间的距离最大。SVM方法根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳平衡，以期获得最好的推广能力，它能实现经验风险和置信范围的最小化，并能通过升高空间维度提高数据区分度，从而达到最佳的分类结果[16]。

本实验采用主成分分析(principal components analysis，PCA)算法对眼动指标进行特征提取，SVM算法对每道题的被试答题倾向性进行分类。由于本实验中样本量不大，因此我们采用留一交叉验证法(leave-one-out-cross-validation，LOOCV)策略来对SVM分类器的识别率进行估计。LOOCV是将原始数据中的一个观察数据作为验证数据，其余所有观察数据作为训练数据。这个过程反复进行直到所有样本都有一次作为验证数据。LOOCV是测试分类器性能的很好办法。因此，在本文中，分类算法采用简单高效的PCA与SVM算法，分类策略采用LOOCV，以减少样本数过少带来的负面影响。

2 结果

2.1 眼动数据处理与指标提取

使用SR Research公司自带软件DataViewer提取各兴趣区总注视时长、首次注视时长、首次加工时长、该兴趣区的注视次数以及各兴趣区停留时间的比值等18个指标，以每个试次的眼跳行为为对象，提取眼跳平均速度、眼跳峰值速度、眼跳加速度、眼跳时长和是否包含闭眼等5个指标，以及反应时、注视点个数、眼跳个数、眨眼次数、最长注视时长、最短注视时长、瞳孔大小等22个指标。合并题干区域、回答“是”区域、回答“否”区域，共计180个指标作为分类特征用于后续答题倾向性的分类。

2.2 答题倾向性分类

采用PCA与径向基核函数的SVM对每道题进行态度倾向性的分类，每道题答题倾向性分类识别率见图1，其均值为91.8%。

图1 分类识别率图

图2 题目分类识别率不足80%的置换检验评估分布图

3 讨论

由于答题动机和社会赞许性的存在，基于量表的传统心理选拔已遇到瓶颈，而基于核磁共振、脑电图等认知神经技术的心理选拔尚未成熟。我军因精神障碍造成的非战斗减员日益严峻，亟需更有效的筛查方法和工具。根据美国《精神疾病诊断与统计手册》(DSM-5)，现有精神障碍就能细分为22大类324诊断类别[17]。此外，心理选拔中还需要对人的性格、情绪、认知进行筛查[18]。基于认知神经技术的心理筛查尝试通过大脑血流、脑电等活动来判断被试精神障碍类别和认知能力，这在理论和技术上都是难以实现的。因此，本研究依据多质融合心理选拔技术理论，从判断被试答题倾向性出发，采用眼动和机器学习技术对被试量表答题过程中的真实态度倾向性进行分类，将对人群的多分类转换为对题目真实态度倾向性“是”与“否”的二分类，从而对被试选择的答案进行校正，减少答题动机和社会赞许性带来的影响，从而提高心理选拔的准确性和客观性。结果表明，多质融合心理选拔技术，在理论和技术上都是可行的。

眼动技术在多质融合心理选拔技术中具有非接触、无干扰、操作简便等显著特点，在心理学实验中有着非常重要的地位[19-20]，已经用于各类精神障碍的检测[21-23]。本实验结果验证了在心理检测中眼动追踪技术可以客观准确地判别被试在答题过程中的态度倾向性。我们设计了便携式眼动追踪仪结合普通计算机的一体式心理检测系统，该系统造价低廉、简单易用，并在征兵心理检测、军校学员心理检测以及空军军医大学全校师生心理检测中进行试用，心理访谈技术结果验证了眼动与机器学习技术可以对心理检测中被试答题态度倾向性进行判断。这些结果都说明眼动与机器学习技术可以在以后的心理检测中大规模应用，从而提高心理检测的准确性。

本实验采用PCA进行特征提取，SVM进行模式分类。PCA是无监督学习算法，算法结果只依赖于数据本身，独立于计算者；SVM是基于小样本统计理论的学习方法，能够利用核函数将高维空间复杂问题变为线性可分。因此，采用PCA与SVM的算法对于本实验中小样本数据达到了较好的分类识别率与稳定性。本实验中，对于33道题目态度倾向性的平均分类识别率达到91.8%，在剔除4道可能有问题的题目后，平均分类识别率达到96.1%(PT，P<0.0001)，证明了机器学习算法可以对被试答题的真实态度倾向性进行准确分类。

部分题目眼动模式的识别率较低，其原因可能与以下三点有关：①刺激材料的表述性。题目表述越明确，被试选择的一致性越高，而对于表述不够明确的题目，如第16题“我会在很长时间里回忆所遇到的不愉快的事情”识别准确率只有72.1%，源于被试认为从一天到几年都算“很长时间”。访谈发现即使大部分被试对该题都持否定态度，但答题时眼动存在显著差异。②被试来源的同质性。被试主要在空军军医大学通过招募获得，具有较强的同质性，没有太多负性生活事件的冲击。第17题“我的不幸起因于我所犯的错误”，考察的是被试归因方式，但一部分被试之所以选“否”，不是否定存在消极的归因方式，而是否定曾有过不幸的生活经历。原本作为自杀风险评估的第27题“死亡的痛苦让我感到害怕”，考察被试求死意志。然而访谈发现，作为医学生，他们能处理与死亡有关的课题。同样，识别率不理想的第26题“我觉得自己有能力或勇气伤害自己”，有1/3的被试访谈回答“是”和“不确定”，认为自己有能力，但未必有想法和勇气。在识别率最低的第33题“我比大多数人都能忍受更强的疼痛”上，回答最分散，选“否”的被试有基于身为医学生对处理疼痛的信心，更有身为军人具备尚武和牺牲精神的群体血性。③被试样本量小。特别是经历过自杀或有过自杀想法的人群太少，部分题答案选择出现严重偏态化分布，对机器学习带来一定的误差。因此，在本次实验的基础上，下一步计划用更具普遍性的题目，招募更多不同层次来源的被试以做进一步验证。