多模态交互的车内即时通信应用可用性评价

2022-12-20马钧潘维涛徐雯霞

北京理工大学学报 2022年12期

马钧，潘维涛，徐雯霞

（1. 同济大学汽车学院, 上海 201804；2. 同济大学设计创意学院, 上海 200092）

在汽车的智能网联化趋势下，智能座舱的产品定义越来越强调以用户需求为导向. 车内好用的即时通信应用成为必不可少的功能，市场上也陆续出现多款搭载了微信或相似功能的车型.

目前的车内即时通信应用，集成了汽车人机界面主流的交互模态，包括实体按键式、触屏式和语音式等. 丰富的交互方式可以让驾驶者有更便捷的体验，但根据多重资源理论，使用即时通信作为驾驶次任务，必然会占用驾驶者的视觉、听觉和行为资源，进而对驾驶绩效造成负面影响. 与之相关的驾驶分心已被认定为造成碰撞等交通事故的重要因素，各项研究表明驾驶分心直接导致道路交通事故的比例占近三成[1]. 更有研究发现，使用车载信息娱乐系统结束后，驾驶员注意力的削弱是持续的[2].

驾驶次任务造成的驾驶分心是汽车人机界面必须解决的问题. 既保证功能的易用、好用，又尽可能缓解驾驶分心程度，对于汽车人机界面设计是极为重要的. 可用性的综合评价，能帮助人们从整体层面判断体验的好坏，同时也能有针对性地发现细节问题. 本文将以车内即时通信应用作为切入点，在不同交互任务下，对各类交互模态进行可用性的评价研究.

1 可用性评价指标体系

1.1 可用性的评价原则

ISO 9 241 对于可用性有明确的定义，即特定用户在特定的环境下使用产品实现特定目标时的效用、效率和满意度[3]. 其中，效用指该产品让用户正确、完整地实现特定目标，效率指用户在实现特定目标过程中所耗费的资源，满意度源自使用者的主观感受，是贯穿于整个体验过程的. 特定的环境则表明，在不同环境下的交互界面会呈现不同的可用性特征.汽车人机界面所处的驾驶环境区别于其他静态人机界面，其可用性必须以保证驾驶主任务的顺利完成为前提，因此安全性是重要的评价原则. 由此总结出多模态交互的车内即时通信应用可用性原则：

①明确易操作：合理排布信息，交互过程中给予引导、提示和反馈，保证用户在操作时能正确、安心地完成目标任务.

②高效实用：以尽可能少的步骤和短的时间解决用户的问题，使其能快速方便地达成任务目标.

③安全：在驾驶过程中完成交互任务时，不会引起较大程度的驾驶分心，保证驾驶员的车辆操控.

1.2 评价指标的定义

基于已确定的可用性原则，将评价体系划分为易用性、高效性和安全性3 个一级指标. 在每个一级指标下，需要确定若干个可测量的二级指标，且这一系列二级指标能综合全面地反映该维度的实际表现.

1.2.1 易用性

NIELSEN[4]将产品的使用易用性分为5 个属性：易学性、高效性、易记忆、少犯错和满意度，易学、易记忆等属性完全是主观感受，在实际评价中难以从客观层面进行判断. 马钧等[5]对于易用性的研究较全面，其将汽车人机界面可用性中的易用性层面划分为可视性、分组/区分、可辨性、反馈、提示和避免错误等7 个二级指标. 由明确易操作这一原则指导的易用性，应充分涵盖主客观两方面. 操作错误率直接反映“效用”，而信息的可感知、可读性、清晰且合理，以及界面的流畅等界面设计属性，都能让用户对易操作形成主观认知. 故本课题选择可实际测量且存在客观评价对象的操作错误率、反馈可感知度、图标可读性、信息呈现清晰、信息排布合理和操作流畅度等6 个指标来评价易用性.

1.2.2 高效性

高效性涵盖了完成任务的时间及所花费的精力.何佳杰[6]在对汽车人机交互（human machine interface，HMI）的可用性研究中，将高效性拆分为客观和主观两个维度，其中客观维度用任务完成率、错误率、完成时间和手部操作位移4 个指标进行评价，主观维度用心率变异性、平均注视时间、瞳孔直径和注视点数4 个指标进行评价，涵盖了操作效率所涵盖的时间资源和视觉资源概念. KUJALA[7]对于车载信息娱乐系统交互研究中，也使用了注视点数和任务时间等评价操作效率. 此外，在驾驶过程中，过多的操作步数即使在不影响时间和视觉资源的情况下，也会引起过高的脑力负荷而造成认知资源的低效. 另外，由于大多车内即时通信应用是通过改造手机端微信而来，故用户在车内使用该应用的习惯程度也能很大程度上影响到效率. 而心率、瞳孔等生理数据与高效性之间的相关性较模糊，也不方便量化评价，故本课题不作考虑. 最终选择任务耗时、操作位移、注视点数、操作步数和用户习惯度共5 个指标来评价高效性.

1.2.3 安全性

驾驶绩效是驾驶安全最直接的反映，而驾驶分心会使得车辆的横向和纵向运动均产生较大波动，表现为无法将车辆始终保持在车道中央，并始终保持合适的车速和车距行驶. 孙博华等[8]通过本车急动度、加速度等纵向运动指标和侧向位移、侧向速度等横向运动指标来综合描述驾驶员的驾驶能力.为避免二级指标间相关性过强，并要求实验中单一指标的计算量应适中，故选择车速保持标准差、车道偏离标准差2 个指标衡量驾驶绩效.

影响驾驶绩效的因素又可以分为4 类，分别是视觉、听觉、行为和认知分心，在驾驶任务中，有80%的信息需要占用驾驶员的视觉通道，所以视觉资源对驾驶绩效最为关键[9]. 本课题应用了模拟驾驶仿真环境，用户需要重点关注前方道路和车内环境2 个区域，偶尔会关注到车窗外两侧，所以本课题将驾驶员的视野分为3 个区域，如图1 所示. 当驾驶员的视线落在区域1 和区域3 时，可以视作其对当前车况环境的合理观察. 而对区域2 的关注时间、反复观察次数和关注范围，都会造成不必要的视觉负荷，因此相应地选择视线偏移、回顾次数和注视点数作为评价安全性的另外3 个指标.

图1 本课题的驾驶员视野区域划分Fig.1 The division of the driver’s field of view

各二级评价指标的详细定义见表1.

2 实车测试

2.1 实验方法

综合考虑成本、场景可设计性、可复现性和安全性等多方面因素，本课题将在驾驶模拟平台上进行人机工程学实验，驾驶员需要在模拟驾驶过程中使用多模态交互的车内即时通信应用完成各交互任务. 同时，本课题还将通过车内静态测试对部分可用性指标进行评价.

2.2 实验设计

2.2.1 实验被试

本实验共招募了5 位测试员，其中男性2 名，女性3 名，均满足以下条件：

①持有有效驾照且驾龄不低于1 a，每周驾驶次数超过2 次； ②普通话水平良好，无明显的平翘舌音、前后鼻音、结巴等问题； ③身体健康状况良好，无高血压、眩晕症、精神疾病等问题； ④视力正常，能被眼动仪准确识别.

2.2.2 实验设备

刘雨佳等[10]基于Unity 3D 平台和一系列显示界面搭建了简易的模拟驾驶器，并初步验证了模拟驾驶对于HMI 测试的合理性. 本课题则创新性地设计并搭建了实车模拟驾驶平台，见图2，该测试平台由以下4 部分组成：

图2 实车模拟驾驶HMI 测试平台Fig.2 HMI test platform for real-vehicle driving simulation

①直径8 m、视角240°的环形屏幕，由5 台高清投影仪投射画面.

②基于Unity 3D 平台搭建的模拟驾驶环境，所有道路的定义和设计都基于真实的中国道路场景.本次实验选择其中一条13.8 km 的实验路线，包括城市道路（6.5 km）、高架道路（3.5 km）和郊区道路（3.8 km）.

③快速接入系统，可以将量产乘用车快速连接至模拟驾驶环境，通过前轮固定转盘、加速踏板、制动踏板等位置的角度传感器，让驾驶员能够操控真实车辆在模拟环境中行驶.

④数据采集系统，可以获得车辆数据、道路数据和生理数据. 其中，车辆数据包括加速、制动、方向盘转角等，来自快速接入系统. 道路数据包括行车速度、车道偏离等，来自模拟驾驶环境. 生理数据为眼球的动态数据，包括注视位置、注视时间等，来自SMI ETG 2W 眼动仪.

2.2.3 实验过程

在正式实验前，首先需要向测试员介绍基本实验流程、核对信息、进行普通话与视觉测试等.

正式实验环节主要分为5 个阶段：适应性练习，熟悉模拟驾驶平台和眼动仪；交互方式练习，熟悉即时通信应用各交互方式的使用；无任务驾驶，在没有任何干扰下在模拟驾驶平台上驾驶车辆；有任务驾驶，驾驶员驾驶车辆的同时，在测试人员的指令下，依次通过不同交互方式完成特定的交互任务；主观评价，完成所有任务后，测试员即刻进行主观评分.完整实验过程见图3. 整个实验过程中，实验人员坐在副驾驶位置，并利用架设在天窗的Go Pro 摄像机记录实验全程.

图3 实验过程Fig.3 Test process

2.3 交互任务

目前车载微信类应用能提供的功能较为有限，包括接收并播报消息、回复消息、语音通话和导航至定位等. 其中语音通话这一任务可以视为前两类任务的组合，为避免重复，本课题最终确定了可用性评价的研究适用任务：①播报微信消息；②回复微信消息；③导航到所接收的定位地址.

3 可用性评价模型

可用性受到指标体系中众多因素的共同影响，且每个因素的影响程度并不相同. 层次分析法（analytic hierarchy process, AHP）能明确反映出每一层次和因素的影响权重，但评分专家的主观认知又很难准确反映出普通用户的真实体验. CRITIC 法则仅由数据的客观表现所决定，是通过真实实验数据的对比强度和冲突性指标来得到权重向量的[11]. 为尽量消去赋权过程的主观性，本研究将引入CRITIC 法进行修正，最终权重由AHP 和CRITIC 权重综合计算得到.

3.1 基于AHP 的权重

本课题邀请了4 名从事车内交互研究的专家、3名具备2 a 以上汽车HMI 研究经验的硕士或博士研究生、3 名具备10 a 以上驾龄的普通驾驶员组成10人评价小组，以调研问卷并结合访谈的形式，应用9标度法分别对各级指标进行两两比较打分. 最后对每个人的打分结果进行均值处理，得到每层指标的判断矩阵B=

依据BW=λmaxW求得其最大特征值 λmax和对应特征向量W. 一致性指标和一致性比率分别为（平均随机一致性指标RI查表可得）：

由式(1)～(2)判断其一致性，符合一致性条件后，将权重向量W进行归一化后得到一级指标基于AHP的权重向量=[25% 25% 50%]T.

使用相同的方法确定二级指标基于AHP 的权重向量为

并计算层次总排序的CI=0.009,CR=0.008＜0.100，一致性检验通过.

3.2 基于CRITIC 的权重

在实车测试中，共得到15 个评价指标在26 组评价实验（3 款量产车型，另加开车过程中使用手机×3个交互任务×3 类交互模态，部分车型不提供语音/触屏交互）所组成的评价矩阵X.

对于逆向指标，使用负数法进行正向化处理，

量纲一化方法则根据指标的主客观差异而有所不同. 对客观指标使用极值处理法，见式(4)，

对主观指标采用当前各国对于顾客满意度指数（customer satisfaction index, CSI）主流的标准化处理，方式[12]为

随后用积差方法计算每个指标与其他指标之间的相关系数为

进而可以求得各指标的信息量：

式中 δj为各指标的标准差.

通过信息量的归一化，即可得到各指标基于CRITIC 的客观权重值：

经式(3)～(8)计算，可确定所有二级指标基于CRITIC 的权重为

3.3 综合权重

综合考虑基于AHP 的主观权重和基于CRITIC 的客观权重，使用式(9)所示的线性综合权重值计算比较合适：

式中：W为综合权重值；WA为基于AHP 的主观权重值；WC为基于CRITIC 的客观权重值； α为主客观偏好系数，结合实际情况取0.5，表示主客观对最后的综合权重值影响效果相当.

由式(9)计算，各级指标的综合权重见表2.

表2 各层指标综合权重Tab.2 The comprehensive weight of each layer element

表2 中25.5、28.8、43.8 这3 个数字是一级指标B1～B3（即易用性、高效性、安全性）的指标权重，由相对应的二级指标C1～C15的权重相加而来. 例如，B1的权重为C1～C6的权重之和.

3.4 模糊综合评价法

由于本课题的指标之间并非单一层级关系，其相互间的界限和从属关系是模糊的. 对于客观评价指标来说，在缺乏足够多的测试对象基础上，无法确定最终的评价量表范围，也就无法得到反映可用性实际评价的精确分值. 主观评价则由于不同测试者的心理预设区间不同而可能造成可用性评价结果的偏斜，即分布范围狭于量表的测量范围.

模糊综合评价法运用模糊隶属度理论将边界模糊的定性问题进行定量化处理，适宜作为定性定量结合的分析工具，对多因素、多层次的复杂对象进行评价. 考虑到各评价指标的交叉模糊性和边界模糊性，本课题将采用该方法来构建评价模型.

本课题选择的指标既包含客观测试结果，也包括了主观评价分值，且评语集有清晰的等级划分，所以在本课题中的隶属函数应使用等级划分清晰而区间内分值模糊化处理的方法. 采用指派法，选择中间型隶属函数比较合适. 又因为正弦函数能够较准确地反映出隶属函数在相邻分数之间的差别[13]，所以中间型隶属函数采用正弦曲线分布，具体计算方法为

式中：c为指标值；r1～r5分别为指标隶属于极差～极优的隶属度,

及各评价指标的综合权重向量W，可以对可用性进行综合评价.

考虑到评价体系中的各个指标权重已确定，模糊判断矩阵也已明确计算，所以选用乘与有界算子M(∗,⊕)来确定可用性的综合评价向量即可清楚表现. 基于此算子，确定了权重向量W和模糊判断矩阵R后，可计算多模态交互的车内即时通信应用的可用性评价向量：

则还能计算得到可用性的综合评分，获得更为直观的可用性评价：

4 评价结果与讨论

4.1 评价结果

实验共测试了3 款搭载车内即时通信应用的量产车型，分别是HF、CG 及WE，同时也在驾驶时使用手机进行了测试. 3 项交互任务的模糊综合评价结果分别见表3～表5.

表3 播报微信消息任务时的可用性综合评价结果Tab.3 Comprehensive evaluation results of usability when broadcasting messages

表5 导航到定位地址任务时的可用性综合评价结果Tab.5 Comprehensive evaluation results of usability when navigating to locations

表4 回复微信消息任务时的可用性综合评价结果Tab.4 Comprehensive evaluation results of usability when replying messages

4.2 讨论

随着任务复杂程度的提升，各车型、各交互模态的可用性水平整体均呈下降趋势. 对于最简单的播报微信任务，可用性基本主要隶属于极优等级. 而另外两个任务的可用性主要隶属等级均有所降低.

4.2.1 播报微信消息

3 款测试车型的方向盘上都设置了触手可及的按键来帮助驾驶员完成播报微信消息的任务. 从测试结果来看，按键式的可用性评价均主要隶属于极优等级，综合评分也更高，是完成该任务的最优选择.

在HF 车型上应用触屏式交互时，整体能较好地完成这一任务. 但通过对单因素模糊判断矩阵R的分析，在易用性指标中，信息呈现清晰和信息排布合理的较低得分反映了中控屏上信息内容的缺陷，由此造成了对视觉资源的不必要占用，这在测试结果中视线偏移的极低得分也得以印证，反映了这一缺陷给驾驶员带来的较高认知负荷.

CG 车型上触屏式交互的可用性评价主要隶属于一般等级，表现相对较差，问题根源主要集中在物理层面. 触控屏上的按钮距离较远，驾驶员在触控屏上操作时动作幅度较大，这对驾驶控制产生了负面影响，这些问题反映在操作位移和车道保持的较低得分上，而按键式和语音式在这方面造成的负荷更低.

当驾驶员使用手机执行相同任务时，不论是从综合评价向量还是综合评分来看均是最低水平. 长操作位移和多操作步骤带来的任务繁杂度，使得手机微信在高效性方面存在较大短板，同时，拿起手机并在手机屏幕上进行操作而产生的视线偏移和操作分心也在安全性方面存在一定的负面影响. 然而，手机播报微信消息的主观评价指标得分相对较高，主要是由于手机微信的界面最贴近用户的使用习惯，符合用户的直观认知，因此获得更高的主观评价.

4.2.2 回复微信消息

与播报微信消息相似，方向盘上设置的独立按键使其可用性综合评价均高于另外2 种交互模态.而触屏式因其必然导致的视觉分心和操作分心，其可用性自然是3 种交互模态中的最低水平，在测试数据上，触屏式交互在各车型上均以较高隶属度隶属于极差等级也表征了这一点.

当驾驶员使用手机回复微信消息时，可用性主要隶属于极优等级，同时又以0.158 的较大隶属度隶属于极差等级，表明手机回复消息是一个特点鲜明、优劣分化较大的方式. 由于手机回复微信消息时，需要经过多个操作步骤，其操作步数指标的得分偏低.视线偏移一项的得分最低，则主要是由于手机屏幕较小，而语音输入按钮又位于屏幕最下方，且按钮很窄、难以触及，因此驾驶员会不自觉地将视线转移到手机上.

4.2.3 导航到所接收的定位地址

对于导航到微信定位这一交互任务，较高的复杂程度使得各类交互模态的可用性评价均较低，触屏式是相对较好的方式.

整体而言，HF 车型上，触屏式交互是最优方式，但仅主要隶属于一般等级，对视觉资源的占用是其可用性水平偏低的主要原因.

特别地，HF 车型上的语音式交互可用性很低，综合评分只有27.006 分. 这主要是由于车机系统对“开始导航”的语句识别率偏低，导致驾驶员多次重复操作才能成功响应. 表现在具体的评价指标上，较长的任务耗时、较多的注视点数、长时间的视线偏移和多次的视线回顾以及驾驶员对车辆行驶的控制较差等，使得高效性和安全性均主要隶属于极差等级，造成了整体可用性的低水平.

当驾驶员使用手机时，可用性主要隶属于一般等级，同时还以0.359 的较高隶属度隶属于极差等级，评价也接近最差水平. 由于手机在接收到微信定位到导航至该定位的过程中操作步骤较多，也导致了驾驶员长时间的视线偏移，进而造成低水平的车辆控制能力.

即使车载微信针对驾驶环境简化了操作步骤，但涉及到应用间的跳转以及地图应用的打开、加载等一系列进程导致的大运算量，必然使得任务耗时变得更长. 而系统在这一系列步骤进行中，也未能及时给用户明确的反馈，直接造成了用户的不信任，进而频繁回顾车内的中控屏，注视时间也随之增加. 同时注视点数随着内容切换和复杂度提升而增多，视觉分心和认知分心进而又造成了驾驶员对车辆控制能力的弱化. 因此导航至微信定位这一任务所对应的各类交互模态的可用性均偏低.