儿童与智能服务机器人交互体验评价方法综述

2019-09-17潘亚林李思琪童慧何思南周茉莉关岱松

人类工效学 2019年4期

潘亚林，李思琪，童慧，何思南，周茉莉，关岱松

(百度人工智能交互设计院，北京 100193)

1 引言

近年来，依托人工智能技术、智能服务机器人应用场景和服务模式的不断拓展，智能服务机器人市场高速发展，据国际机器人联盟(IFR,International Federation of Robotics)介绍，2013年以来，全球智能服务机器人市场规模年均增速达23.5%。其中，面向儿童的智能服务机器人受到了人们的广泛关注，他们一般拥有拟人的外形和动作，具备语音交互、智能识别等功能[1]，不仅可以照顾陪伴孩子，向孩子提供娱乐，辅导孩子学习，还可以与孩子建立情感联系[2]。智能服务机器人的出现为儿童带来了前所未有的新体验。

在儿童发展心理学领域，儿童的年龄大概被分为4个阶段：婴儿期和学步期(出生至3岁)，学前期(3-6岁)，学龄期(6-12岁)和青春期(12-20岁)[3]。从以往研究儿童与智能服务机器人交互的文献来看，被研究儿童的年龄主要集中在学前期(3-6岁)和学龄期(6-12岁)。学前期儿童以直觉形象思维为主，语言能力仍处于快速发展阶段，词汇量、句子长度、句法和语法的运用比较有限，且记忆力和注意力等都有待提高。学龄期儿童虽然语言的运用能力和阅读能力都有所发展，且开始能够考虑和区分自己和他人的观点，逻辑思维也开始出现，但他们的语言能力仍处于发展当中，对问题的理解也比较表面直接[3-4]。由于学前期和学龄期儿童的认知发展尚未成熟，其体验评价方法同成人也会有所差异。所以，如何理解和评价儿童与智能服务机器人的交互体验成为企业和用户体验研究人员普遍关注的问题。

本文对已有研究中涉及的儿童与智能服务机器人交互体验评价方法进行了梳理，并对各方法进行了对比总结，最后对儿童与智能服务机器人交互评价方法的未来发展方向进行了展望。

2 儿童与智能服务机器人交互体验评价方法

儿童与智能服务机器人交互体验评价方法主要分为四类：行为测量、主观报告测量、绩效测量和生理测量，其中使用最多的是行为测量和主观报告测量，绩效测量和生理测量使用相对较少，接下来会结合相关研究分别介绍这四类方法。

2.1 行为测量

行为测量是指研究人员通过观察儿童与智能服务机器人的交互行为特点，来了解儿童的心理过程或心理状态。行为测量最常用的调研方法是观察法，适用范围受年龄限制较小，在儿童群体，尤其是学前期儿童的研究中被广泛使用。

2.1.1 测量内容

大多数研究主要观察儿童与智能服务机器人交互过程中的注视、肢体动作、自发式言语和面部表情，少数研究还会关注儿童与智能服务机器人交互的距离。

(1) 注视

注视的测量指标可以是注视方向、注视时长、注视次数等，它们通常用来反映儿童的参与度和专注度。Hae Won Park等人在评估一套促进儿童语言表达的机器人行为模型时，使用儿童注视机器人的时长和注视其他地方的次数来判断儿童的专注度和参与度，注视时长越长，注视其他地方的次数越少说明儿童在互动中专注度越高[5]。注视有时也可以反映儿童的困惑程度，Mirjam de Haas等人发现当儿童对机器人的指令出现困惑时会更多地第一时间看向研究人员，儿童注视研究人员的次数和时长，可以反映孩子在交互过程中存在困惑的程度，便于发现一些可用性问题[6]。

(2) 肢体行为

儿童在与智能服务机器人交互过程中，会产生各种肢体行为，这些行为可以反映儿童不同的交互动机。Andri Ioannou等人通过观察4名3-5岁儿童与NAO机器人的交互行为发现：孩子们在初次见到NAO机器人时会好奇地摸机器人的眼睛手指等；会轻吻机器人的头或把手放在机器人的背上防止他跌倒来传达善意和友好；会把机器人当成自己的同伴送给他泰迪熊；会触碰他的肩膀试图和他一起跳舞。通过编码这些行为背后的动机，研究人员将这些行为聚为三类：爱抚型、探索型和玩伴互动型[7]。

(3) 自发式言语

儿童在与智能服务机器人交互过程中的自发式言语，能真实客观地表达他们的喜好、困惑、抱怨等，辅助研究人员分析儿童的态度和想法。Yasemin Dönmez等人在观察儿童与机器人玩具Ixi-play交互时，发现儿童会与研究人员分享他们的兴奋、疑问、抱怨和评价；也会试图和Ixi-play直接交流，来鼓励它做出回应[8]。

(4) 面部表情

面部表情可以比较直接地反映儿童在与智能服务机器人交互过程中的情感反应和情绪变化，在研究中经常会被采集分析。Sofia Serholt等人对儿童和机器人导师互动过程进行了长期的观察，通过分析儿童负面情绪超过5秒的行为发现交互过程中的可用性问题[9]。David Cameron等人在研究机器人面部表情对儿童与机器人社交互动的影响时，使用FaceReader自动编码互动过程中儿童的面部表情，来探查儿童在与有表情的机器人互动时是否会出现更加积极的情绪[10]。

(5) 人机距离

人与人之间所保持的空间距离,直接反映着彼此相互接纳的水平，在社会心理学中被称为人际距离。人际距离受到个体之间情感距离的影响，可以作为判断人与人之间情感关系的一种依据。部分研究学者认为在人与机器人的相处中也存在这种心理场，人与机器人的空间距离可以间接反映人和机器人的情感距离。David Cameron 等人记录了孩子和机器人互动过程中的距离变化，作为判断孩子和机器人之间亲密关系的指标之一[10]。

2.1.2 测量工具

传统的行为测量主要通过研究人员依据观察提纲进行现场观察和记录，或借助录像、录音等方式进行现场数据采集，后通过人工打码进行记录分析，这些方式相对都比较费时费力。随着各种非侵入式传感设备和行为记录分析技术的进步，研究人员开始尝试各种自动化的数据采集和分析工具，如使用The Observer X等行为观察记录软件来实时编码儿童的行为，并对不同观察者间的观察结果进行可靠性检验[10]；使用FaceReader、Affdex等面部表情分析系统来自动标记儿童与机器人交互过程中的情绪唤醒强度和效价[5,10]；使用kinect传感器来自动测量儿童与机器人的交互距离等[10]。

2.1.3 优劣势分析

行为测量是一种相对比较客观的测量方法，且适用儿童的年龄范围广，但它也有一定的局限性。

首先，儿童比较好动，很容易跑离摄像区域或者造成摄像模糊，易造成数据缺失[11]。虽然目前很多研究机构都建有比较完善的行为观察实验室，布置全方位摄像头来保证数据的完整性，但儿童研究的观察往往是在自然环境或他们相对熟悉的环境中，如幼儿园，所以如何搭建移动便捷、观察全面且对被观察儿童无干扰的自然观察环境或实验环境非常重要。

其次，研究人员对行为的分析带有一定的主观性，缺乏客观统一的编码标准，存在观察者偏差[12]；且传统的行为数据采集和分析方法比较费时费力。所以，更加客观准确，高效便捷，且非侵入式的行为数据自动采集和分析方法是未来儿童类交互研究需要持续探索优化的重要方向。

2.2 主观报告测量

主观报告测量是指研究者通过直接询问儿童的观点与态度，来了解他们的想法和感受。主观报告测量最常用的调研方式是问卷法，部分研究者也会使用简单的访谈或焦点小组作为辅助方式。从学前期开始，针对儿童已可以开始使用主观报告测量法，但需要以他们能够理解的方式和对他们有意义的事件进行询问，尽力保证回答的可靠性。

2.2.1 测量内容

在以往的儿童与智能服务机器人交互研究中，主观报告测量主要被用来探究儿童对智能服务机器人的喜好度和再次互动意愿、对与智能服务机器人交互过程的满意度、对机器人的人格化感知(包括性别、性格、角色关系等)以及对机器人的信任感等。

有些研究人员将成人与智能服务机器人交互研究中使用过的一些成熟量表，进行了修改，用于儿童相关的研究中。如用来测量机器人拟人化交互程度的godspeed量表，最初是由Christoph Bartneck设计的，分为5个维度：拟人度(Anthropomorphism),生命度(Animacy),喜好度(Likeability),感知智力(Perceived Intelligence),和感知安全(Perceived Safety)[13]。Amol Deshmukh等人将该套量表改良后运用在孩子身上，包含友好度、愉悦度和共情能力三个指标[14]。Fang-Wu Tong等人在探究儿童对人形机器人外形拟人化程度的态度时使用的量表[15]，修改自McCroskey and McCain社会吸引力和物理吸引力量表的一部分[16]。

2.2.2 测量工具

在儿童群体研究中主观报告最常用的方式是问卷法。在调查中询问儿童问题的方式会对答案的可靠性产生影响。如Breakwell等人报告说：“儿童中存在强烈的默许反应偏见：儿童倾向于说‘是’，无论问题是什么或他们对此有何看法[17]。”所以“是否”型问题会带来一定的数据偏差，尤其是在低龄儿童中运用时。因此在儿童问卷的问题设计上需要仔细斟酌，我们总结了几种以往儿童问卷中常使用的问题形式，不同的问题形式适合测量的内容有所差异，对于不同认知发展阶段的儿童，其适用性也会有所不同。

Fun toolkit是专为儿童产品评估而设计的工具包，由三个工具组成：the Smileyometer(图1)，the Fun Sorter(图2)，the Again Again table(图3)[18]。The Smileyometer是一个基于五点李克特量表的视觉模拟评分量表，采用拟人化的笑脸表情传达对应的观点或态度，但它更适用于年龄相对较大的孩子，年龄较小的孩子总是倾向于给出偏高的评价[19]。还有研究发现，即使年龄较大的孩子也会倾向于选择积极分数，因此Lynne Hall等人针对笑脸量表的表情进行了优化，把所有的表情都换成了笑脸只是程度不同(图1)，经过作者验证比传统笑脸量表表现更好[20]。The Fun Sorter通常用来进行对比评价，让孩子根据一个或多个维度对不同对象进行排名，但年幼的儿童，对The Fun Sorter的结构理解有些困难，所以也适合年龄相对较大的孩子，且进行比较的对象不宜过多，从以往研究来看，通常不超过4个[18，21]。The Again Again table是一个非常简单的量表，通常用于探查儿童的再次使用意愿，儿童只需要回答“是，否，不确定”就可以了，该量表的使用没有年龄限制，学龄前儿童也非常适用且结果有比较高的可靠性[18][22]。

This or That工具通常用于探查儿童的态度偏好[23]。如“你认为机器人A和机器人B哪个是更好的倾听者？”孩子可以选择“this，that或无法判断”。为增加研究互动的趣味性，研究人员有时也会发给孩子贴纸让他们给喜欢的对象贴上[5]。该方法简单易理解，易操作，也广泛应用于各年龄段儿童的研究中。

当探究儿童对智能服务机器人的人格化感知时，也会用到选项型问题，如“你觉得这个机器人是男的还是女的？”[24]“你觉得这个机器人和你是什么关系？朋友？玩具？宠物？”[25]。这时需要注意要使用孩子能理解的词汇进行表达，同时可以借助图片等更直观化的工具辅助孩子理解选项。

2.2.3 优劣势分析

主观报告测量由于数据采集简单方便，能直接倾听孩子的声音，在儿童与智能服务机器人的交互体验评价中使用很多，但由于儿童的认知理解、语言表达能力有限，且缺乏耐心，研究人员需根据不同年龄段儿童的认知水平和语言表达特点来设计问题的表述、题目及选项数量，还要适当地借助图片、绘画等直观可视化的形式以及情景化游戏化的任务促进孩子的理解和表达，保持孩子的兴趣，且要通过反复的预测试来保证儿童对问题理解的准确性。此外，由于主观报告通常会在体验任务结束后进行，所以无法实现对儿童心理状态的即时评价。

2.3 绩效测量

在儿童与智能服务机器人的交互研究中，研究者常用绩效来衡量机器人干预对儿童学习效果的影响。James Kennedy在探究机器人的3d形象和2d形象对儿童学习效果影响时，就采用游戏得分作为判断学习效果变化的指标之一[26]；Hsien-Sheng Hsiao等人在研究智能机器人iRobiQ同平板电脑相比是否能提高儿童的阅读效果时，通过阅读理解能力、讲故事能力、文字识别能力和故事复述能力四方面的前后测试对比来衡量儿童阅读效果的改善程度[27]。此外，儿童在交互过程中完成某项活动的时长及特定行为发生的次数也可以作为绩效测量的指标。SANDRA Y.OKITA等人在研究机器人的注意力如何影响儿童的行为和参与时，采用儿童在活动期间与机器人目光直接接触的次数，儿童对机器人直接评论的次数和互动时长作为测量指标[28]。绩效测量主要侧重对任务达成效果和效率的测量，缺乏对心理和情感层面的关注。

2.4 生理测量

生理测量技术在人机交互领域主要用来测量用户的认知负荷和情感体验，具有客观、实时、连续等特点，一直是用户体验研究中重要的探索方向，其中皮电(EDA)、心电(ECG)、脑电(EEG)在研究中应用最为广泛且报告了更多的显性结果[29]。在儿童人机交互研究中已有使用生理测量的案例，但数量仍然比较少。

究其原因主要有三个：首先，大多数电生理测量设备都是有线、固定的，而儿童的性格较为活跃，注意力有限，常见的有线、固定设备不适合儿童长时间参与互动，且儿童好动的特点也会影响到生理信号采集的纯净性；其次，为了让儿童更加自然地和机器人交互，一般会选择在孩子们熟悉的场地进行，如校园，而生理测量由于精准性问题常需要在环境严格的实验室中完成；最后，儿童的生理反应可能和成人测量的平均反应不同，需要更多的基础研究来验证各种生理指标对儿童用户体验评估的适用性[28][30]。

随着生物传感器技术的发展，小型无线、非侵入式的传感器在市场上出现，研究者开始在儿童与智能服务机器人交互研究领域做了一些尝试和探索。SANDRA Y.OKITA 等人尝试用 effective Q 传感器从6名与 ASTMO 机器人交互的儿童中收集了 EDA 数据，结果初步表明皮电有助于判断孩子的情绪唤醒水平，但由于样本量太小，研究者表示需要进一步的大样本验证[28]。Iolanda Leite 等人同样用 effective Q 传感器收集了38名8-9岁儿童在与社交机器人交互过程中的 EDA 信号，结合交互日志和主观问卷的数据，验证了皮电信号可用于测量儿童对机器人的感知和相互作用，尤其在参与度、动机和注意力上儿童的皮电特征区分显著[30]。

3 评价方法的综合对比

表1综合了以上儿童与智能服务机器人交互体验评价的四类方法，从使用频次、适用对象、研究目标、研究方法、优劣势几个方面对四类方法进行了梳理总结。由于各种测量方法各有优劣势，研究人员在实际研究中需要结合儿童的年龄、研究目标以及交互环境选择合适的方法。

表1 儿童与智能服务机器人交互体验评价四种方法比较

续表1

行为测量主观报告测量绩效测量生理测量研究目标发现交互体验问题,总结交互行为规律,推测用户心理感受评估认知、态度、情感层面的体验和任务强相关,评估任务完成效果或效率评估认知和情感层面的体验研究方法定性定量相结合定性主要用于发现用户体验问题及交互动机定量主要用于量化行为表现发现交互规律定量为主,定性为辅定量量化主观体验定性简单描述感受定量定量优势客观,非干扰简单,高效客观,直接客观,实时,连续,精确劣势数据容易缺失人工编码耗时费力存在观察者偏差结果可解释性差受儿童认知和语言发展水平影响较大受儿童注意力水平和兴趣影响较大存在社会赞许效应和主试效应非实时评价只注重任务达成,忽略心理和情感体验设备、环境局限大基础研究数据有限结果可解释性差

4 展望

研究儿童与智能服务机器人交互的主要挑战之一是如何捕捉儿童对机器人及交互体验的自发和真实的感知。本文对以往研究人员常用的四类方法进行了阐述和分析，未来，儿童与智能服务机器人交互体验评价的方法仍有可进一步探索的空间。

(1)设计并验证儿童与智能服务机器人交互体验评价的标准化量表。从以往文献来看，还没有专门针对儿童与智能服务机器人交互体验评价的标准化量表，虽然有的研究借鉴了成人与智能服务机器人交互的成熟量表，但在儿童群体中的信效度缺乏相关的验证。此外，由于不同年龄儿童的认知发展水平差异较大，所以在设计和检验测量量表时需要考虑到儿童年龄的影响。

(2)对各测量方法进行相关性研究，掌握方法选择和结合的规律。以往儿童与智能服务机器人的交互研究中，通常仅针对使用的测量方法进行单独的分析，未来，可以尝试对各测量方法之间的相关性进行研究，帮助其他研究者更好地认识和掌握如何将各测量方法结合运用。

(3)多维度数据自动采集整合分析，全面评价儿童的交互体验。以往的研究，主要采用行为和主观报告测量，且测量数据大多是由研究人员进行采集和分析的，耗时费力且数据有限。未来，需要探索更多科学有效的行为采集分析技术和生理测量技术在儿童人机交互研究领域的应用，并实现多维度指标数据的同步采集和整合分析，以更全面地评价儿童的生理心理状态。