情境判断测验的研究述评

2017-02-16凌斌顾金良孙丽君

心理技术与应用 2016年9期

凌斌　顾金良　孙丽君

摘要：情境判断测验是人事测评中非常重要的工具和研究主题，近些年来围绕着它的理论基础、测量属性、构念开发、应用效果等问题展开了一系列的研究。本文阐述了情境判断测验作为方法或构念的争论，论述了它的理论基础，比较了不同形式的测验特征，总结了情境判断测验的信度和效度研究进展，最后从测验的呈现方式、作假行为和群体差异三个方面剖析了执行情境判断测验的关键要素。未来研究可以对不同形式的情境测验进行比较，加强测验构念和内容的研究，尝试与其他测评工具相结合。

关键词：情境判断测验；人事测评；信度；效度

1.前言

情境判断测验（situational Judgment Tests，简称SJTs）是人事测评中非常重要的选拔和评估工具。近些年来，人力资源研究学者对于情境判断测验的理论问题（Kasten&Freund，2015；Weekley&Ployhart，2006），信度效度（Banki&Latham，2010；Catano，Broehu，&Lamerson，2012；Christian，Edwards，&Bradley，2010），构念开发（Bledow&Frese，2009），测验形式比较（Lievens&Sackett，2006），实际应用（Buyse&Lievens，2011；Patterson Rowett，Hale，Grant，Roberts，Consans.&Martin.2016）等问题做了深入的探讨，并已逐渐成为人事测评领域中的研究热点。情境判断测验是由一些工作相关的情景或场景组成，要求受测者运用相应的知识、技术、能力或其他特质（KSAOs）来解决包含在情境中的困境或问题（Christian，Edwards，&Bradley，2010；Slaughter，Christian，Podsakoff，Sinar，&Lievens，2014；Whetzel&McDaniel，2009）。情境判断测验一般会针对情境困境列出一组不同水平的行为方案，要求受测者评价每种行为方案发生的可能性或效能。情境判断测验题项形式可以是书面形式、口头形式、视频形式、或者计算机呈现的形式。

情境判断测验在人事测评研究中具有重要的方法和理论意义。以往研究仍然在情境判断测验的构思与方法定位、理论假设和测量方法指标与属性等方面存在分歧。这限制了情境判断测验的实际效果。本文通过对近期文献的梳理和分析，以整合的视角阐释和论述情境判断测验在人事测评研究中的最新进展和研究趋势。正文主要分为以下几个部分：首先介绍有关情境判断测验是一种方法技术还是一种理论构念的研究争论。从各自视角分析情境判断测验的方法性特征与构念性特征，尝试提出相应的解决方案。然后论述了情境判断测验的两种基础性理论：行为一致性假设与内隐特质策略理论。两种理论从不同视角诠释情境判断测验预测行为绩效的内在逻辑。第三，从理论概念出发，比较不同形式的情境判断测验，以及对比它与其他测评工具的差异。第四，阐述了情境判断测验的信度与效度研究，指出它在心理测量理论与技术方面的特征与趋势。最后，强调了操作与执行情境判断测验的过程中需要注意的三种因素：测验呈现方式、作假行为和群体差异.它们会对情境判断测验的具体实施产生重要影响。

2.作为方法技术或理论构念的争论

长期以来情境判断测验被看作是一种测量概念的方法，是人员选拔或者预测工作绩效的途径。人们只关注情境判断测验的分数.而对于分数与测验内容的关系缺乏探究（Christian et al，2010；Kasten&Freund，2015）。近期研究逐步关注情境判断测验的内容并将其作为一种构念，因此情境判断测验是测量方法还是测量构念成为研究的焦点问题（Christian et al，2010；Libbrecht&Lievens，2012；Lievens&Sackett，2012；Whetzel&Mcdaniel，2009）。在人事选拔方面，测量指标在方法與构念上的区分对于理解情境判断测验研究是非常关键的（Whetzel&Mcdaniel，2009），同时也具有重要的理论意义和实践意义，而混淆方法与构念会降低测量结果的解释力。测量指标的方法指的是获得和收集相关领域行为信息的特定方法和技能.如评价中心，纸笔测验，结构化面试等，是从行为范畴中获得信息的过程。测量指标的构念指的是从相关领域中抽取的行为样本，是作为一个心理学的概念，关注预测变量的行为范畴（Arthur Jr&Villado，2008；Guenole，Chernyshenko，Stark，&Drasgow，2015；Slaughter，Christion，Podsakoff，Sinar，&Lievens，2014）。

首先，情境判断测验作为一种测量方法，它与其他人事测量工具如评价中心和面试访谈等一样是用来甄别区分被测量对象的行为特征。将情境判断测验看作是方法，主要是关注方法本身特征，而不关注测验内容。因此，在实际测验中主要依据测验分数来做出预测推论。以往研究中情境判断测验作为方法所测量的构念是单一的或者复合型的.即采用笼统的复合概念来说明测量的内容，并给出相应的信效度指标。尽管情境判断测验作为测量方法具有有效的预测和甄别能力.但是弱化了测验内容会导致题项内部一致性较差.缺乏有效的构念效度，混淆测验结果与效标之间的关系。这样一来就难以说明测验效标的变异是由于测验构念的变异导致的还是由于测验方法差异所导致的。尽管大多数方法范式的研究都会给出比较满意的信度或者效度值，但是这种范式的情境判断测验研究很难做比较。因为不同研究的情境判断测验不是在同一个构念水平上.测验内容不是同质的。因此，基于不同构念水平的情境判断测验结果增加了人才选拔决策的风险和偏误。即便是稳定性再高的情境判断测验在与其他测验比较时仍然不能忽略测验题项背后的行为范畴。只有这样基于情境判断测验的结果预期才更具有理论意义。

其次，情境判断测验作为一种测量构念的研究范式近些年来广受关注，用于表现一些心理学概念如个体主动性、领导行为、情绪管理和文化定向等（Bledow&Frese，2009；Burrus，Betaneourt，Hottzman，Minsky，MacCam，&Robeas，2012；Ktinig，Steinmetz，Frese，Rauch，&Wang，2007；Libbrecht&Lievens，2012；Oostrom，Born，Sedie，&Van Der Molen，2012；Slaughter et a1.，2014）。基于构念范式的情境判断测验是被作为一种概念来研究，它不局限于单一概念，更多情况下就像大五人格量表一样属于多维度概念。Bledow和n—ese（2009）开发了个体主动性的情境判断测验（SJT of personal initiative，SJT-PI），运用情境偏好作为个体主动性的测量指标。构念水平的情境判断测验具有很好的理论意义和视角.个体主动性作为主动性绩效包含个体的情境化的行动，而在以往的李克特量表中个体主动性的题目比较通用.情境化程度比较低.这样就很难如实地反应工作情境中的主动绩效。Bledow和Frese采用情境判断测验是将工作情境加入了题项中.提高了个体主动性的情境化成分，同时也增加了情境判断测验的理论意义。构念范式非常重要的特点是对概念构念和测量内容进行清晰的界定，测验题项间的关联性也会提升，从而保证了测验的构念效度、预测效度、效标关联效度和内部一致性系数。

情境判断测验的方法范式和构念范式不是相互排斥的。Christian等（2010）针对这个问题给出了学术研究和实际应用的建议。首先在学术研究方面：（1）情境判断研究需要报告详细的构念信息和内容，而不是在方法水平上的复合概念；（2）情境判断测验中需增加构念验证的程序；（3）通过采用情境判断测验构念信息来保持构念的恒定.并可以用来比较不同形式的情境判断测验对于相关构念的影响等。而在实际应用过程中，基于构念范式.管理者在选择人事评估工具时先要确定核心构念。此外在选择测量构念时还要仔细考虑相关联的效标，因为当测量构念与效标匹配时效度会更好。

3.情境判断测验的理论基础

情境判断测验主要是作为一种应用方法来研究.重点关注方法特征属性和实施过程.而对于情境判断背后的行为和认知机制缺乏深入的研究和探索。为什么通过对情境问题的判断就能有效地预测个体绩效？情境判断与行为表现之间的内在逻辑该如何解释？目前.情境判断测验的基础理论主要有行为一致性假设与内隐特质策略理论。

3.1行为一致性假设

行为一致性假设指出过去的行为是未来行为最好的预测指标（Whetzel&Mcdaniel，2009），个体行为存在跨情境的一致性。个体在情境判断测验中的行为选择能够预测未来的工作绩效，并具有良好的效度指标（Mcdaniel.Morgeson，Finnegan，Campion，&Braverman，2001）。根据行为一致性假设，情境判断测验提供的多种行为选项被认为是总体行为表现的一个样本，个体在情境中对各种行为样本进行判断并选择和评价，以此用样本行为来预测整体的行为倾向或未来的行为变化。这是情境判断测验的理论前提，可以用来解释测验结果。3

.2内隐特质策略理论

内隐特质策略理论（implicit trait policy theory）是解释情境判断测验认知机制的最新发展起来的理论（Motowidlo，Hooper，&Jackson，2006；Oostrom，Born，Serlie，&van der Molen，2012），用来解释情境判断测验与工作绩效之间的关系（见图1）。该理论主要观点认为人格特质与行为效能之间存在因果关系，主要包括三个理论假设。

第一个假设认为情境判断测验所测量的程序知识与工作绩效存在因果关系。个体在情境判断测验测得的程序知识越高，则工作绩效水平也就越高。第二个假设认为人格特质与情境判断测验成绩也具有因果效应。情境判断测验中存在特质匹配.不同行为的效能是由对应的人格特质来决定的。比如具有高责任心特质的个体更愿意相信那些表达这种特质的行为选项.因此个体在特质匹配的情境中会做出更有效的行为表现（Motowidlo et al，2006）。第三个假设认为内隐特质策略受到先前经验的影响.个体能否在特质匹配的情境中表现出一致性的行为会受到先前经验的影响。借助先前经验，个体能够了解到在某种特定工作情景中呈现某种具体的人格特质要比另外的特质会更加有效。

4.类型比较

4.1不同类型的情境判断测验比较

情境判断测验具有多种不同的测验形式，比如书面形式、视频形式、多媒体形式等。测验形式的变换并不是完全等价的.不同形式的测验具有不同的预测效度、增益效度和内部一致性系数等（Lievens&Saekett，2006），因此在设计或转换测验形式时需要谨慎，并能提供测验的效度指标。Lievens与Sackett（2006）通过对比视频和书面两种测验形式在预测效度上的差异发现，在高风险测验环境中视频形式的情境判断测验（人际导向内容）相比书面测验，与认知能力具有更低的相关，但在预测人际导向效标方面具有更高的预测效度和增益效度。视频形式的情境判断测验相比书面形式测验还具有更高的表面效度，而且还能够降低群组间在表面效度上的差异（Chan&Sehmitt，1997）。多媒体形式的情境判断测验具有较好的效标关联效度，在一项研究中测量领导技能的多媒体情境测验能够很好地预测由同事和上级评定的领导行为，而且超过领导经验和人格量表的预测效度（Oostrom，Born，Serlie，&van derMolen，2012）。但是多媒体情境测验效度除了受到测验内容和特征的影响外还会受到受测者个体特征的影响.比如个体的电脑焦虑特征与多媒体情境测验的工作关联性感知存在负相关关系.而核心自我评估、主观幸福感、宜人性、情绪稳定性、经验开放性特质与测验的工作关联性感知存在正相关关系（Oostrom et al，2010）。这说明受测者自身的心理状态和特征会影响情境判断测验的效度评价。

基于网络形式的情境判断测验和书面形式的测验在实际应用中也存在一定的差异.在对求职者样本的测验中，基于网络形式的测验要比书面形式的测验表现出更好的测验性质.结果具有更加正态的分布，具有更低的平均值，更高的内部一致性系数，更好的变异度且题项间具有更高的相关性。总之对于选拔求职者来说，网络形式的情境判断测验要比纸笔测验具有更好的测量属性（Ployhan，Weekley，Holtz，&Kemp，2003）。

4.2与其他测评工具的比较

情境判断测验与其他人事测评工具如评价中心和认知能力测验具有不同的特征和联系。它们之间不是孤立关系，而是互补关系.情境判断测验可以为评价中心和认知能力测验的结果提供佐证，强化整体测评效果。但是这三种测验在情境模拟程度、刺激类型、反应模式、计分方法和实施过程等维度上具有各自的特征（Lievens.Peeters，&Sehollaert，2008）（见表1）。

情境判断测验与评价中心都是基于情境模拟的测验形式，但是情境判断测验属于低保真的模拟.以书面或视频等形式提供虚拟化的任务情景，情境真實性较低。评价中心测验属于高保真的模拟.为受测者提供真实的工作情景，并以真实行为来做出反应。情境判断测验与评价中心都提供标准化的测验内容和指导，它们形式多样但不同。情境判断测验要求被试主要以书面和口头报告的形式来做出反应，而评价中心测验则由专家来观察被试的行为变化和角色扮演.并根据行为标准打分。情境判断测验在打分上以演绎推理的方式为主，依靠专家对行为方案进行评估来确定分数，或者以经验数据作为衡量指标来确定行为方案的分值。情境判断测验实施过程中可以对大样本群体采取线上或线下的方式来采集数据，而评价中心测验一般只针对小样本群体采取现场实施的方式（Lievens et al，2008）。

以往研究经常将情境判断测验与认知能力测验进行比较研究，并通过认知能力测验的对比来了解情境判断测验的测量属性和性质。认知能力测验采用经典的问卷方式来测量概念，题目内容、操作指导和过程都比较标准化.并均有较好的信度和效度。此外，认知能力测验题目编制和反应计分也均采用标准化处理，被试对题项的反应一般按照等距尺度来打分，题项的同质性比较高。最后，与情境判断测验相似，认知能力测验也可以对大样本群体通过线上或线下的方式来收集数据。

5.测量评价指标一信度与效度

5.1情境判断测验的信度问题

信度系数的选择与评价是情境判断测验信度研究中的主要问题。大多数研究仍采用Cronbach's a系数作为情境判断测验的信度指标.但是研究结果表明内部一致性系数的差异幅度比较大，Mc—Daniel等（2001）的元分析研究列出内部一致性系数的取值范围在0.43至0.94之间。Catano等（2012）研究指出Cronbach's a系数不是评估情境判断测验最适应的信度指标，特别是在高风险情境和测验题目不同质的情况下内部一致性系数非常低.学生样本中仅系数为0.46.人力资源专业人员样本中a系数为0.43。已有研究指出测验长度、反应指导模式、题项异质性程度等会影响内部一致性系数作为情境判断测验的信度指标，并低估测验的稳定性程度。情境判断测验长度会提高内部一致性系数（Lievens et al，2008）。因此在设计测验时增加同质题项有助于提高a系数。另外.情境判断测验的反应方式中当采取“woulddo”的反应模式时整体上会产生比“should do”有更高的内部一致性系数。比如要求“评价每个选项的有效性”会产生最高的系数（0.73），要求“评价每个选项的可能性程度”会产生次高的系数（0.69），要求被试简单指出在每个情景中应该做出的行为时产生最低的系数（0.32）。情境判断测验中题目具有高异质性，或者测量的是一些复合性的概念时会产生比较低的内部一致性系数（catano et al，2012；O'ConneH，Hartman，Mcdaniel，Grubb，&Lawrence，2007）。

由于内部一致性系数不足，重测信度和复本信度被认为是情境判断测验最为合适的信度指标.能够较好地表现测验的可靠性和稳定性程度。在实际研究中重测信度和复本信度逐步受到关注.特别是重测信度应用更多。最近的一项研究中，Bledow和Frese（2009）采用重测信度作为个体主动性情境判断测验的信度指标，他们对情境测验中的四个题项在11周的时间间隔中做了重复测量，其重测信度系数为0.73。在两个子研究中，Catano等（2012）发现重测信度分别为0.82和0.66，均比内部一致性系数都高（0.46和0.43）。相比内部一致性系数.重测信度要求在同一样本中重复测量两次.因此增加了测量的难度和时间成本。但是运用重测信度能够较真实地表现情境判断测验的稳定性，同时也能获得较为满意的结果（Lievens et al，2008）。复本信度在实际研究中运用的不是很多，这主要是由于编制两份平行的情境测验是比较困难的。但已有研究指出复本信度和重测信度一样.都是情境判断测验比较理想的信度指标，Chan和Schmitt（2002）的研究中情境判断测验得到良好的复本信度系数（0.76）。

5.2情境判断测验的效度问题

效度是情境判断测验研究中非常重要的问题，现有研究主要探讨了情境判断测验的构念效度、效标关联效度和增益效度。这三种效度分别对应了情境判断的三类问题：（1）情境判断测验测量的内容是什么？（2）情境判断测验的分数能够预测什么行为？（3）与其他测验相比，情境判断测验的增量在哪里？

首先第一个问题是情境判断测验的构念效度。情境判断测验目前最需要迫切解决的就是构念效度，而大多数情境判断测验的局限性就是缺乏清晰的构念效度。尽管情境判断测验与认知能力、情绪管理、人格特质、程序知识等概念存在相关，但是在实际编制测验时，题项间往往存在较为明显的异质性。因此为了突出和提高人事测评工具的构念效度.目前研究趋势更加提倡构念导向的研究视角.重点关注测验反应的维度和构念的检验（Chan&Schmitt，2004）。在方法导向的研究范式中情境判断测验的构念效度相对比较模糊，测验包含知识、技能、经验等多种差异化题项，并形成一种复合型的概念，构念效度比较低。但是在概念导向的研究范式中情境判断测验可以测量独立的多维度心理学概念.题项之间在内容上做到同质性。以往研究中用情境判断测验来测量工作知识（Crook，Beier，Cox，Kell，Hanks，&Motowidlo，2011）、情绪智力（Libbrecht&Lievens，2012）、一般认知能力（Mcdaniel et al，2001）、个体主动性（Bledow&Frese，2009），并与责任心、情绪稳定、宜人性等概念存在相关性（Mcdaniel&Nguyen，2001）。已有研究表明情境判断测验可以较好地表达构念效度，Crook等（2011）采用单一反应模式的情境判断测验来测量工作知识，为了检验构念效度，他们在情境判断测验编制中区分了有效行为的知识和无效行为的知识两种概念，结果发现这两种概念是不同的，相关度比较低。Bledow和Frese（2009）在研究中区分了情境判断测验的个体主动性与组织公民行为和责任心，从而验证了个体主动性的构念效度。此外，情境判断测验的构念效度依赖于特定情境，不同测验样本中情境判断测验的构念效度是不同的。相比在职者样本，应聘者的测验分数与认知能力和人格特质的相关度更高（Mackenzie，Ployhart，Weekley，&Ehlers，2009）。应聘者与在职者对于情境判断测验内容的理解和提取是不同的，所得分数也存在差异。

第二个问题是情境判断测验的效标关联效度.主要表现在情境判断测验能够有效地预测工作相关效标。元分析研究结果表明用来测量人际技能（0.25）、团队技能（0.38）和领导力（0.28）的情境判断测验对于整体工作绩效具有较高的预测效度，其中工作绩效维度（任务绩效、周边绩效和管理绩效）、测验类型（纸笔和视频形式）对效标关联效度具有调节作用，结果说明当情境判断测验构念与工作绩效维度存在内容关联性时会提高效标关联效度，基于视频形式的情境判断测验要比纸笔形式具有更高的效标关联效度（Christian et al，2010）。在另外一项元分析中情境判断测验对于工作绩效的预测效度为0.26，稍微小于McDaniel等（2001）元分析中報告的0.34，而且测验中两类测验反应指导语知识模式与行为倾向模式对效标关联效度不存在时显的调节作用（Mcdaniel，Hartman，Whetzel，&Grubb，2007）。情境判断测验的效标关联效度在国家间存在一定的差异，以往研究在澳大利亚、英国、美国、伊朗（0.23）等国家发现存在效标关联效度.而在有些国家如墨西哥则发现该效度不佳（Banki&Latham，2010；Weekley&Ployhart，2006）。整体而言，情境判断测验作为人事选拔工具和研究构念在预测工作绩效等效标方面具有较好的关联效度，但是它会受到一些测验情境因素的调节。因此在使用情境判断测验时需要注意和区分不同测验因素的影响，比如测验形式和反应指导语等。

最后的一个问题是情境判断测验的增益效度.主要指的是情境判断测验相比其他测验在预测效标方面所获得的改进程度，用来衡量情境判断测验在同一类效标上的增量程度和变异贡献量。我们在实际研究中关注增益效度是为了说明情境判断测验可以作为非常理想的预测变量来研究组织行为。现有大量实证研究支持了情境判断测验具有非常理想的增益效度.在预测工作绩效方面.它比一般认知能力测验、工作经验、大五人格等表现出更好的效果.可以提供更高的变异解释力（Chan&Schmitt，2002；O'connell et al，2007；Oostrom et a1.，2012；Weekley&Ployhart，2005）。Chan和Schmitt（2002）研究中发现当增加情境判断测验作为预测变量时，认知能力、大五人格和工作经验在预测任务绩效（0.05）、周边绩效（0.08）和整体绩效（0.04）方面具有显著的增益效度。McDaniel等（2007）在其元分析的研究中综合分析以往的研究发现情境景判断测验具有较好的增益效度，其中它在认知能力上的增量变异为0.03到0.05.在大五人格上的增量变异为0.06到0.07.在认知能力与大五人格的复合变量中的增量变异为0.01到0.02，他们还指出情境判断测验的指导反应形式会调节增益效度.行为指导模式的情境判断测验具有高出认知能力的增益效度.而知识指导模式的情境判断测验具有高出大五人格的增益效度。Buyse和Lievens（2011）在选拔牙科专业学生的研究中支持了情境判断测验在预测学术成绩方面具有高于认知能力的增益效度。O'Connell等（2007）在研究中运用认知能力和大五人格预测任务绩效和周边绩效时，分别增加情境判断测验会提高预测变量的变异解释量.但是解释量的增幅不是很显著（0.003到0.011）。情境判断测验的增益效度也会受到测验情景因素的影响，不同形式的测验会导致不同的增益效度。Lievens和Sackett（2006）采用情境判断测验预测人际导向效标时，视频形式的情境判断测验要比纸笔形式的测验具有更高的增益效度（0.11 vs.0.01）。此外，不同形式的测验指导语也会导致不同的增益效度（Mcdaniel et al，2007）。

6.操作执行中的影响因素

情境判断测验具有情境敏感性的特点，在具体实施过程中会受到一些因素的影响，从而表现出不同的测验结果和性质。因此在情境判断测验实施过程中需要引起关注。

6.1测验呈现方式

情境判断测验在呈现给被试时需要关注测验形式、反应指导语和题目顺序等方面的因素，而忽略这些方面将导致测验结果和评价决策的误差。首先测验形式的差异会导致不同水平的信效度.这得到一些实证研究的支持，比如视频测验要比纸笔测验具有更好的预测效度和增益效度（Chan&Schmitt，1997；Kasten&Freund，2015；Lievens&Sackett，2006；Ployhart，Weekley，Hohz，&Kemp，2003）。相同内容的测验形式在进行比较和转换时需要特别谨慎，在同一样本的测评中需要采取相同的测验形式。情境判断测验具有情境敏感性，不同程度的情境嵌入感知会带来不同的反应行为。在测验实施过程中给予被试不同的反应指导语也会带来不同的测验结果和属性，反应指导模式会启动被试产生对测验情境不同的认知和理解。行为倾向的反应模式会启动被试产生程序性的认知，更多关注测验行为反应是如何实施的：而知识倾向的反应模式促使被试产生程序性的知识，主要关注测验行为的解释和描述。测验反应指导语需要与测量概念和预测效标有对应匹配的关系.在预测认知能力时行为模式具有更好的效果，而在预测人格特质时知识模式具有更好的效果（McDaniel et al，2007）。情境判断测验的实施需要受测者投入一定的认知资源，特别是题项比较长.题目异质程度高，或者测验包含无关内容时题项在呈现过程中会产生顺序效应，即相同的题目放置在前后不同位置上会导致不同的行为选择（Marentette，Meyers，Hurtz，&Kuang，2012）。因此，测验开发者在编制情境判断测验时需要降低测验无关内容的干扰，排除测验中的“杂质”，提高测验题项的同质性。

6.2测验作假行为

测验中的作假行为是人事测评中经常遇到的现象，受测者基于相关动机有意识地歪曲测验反应，做出偏好或期望性的反应（Peeters&Lievens，2005；Whetze]&McDaniel，2009），这会增加测验系统误差，降低测验信效度。已有研究表明情境测验中的作假行为与效标关联效度和增益效度具有显著负相关关系，相比诚实组被试（0.33），作假组被试的效标关联效度更低（0.09），同时在增益效度方面，诚实组被试的情境判断测验提供比认知能力和人格测验更高的变异解释量，但作假组被试的情境判断测验没有出现显著的增益方差（Peeters&Lievens，2005）。情境判断测验具有情境保真度和情境特定性特征.加之测验题项在表述上具有复杂性.因此个体对测验做出反应时容易歪曲测验反应，不能反应真实的行为。已有研究指出测验作假行为在不同的反应指导模型中会出现不同的效应.在一项被试内的设计中引导被试诚实反应的先后顺序会调节作假效应（Nguyen，Biderman，&McDaniel，2005）。測验作假行为对于情境判断测验的影响是负面的，因此在测验实施过程中需给予重视，采取相关措施来降低受测者的作假行为。Lievens，Peeters和Schollaet（2008）研究了降低测验作假行为的方法，他们指出当情境测验中加入测验阐释（说明原因）的条件后可以降低被试的作假行为，提高他们如实反应的倾向。测验作假行为应该成为情境判断测验研究的方向.通过关注降低测验作假效应的方法和策略，来避免测验作假对结果造成的负面影响。测验作假行为是由于测验实施过程中所产生的行为，还是由于受测者本身的人格倾向所导致的，已有研究远没有解决这些问题。

6.3测验群体差异

由于情境判断测验题项具有情境敏感性和特定性，不像认知能力和人格测验的题项那样通用，因此在具体实施过程中会受到人群特征的影响，从而造成测验结果的差异。以往研究主要从性别、种族、国别、求职和在职等方面来研究情境判断测验行为上的差异，并发现情境判断测验存在亚群体差异（Banki&Latham，2010；Chan&Schmitt，1997；Weekley，Ployhart，&Harold，2004；Whetzel，Mcdaniel，&Nguyen，2008）。首先.情境判断测验在种族上存在显著的差异，Chan和Schmitt（1997）研究发现白人的测验成绩要显著地好于黑人.而且种族和测验形式（纸笔和视频）存在交互作用，种族的测验差异在视频形式中会更小，种族测验差异可以部分归因于被试阅读理解上的差异。在另外一项研究中，Banki和Latham（2010）发现，尽管在非西方国家的样本中支持了情境判断测验有较好的效标关联效度，但是在不同的文化背景下仍然存在一些差异。情境判断测验在整体上具有跨文化通用性，但是受到文化群体的影响，在其效度指标上存在一定的差异。Whetzel等（2008）对情境判断测验的亚群体差异做了元分析，结果表明（1）在种族差异上白人被试的测验成绩通常要好于非洲裔、西班牙裔、亚裔被试；（2）女性被试的测验表现要好于男性被试。其中存在一些变量调节了亚群体差异，比如在反应指导模式上知识模式指导的测验要比行为模式具有更高的种族差异。此外，在以求职者和在职者为样本的研究中发现了亚群体差异，求职者在人格测验中的得分较高.而在情境判断测验中的得分较低。但是在两种群体中测验的因子结构是等价的，并具有相似的效标关联效度（Weekley et a1.，2004）。

7.讨论与展望

情境判断测验是人事选拔和测评领域中重要的研究主题，既包含重要的理论意义.又具有广泛的实用价值。尽管情境判断测验的研究是丰富的，但是仍然有问题值得关注和研究，以便更好地帮助我们理解情境判断测验预测工作绩效背后的心理和行为机制。

首先从测验形式上来看.未来研究可以开发和比较多种形式的情境判断测验。随着网络技术、数字媒体技术和移动技术的发展，情境判断测验可以借助这些技术来提高情境的保真度.让被试可以更加嵌入地完成情境判断测验。以往研究发现，基于多媒体形式或者视频形式的情境判断测验要比传统的纸笔测验具有更好的预测效度和增益效度（Kasten&Freund，2015；Lievens&Sack—ett，2006；Patterson et a1.，2016），其中一个重要的原因在于视频形式的情境判断测验具有更加情景化的内容.被试在视频呈现的题目中可以身临其境，以更加真实的方式参与判断。数字网络、智能手机、立体动画等媒介形式为提升测验的情景化提供了较好的方式.特别是移动互联网技术的普及和发展.研究者完全可以借助这种技术来随时随地开展情境判断测验.甚至可以结合经验抽样的方法开展纵向的研究设计，提高行为样本的情境嵌入度。

其次从测验的研究范式上来看，未来研究需要更多地关注构念范式的研究。传统方法范式的测验研究往往只重视测验分数.而忽略测验内容和概念，这种研究方式需要得到改进。因此在测验编制时需要关注测验的构念效度和内容效度，测验分析过程中需要加强构念的检验程序，并在结果中报告测验的详细内容。情境判断测验不再仅仅局限于是一种人员选拔的方法.而且还是组织行为研究中的理想构念。实际研究表明，情境判断测验具有稳定的再测信度.具有良好的預测效度、构念效度和增益效度（Burrus et al，2012；Slaughter et al，2014）。组织管理的问卷研究一般通过编制去情境化的题目来测量某一个概念，有些时候被试对于题目的判断缺乏参考情境，导致他们可能很难真正地去理解某种描述，造成测量的偏差.而采用情境判断测量来表征一个构念就可以尽可能地解决这种问题，提高理论的情境性。因此在学术研究中增加概念的情境测验有助于提高研究的理论价值。

最后情境判断测验可以与其他测评工具进行结合来提高人事选拔和决策的质量。已有研究较少将情境判断测验与评价中心、传记数据、结构化面试等工具相结合，共同解决一项研究问题，一般是单独采用某一种方法。每种研究方法都有自己的优势和不足，相互之间可以提供和补充相关的佐证，提高研究的信度和效度。比如认知能力测验.虽然缺乏特定的情境指导，但是它在反应模式和计分方法上更加标准化和高效，而情境判断测验对于测评情境和专家具有较强的依赖。因此，研究中可以尝试将这两种方法结合在一起，采用不同的方法针对同一个问题进行分析和测量.从而能够更加有效地解决研究问题。在实际的人事测评工作中，情境判断测验作为概念或许也可以解释其他测评工具与工作绩效之间的关系。它们之间的结合可以更好地理解情境模拟对于工作绩效的预测机制。