中学理科实验操作考查的评分者效应和评分者信度<br/>——基于多面Rasch 模型的分析

中学理科实验操作考查的评分者效应和评分者信度
——基于多面Rasch 模型的分析

2020-12-21麦裕华黎光明钱扬义

教育测量与评价 2020年11期

麦裕华黎光明钱扬义

一、问题提出

表现性评价是在真实情境下，对人们问题解决过程中表现的复杂知识、能力和情意进行测量的评价方式。中学理科课程的实验操作考查作为典型的表现性评价，主要评估学生完成理科常见实验的基本实验操作能力。自20 世纪80 年代末以来，国内各地教育行政部门加强中学理科课程管理，设置初、高中理科实验操作考查，借此提高学生实验操作能力。教育部提出，初中学业水平考试“要重视对有关学科教学实验操作的考查”[1]，普通高中学业水平考试“要对相关科目的实验操作的考试提出要求”[2]。国务院办公厅“鼓励有条件的地方将技术科目和理化生实验操作纳入省级统一考试”[3]。中学理科实验操作考查逐渐成为选拔中学优秀人才、有高利害关系的表现性评价。然而，实验操作考查的研究主要集中在试题命制和考务组织[4][5][6][7]、评分方式[8][9]、对理科实验教学的反拨作用[10]等主题上，鲜少讨论评分者效应、评分者信度等关键问题。相关的实证研究有麦裕华等人应用百分比法和相关法，初步探讨考查学生高阶思维的化学复杂实验的评分者信度及其影响因素。[11]

评分者的认识、情绪和疲劳等主观因素，容易使其在表现性评价中出现偏差，产生评分者效应（rater effect）。[12]评分者效应包括宽严效应（leniency/severity effect）、趋中效应（central tendency effect）、随机效应（randomness effect）、光环效应（halo effect）和区分性宽严效应（differential leniency/severityeffect）。[13]评分者效应的存在会影响评分者信度（包括评分者间信度和评分者内信度）。但是常用计算评分者信度的百分比法、相关法和概化理论[14]均无法清楚地显示每位评分者的评分对作答者得分、评分者效应和评分者信度等的具体影响，也无法同时考虑计分规则、测试任务的难度等因素可能产生的作用。

Linacre 提出的多面Rasch 模型（many-facet Rasch model，MFRM）以项目反应理论的Rasch 模型为基础，将可以对测量结果产生系统误差的因素作为侧面，既估计每位评分者评分的宽严度，分离和校正评分者误差对作答者得分的影响，又估计其他侧面对作答者得分的影响，以及评分者与其他侧面的偏差作用，可以提供丰富的评价信息。[15][16]许多研究者曾应用MFRM 研究不同形式表现性评价的评分者效应或评分者信度，包括写作[17][18][19][20][21]、口头汇报[22][23][24][25][26]、无领导小组讨论[27]和创造力测验[28][29]等，但鲜少应用MFRM 探讨中学理科实验操作考查的相关问题。另外，在考务管理中，当评分者监考不同人数考生时，其对考生实验操作过程的观察和判断可能有不同反应，这都可能影响评分者信度。因此，了解监考人数和评分者信度的具体关系十分重要。

总的来说，探讨中学理科实验操作考查的评分者效应和评分者信度的实证研究，亟须应用高级测量和统计方法，如MFRM。这一方面有助于评分者了解和提高评分质量，避免错误评分，完善实验操作考查的组织管理；另一方面有助于弥补过往研究的不足，认识评分者效应和评分者信度对学生评价的影响，最终为促进国家教育考试招生制度改革提供实质性支持。基于上述考虑，本研究以初三化学实验操作考查常见试题为例，探讨如下问题：（1）实验操作考查的评分者效应如何？（2）实验操作考查的评分者信度如何？（3）监考学生人数对评分者信度有何影响？

二、研究方法

1.被试学生

本研究通过随机抽样，在广州市400 所初中随机选择某学校，再随机选择该校初三年级某班36 位学生作为被试。这些学生已学习初三化学课程的过滤实验操作，能够独立完成“过滤粗盐水”实验。学生被随机分为3 个大组，第一、第二、第三大组分别有6 人、12 人、18 人。3 个大组分别按每小组2 人、4 人、6 人的标准随机分成3 个小组，依次编号为1～9 号小组。

2.评分者

评分者在中学理科实验操作考查中的表现是本研究的重点，评分者的选择是影响研究质量的关键因素。因此，本研究随机选择3 所初中，在每所学校的初三化学教师中再随机选择一位教师作为评分者（甲、乙、丙）。3 位评分者均为大学化学类专业毕业，有多年初三化学课程教学经验，而且都开展过所在学校初三化学实验操作考查工作，有着丰富的实验操作考查评分经验。选择他们作为评分者，具有一定的代表性。在研究开始前，3 位评分者对评分标准进行过讨论，具有一致的评分认识。

3.研究工具

初三化学实验操作考查主要以初三化学课程常见的、重要的实验为试题素材。如“过滤粗盐水”实验主要考查学生的过滤实验操作，是初三化学实验操作常考的内容。本研究选择该实验作为考查内容，是为了模拟实验操作考查的真实情境。“过滤粗盐水”实验被划分为9 个评分要点，分别是：（1）正确制作滤纸过滤器；（2）滤纸边缘低于漏斗口；（3）湿润滤纸贴紧漏斗内壁；（4）调整漏斗合理高度；（5）漏斗下端管口靠烧杯内壁；（6）用玻璃棒引流浊液；（7）玻璃棒靠在三层滤纸上；（8）浊液面低于滤纸边缘；（9）浊液过滤结果良好。评分要点（3）（5）（6）（7）各计2 分，其他评分要点各计1 分，满分是13 分。评分要点经过化学教育学科专家讨论，具有良好的内容效度和专家效度。

4.研究流程

实验操作考查分9 个场次进行，每个场次分别安排对应编号的小组参加。第1～3 场分别由第一大组的3 个小组参加，每场2 位学生。类似地，第4～6 场、第7～9 场依次分别由第二大组的3 个小组（每组4 人）、第三大组的3 个小组（每组6人）参加。学生在15 分钟内独立完成实验操作。3位评分者同时监考每个场次的所有学生，分别观察学生的实验操作，依据评分要点独立评分。

5.数据处理

本研究建构学生、评分者、评分要点和学生组别4 个侧面。其中，学生组别侧面是虚拟侧面，根据学生所在大组编号来确定。研究使用Linacre编制的MFRM 计算机统计软件FACETS（版本为3.81.1）处理数据，了解各侧面的观察值、模型预测值和模型适配度统计量。为了解评分者侧面与其他侧面是否存在交互作用，本研究进一步对“评分者与学生（及其组别）”“评分者与评分要点”“评分者与学生（及其组别）、评分要点”进行偏差分析。

6.数据分析

本研究通过FACETS 计算卡方值和分隔信度等统计量，检视评分者宽严度的内部是否有极大的差异，以及作答者能力值、组别能力值和测试任务难度的内部是否分别有极小的差异，从而判断评分者在群体上存在的各种评分者效应。[13][30][31]由于卡方检验的显著结果易受样本量影响，所以研究者建议主要参考分隔比率（separation ratio）、分隔指数（separation index）和分隔信度（reliability of the separation index）等统计量。[13]这些统计量的数值越小，表示各侧面数据内部差异程度越小。分隔信度的取值范围是0～1。Myford 和Wolfe 认为，当分隔信度达到0.70 时，就存在可识别的统计上的显著差异。[13]

笔者使用FACETS 计算加权均方拟合统计量（infit MNSQ）和未加权均方拟合统计量（outfit MNSQ），评估每个侧面的观察值与模型拟合的情况。由于outfit 值对极端值比较敏感，一般以infit值作为评估的主要指标。研究者提出多个不同的infit 值范围，以判断观察值是否拟合模型。[15][32]为了获得较高精确度的测量结果，本研究采用的infit 值范围是0.80～1.20。[26][32]当infit 值在该范围内，表示观察值适合使用MFRM 分析；当infit 值大于1.20 时，表示多位评分者的观察值与模型预测值的差异过于悬殊，说明评分一致性程度和评分者间信度较低；当infit 值小于0.80 时，表示多位评分者的观察值与模型预测值的差异过于一致，说明评分一致性程度过高。

偏差分析通过分析不同侧面间的交互作用，判断评分者的评分是否存在显著偏差。FACETS提供交互作用组合的t 值，可以将该值的绝对值大于2 作为判断评分存在显著偏差的标准。[13][33]当t 值是负数且数值越小时，表示评分者评分越严格。同时，FACETS 提供非期望反应（unexpected responses），以标准残差stRes 的绝对值大于3 作为评分存在显著偏差的判断标准，呈现多个侧面具体的显著差异情况。

三、研究结果

1.各侧面的统计结果分析

（1）学生能力值：显示可接受的评分者间信度

“过滤粗盐水”实验是初三化学课程的重要教学内容，36 位学生的能力值范围是0.19～4.67 logits，平均能力为2.40 logits，说明学生的能力在该实验操作考查中均处于较高水平。卡方检验显示，学生能力值的χ2（35）=97.60，p＜0.001。但分隔比率是0.91，分隔指数是1.55，分隔信度是0.45，这说明学生能力的差异不显著。学生具体的评分情况如下。

首先，4 位学生的原始成绩获得满分，他们的infit 值显示为“maximum”，另有16 位学生的infit 值在建议值范围。这20 位学生约占总人数的56%，说明评分者对全体学生的评分一致性程度，即评分者间信度处于可接受的一般水平。

其次，学生的infit 值高于1.20 的有8 人，占总人数的22%。第一至第三大组分别有该情况的学生是2 人、2 人、4 人，占各大组人数的33%、17%、22%。这显示3 位评分者对学生各个评分要点的评分与模型预测值之间差异较大，对于监考学生人数最少的第一大组，评分者评分差异较大的情况出现得最多、较低评分者间信度出现的比例最大。

最后，学生的infit 值低于0.80 的有8 人，占总人数的22%。第二、第三大组分别有该情况的学生是5 人、3 人，占各大组人数的42%、17%。这显示3 位评分者对学生各个评分要点的评分与模型预测值的差异高度一致，对于监考学生人数居中的第二大组，评分者评分高度一致的情况出现得最多。

此外，根据学生组别虚拟侧面的统计结果，第二、第三大组的infit 值在0.80～1.20，第一大组的infit 值略大于1.20，这显示评分者在第一大组的评分者间信度略低。卡方检验显示，学生组别能力值的差异不显著，χ2（2）=0.00，p=0.99＞0.05。学生组别能力值的分隔比率是0.00，分隔指数是0.33，分隔信度是0.00，说明学生组别能力的差异不显著。

（2）评分者宽严度：显示良好的评分者内信度

评分者宽严度指评分者在评分时的宽松或严厉程度，可以表现评分者效应的宽严效应。宽严度的logits 值越高，表示评分者的严厉程度越大，反之则表示宽松程度越大。表1 显示：3 位评分者宽严度范围是-0.35～0.36 logits，平均宽严度为0.00 logits，其中，评分者丙最严格、宽严度最高，评分者乙最宽松、宽严度最低。3 位评分者宽严度的infit 值均在0.80～1.20，这显示3 位评分者个人评分一致性程度，即评分者内信度良好。

（3）评分要点难度：显示较低的考查难度

表2 显示：9 个评分要点的难度范围是-4.13～0.62 logits，平均难度为-1.84 logits。学生在评分要点（1）（2）（4）（9）均获得原始成绩满分，评分要点（5）的难度最大，说明“过滤粗盐水”实验操作考查整体难度偏低，但符合考查考生基本实验操作能力的目标。

评分要点（1）（2）（4）（9）的infit 值显示为“minimum”，这与学生在上述要点上均获得原始成绩满分有关。评分要点（3）（6）的infit 值分别是0.71，1.22，其余评分要点的infit 值均在0.80～1.20。卡方检验显示，评分要点难度的χ2（8）=40.20，p＜0.001。但分隔比率是1.42，分隔指数是2.23，分隔信度是0.67，说明评分要点难度的差异未达到显著。

表1 评分者宽严度统计

表2 评分要点难度统计

表3 评分等级的使用情况

（4）评分等级使用：显示合理的等级使用

评分者在各评分要点使用的评分等级情况见表3。随着评分等级的提高，评分者使用次数和评分等级预测能力值都相应递增，最高评分等级的使用比例也相应增大，这说明评分者合理地使用了评分等级。

2.其余4 种评分者效应的情况

除了已经在“评分者宽严度”中讨论的宽严效应，其余4 种评分者效应的表现情况如下。

首先，趋中效应指评分者在具有多个评分等级的量尺中，过度使用量尺中间的评分等级，因而无法有效区分不同水平的学生。在本研究中，表3 显示：评分者在评分要点（3）（5）（6）（7）上使用1 分（中间评分等级）的次数，并未同时显著高于2 分（最高评分等级）和0 分（最低评分等级）的次数，说明评分者并未过度使用量尺中间的评分等级，在群体上不存在趋中效应。

其次，随机效应指评分者由于理解或其他原因，与其他评分者相比，不一致地使用评分等级，因而无法有效区分不同水平的学生。在本研究中，学生能力值的分隔信度显示学生的能力差异不显著，说明评分者在群体上存在随机效应。[13]使用独立评分者-其他评分者相关系数“single rater-rest of the raters（SR/ROR）correlations”，可以进一步确定具有随机效应的评分者。当某评分者的相关系数比其他评分者的系数明显更小，这说明该评分者具有随机效应。评分者甲、乙、丙的相关系数分别是0.46、0.41、0.53，各评分者的相关系数都较低且接近，说明他们可能都存在一定的随机效应。

再者，光环效应指评分者不能清晰地辨别不同项目的含义，在这些项目中均给予学生相似的分数，因而无法有效区分不同水平的学生。在本研究中，评分要点分为2 个或3 个层次，分隔指数和分隔信度并不算小，评分要点难度的差异接近显著，说明评分者在群体上不存在光环效应。[13]

最后，区分性宽严效应指评分者对某些组别学生给予更宽松或更严厉的评分，因而无法有效区分不同水平的学生。在本研究中，通过综合比较评分者的评分情况可知，评分者在群体上不存在区分性宽严效应。

3.各侧面间的偏差分析

（1）二侧面偏差分析：未显示光环效应和区分性宽严效应

本研究中，4 位学生和4 个评分要点（1）（2）（4）（9）均获得原始成绩满分，这些学生和评分要点均未被软件纳入偏差分析的计算。如表4 所示，根据交互作用组合的t 值和卡方检验，评分者与学生、评分者与学生组别、评分者与评分要点的二侧面交互作用均不显著。这显示评分者不会因为学生、学生组别和评分要点的不同，而使用显著不同的评分宽严尺度。同时，评分者与评分要点、评分者与学生组别的偏差分析t 值，可以作为判断评分者在个人上是否存在光环效应、区分性宽严效应的方法。[13]表4 也显示3 位评分者均不存在光环效应和区分性宽严效应。

表4 评分者与不同侧面的偏差分析

（2）三侧面或四侧面偏差分析：显示较弱的区分性宽严效应

在评分者与学生组别、评分要点的三侧面偏差分析中，χ2（45）=36.90，p=0.80＞0.05，交互作用组合的t 值的绝对值均小于2，这显示评分者与学生组别、评分要点的三个侧面交互作用不显著。

在评分者与学生、评分要点的三侧面偏差分析中，χ2（480）=694.50，p＜0.001，共有58 个交互作用组合的t 值小于-2，达到显著偏差，占交互作用组合总数（480 个）的12%，这显示评分者与学生、评分要点的三个侧面交互作用显著。其中，3 位评分者在评分要点（8）上的评分存在显著偏差。

在评分者与学生及其组别、评分要点的四侧面偏差分析中，仅出现9 个非期望反应，占交互作用组合总数（1440 个）的0.63%。9 个非期望反应具有以下共同点：对于学生及其组别，主要是第三大组学生，尤其是第34 号学生出现非期望反应；对于评分者，主要是评分者甲出现非期望反应；对于评分要点，主要是在评分要点（5）和（8）上出现非期望反应；在这9 个非期望反应中，评分者的观察值均比预测值小，说明评分者给予了显著严格的评分。这些具体的多侧面偏差分析信息显示评分者在个体上存在较弱的区分性宽严效应，有助于评分者做出准确评估。

四、思考与建议

本研究应用MFRM 探讨中学理科实验操作考查的评分者效应、评分者信度，其若干发现对提升实验操作考查的评分质量有一定助益。

1.本研究的评分者效应和评分者信度可被接受

实验操作考查作为水平性的标准参照考试，不过分追求试题的区分度，主要是对考生完成理科常见实验的基本实验操作能力进行系统的评价。实验操作的科学性和规范性是极其明确的，有着容易判断对错的评分标准。因此，评分者对评分维度、项目内涵和评分标准（即评价规则）可以形成共识，也容易根据考生的实际表现（即评价对象）给予较一致的评分。

实验操作考查的这些特点容易对评分者效应和评分者信度产生重要影响。在本研究中，评分者不存在群体上的宽严效应、趋中效应、光环效应和区分性宽严效应，但存在一定的随机效应，同时考虑学生组别和其他侧面时存在较弱的区分性宽严效应。由于评分者效应不严重，对评分质量的影响不大，说明本研究具有一般的评分者间信度和良好的评分者内信度。值得关注的是，一般的评分者间信度可能由评分者的随机效应所致。

偏差分析结果显示：首先，本研究发现评分者与学生组别、评分者与评分要点的二侧面交互作用均不显著，评分者与学生组别、评分要点的三侧面交互作用不显著，其结果与一些报道评分者与不同侧面偏差分析结果的研究[18][19][22][25][27][28]相比，结论不同，在这些研究中，评分者与学生等侧面的二侧面交互作用存在显著性；其次，本研究也发现，在评分者与学生、评分要点的三侧面交互作用组合中，显著偏差组合占交互作用组合总数的12%，在评分者与其他侧面的四侧面交互作用组合中，非期望反应仅占交互作用组合总数的0.63%，这些统计数据也低于许多研究结果。

造成上述研究差异，主要是因为在写作、口头汇报、小组讨论、创造力测验等研究主题中，评分者较难对评价对象和评价规则形成一致的认识。上述表现性评价的评分维度、项目内涵和评分标准并不容易明确，评分范围也比较宽泛。评分者对评分维度和内容存在较多的主观判断，不容易形成共识，在使用评分等级时容易出现各种情况，产生各种评分者效应[17][24]，使得评分者信度不高。这些均可能导致评分者与各侧面的交互作用显著，显著偏差组合、非期望反应占交互作用总数比例较高。

综上所述，初三化学实验操作考查结果显示，评分者效应和评分者信度可被接受。但本研究只是孤立的案例，研究者仍须在日后开展大量的实验操作考查实证研究，进一步了解评分者效应和评分者信度在不同情况下的具体表现，为优化实验操作考查提供参考。

2.监考学生人数会影响评分者信度

本研究特别地安排评分者监考不同人数学生，以了解监考学生人数的变化对评分者信度的影响。根据常识，监考学生人数较少时，评分者可以对每位学生有充足的观察，更准确地评分，因而较高评分者间信度的出现比例可能较大。当监考学生人数较多时，评分者可能对每位学生缺乏充足的观察，给予不准确的评分，因而较低评分者间信度的出现比例可能较大。

但本研究显示，监考学生人数为最少的2 人时，学生能力值的infit 值大于1.20 的人数比例最大（33%），远高于监考人数处于中间的4 人（17%）和最多的6 人（22%）。换而言之，与监考4位、6 位学生相比，评分者监考2 位学生时，评分差异较大的学生人数比例和较低评分者间信度出现的比例最大。该研究结果似乎与常识相悖，其可能的原因是评分者在不同的学生群体中使用了不同的评分策略。实验操作有明显动作和细微动作之分，当监考学生人数最少时，评分者只需关注较少的学生，能够专注地、长时间地观察每一位学生的明显动作和细微动作。当评分者对某个学生细微动作的判断不一致时，容易出现评分不一致的情况，导致评分者间信度较低，在同类学生群体中，较低评分者间信度的出现比例就容易较高。当监考学生人数最多时，评分者需要关注较多的学生，未必能够专注地、长时间地观察每一位学生的实验操作，特别是细微动作。如果学生不是做出明显的错误操作，评分者可能采用保守的评分策略，给予学生满分，这可能导致评分者间信度较高，在同类学生群体中，较低评分者间信度的出现比例则较低。但评分者使用评分策略的真实想法仍然有待研究者通过非结构型的个人访谈来确定。

另外，本研究的评分要点具有明确的评分标准，可以使用的评分等级较少。部分学生能力值的infit 值小于0.80，出现这种结果可能是因为评分者采用了保守的评分策略，也可能是因为评分者观察到学生实验操作的某些状况，所以给予相近的评分等级。因此，现在尚难以直接判断第二、第三大组中能力值的infit 值小于0.80 的学生究竟属于何种情况，各组人数比例差异的成因也有待后续研究解释。

总体而言，本研究显示，监考学生人数对评分者间信度产生重要影响，但这种影响的方向和强度与常识相悖，尚需要更多的实证研究来共同判断。公平和科学是高利害考试的基本要求，评分者对每位考生的评分都极其重要。如果条件允许，建议教育行政部门在组织实验操作考查时，应用信息技术手段拍摄每位学生完整的实验操作过程，评分者可以结合实验录像对学生评分，以避免监考学生人数对评分者的评分产生负面影响。

3.可通过评分者事前培训和评分结果事后检查提高评分质量

中学理科实验操作考查是一些省份高中学业水平考试和中考的重要内容。评分质量的控制决定着实验操作考查能否在中、高考中进一步广泛应用。为提高评分质量，可以从评分者事前培训和评分结果事后检查两方面开展工作。

首先，评分者事前培训对减少评分者效应，提高评分质量具有重要的正面影响。[34][35][36]教育招生考试机构可以组织系统的考前评分实践培训，增加评分者对评分维度、项目内涵、评分标准，尤其是对不同类型评分者效应的一致性理解，提高个人准确评分的能力，并基于培训结果的反馈建议，增强评分者对个人评分能力的认知。[37][38]结合评分者的认知和评分表现，教育招生考试机构可以先将评分者分类，再给予有针对性的培训。[39][40]但已有研究也表明，评分者培训及其反馈并不能完全消除评分者效应，教育招生考试机构仍然要面对潜在的评分者效应对评分质量的影响。[36][41]因此，建议教育招生考试机构把评分者效应控制在极小的变动范围，努力减少随机效应和区分性宽严效应。

其次，MFRM 是一种效果不错的实验操作考查评分质量分析方法，它能够清晰和详细地呈现学生能力值、评分者宽严度和不同侧面的偏差分析，有助于教育招生考试机构检查可能存在问题的学生评分和评分者，及时了解评分者效应。因此，在评分结果事后检查方面，可将MFRM 作为评分质量控制的分析方法。如果学生的实验操作过程被录像，评分者可以回放录像，重新对存疑的学生进行评分。

此外，实验操作考查作为水平性的标准参照考试，学生容易获得一致或相近的评分，评分要点也有相同或相近的难度。这会导致MFRM 统计的学生（及其组别）能力值、评分要点难度产生极小的差异，形成评分者在群体上存在各种评分者效应的现象，但实际上这些评分者效应可能并不真实存在。因此，研究者有必要积极使用真实考查情境下的评分数据，探讨适应实验操作考查特点的评分者效应判断规则，为准确判断评分者效应提供可信赖的依据，更好地开展表现性评价。