APP下载

评分员培训对作文评分员差异的影响研究述评

2021-01-02涂颖

考试研究 2021年3期
关键词:评分标准眼动一致性

涂颖

一、引言

写作测试的评分涉及包含评分员、评分量表、考生、 写作任务和评分员培训在内的一系列影响因素及其之间的交互作用 (Milanovic & Saville,1996;Weigle,2002;Barkaoui,2008;陆远,2010)[1-4]。 这些因素及其交互作用的存在导致评分过程和结果呈现出差异性。在写作测试中,这种差异很大程度上来自于评分员差异。 Eckes(2008)发现,评分员差异与评分员特征有关,而与考生的表现无关[5]。 评分员差异导致了评分结果与真分数的偏离, 因此对写作测试的信度和效度及考试的公平性构成了直接威胁。 写作评估和教育测量领域的专家普遍认为, 评分员培训对于获得可信的作文考试评分至关重要。 例如,Weigle(1994)指出,写作测试评分信效度的核心问题是评分员培训;培训帮助评分员界定了评分标准,调整了其对考生和任务的期望值, 从而提高了评分员之间的一致性[6]。

对作文评分员培训效果的实证研究(Shohamy et al.,1992;Weigle,1994;颜静兰,2018)表明,培训能够减少评分员之间的差异,提高评分一致性[7-9]。 然而, 一 些研究 (Hoyt & Kerns,1999;Barrett,2001;Myford & Wolfe,2000;燕翔宇,2010;张文星、邹申,2015)[10-14]则揭示出评分员培训在减少评分员差异等方面的效果比预期要低得多。由此可见,研究者对评分员培训效果尚未达成共识。同时,在对相关文献的梳理中发现,许多研究对培训过程的描述十分简略,使得我们对培训过程到底是如何进行的、 培训又是如何产生作用的等信息知之甚少。

因此,基于培训效果的争论及其实证结果,本文将从评分员培训对评分员差异的积极影响和消极影响两个方面对相关文献进行梳理, 分析当前研究存在的不足,并提出进一步的探究方法,以期对今后的研究提供一些参考。

二、评分员培训对评分员差异的积极影响

大量研究者对评分员培训持积极态度 (如Jacobs et al.,1981;Charney,1984;Lumley & McNamara,1995;Wolfe et al.,1999;Elder et al.,2007;Knoch et al.,2007;陆远,2010)[15-21]。他们认为评分员培训有利于调和由不同专业背景评分员所造成的评判差异(Jacobs et al.1981)[22]; 有助于评分员更加清晰地理解评分标准, 同时有助于鼓励评分员依照设定好的标准、 而不是根据他们自己的标准作出判断(Charney,1984)[23]; 能通过使评分员熟悉写作任务的要求以及不同考生的特征来减少评分员对作文期望值的偏差,提高评分一致性(Elder,2007)[24];可以帮助评分员准确地理解评分标准, 从而减少评分员严厉度的总体差异(陆远,2010)[25]。

以上观点在一些实证研究中得到了证明。例如,Shohamy et al.(1992)[26]对比了不同职业背景和培训情况下的评分员作文打分的可靠性。结果发现:评分员的职业背景对评分效果没有影响, 而评分员是否经过训练对评分效果有显著的影响, 受过培训的评分员比未受培训的评分员评分更可信 (比率分别是0.91-0.93 vs.0.80-0.90)。 这一研究成果突出了评分员培训的重要性,Weigle(1994)[27]对此做了进一步的探索。 Weigle 采取有声思维和跟进访谈形式对有经验和无经验的评分员(各8 名)在培训前后分别评判相同的作文进行调查研究, 探讨培训对ESL 水平测试作文评分员的影响。 通过对比培训前后各评分员对评分标准中三个子类(内容、修辞、语言)的给分差,研究发现,规范的培训成功地使这些评分员的打分更一致。最后,通过分析4 名评分员在培训前后的有声思维和跟进访谈内容, 总结了评分员培训的积极效果。 Weigle 表示,培训帮助他们“界定了评分标准(clarification of the rating criteria)、调整了对考生和任务的期望值 (revising expectations of examinees and task)、关注评分员之间一致性(concern for interrater agreement)”。

随着计算机网络的发展与成熟, 机器评分和网络在线培训逐步兴起, 并引发了讨论。 Elder et al.(2007)[28]就网络评分培训进行了问卷调查。 结果表明,网络培训对评分员内部一致性、评分员严厉度及偏差的影响非常小,只是局限在某些方面。这次研究从侧面证明了面对面培训的重要性, 尽管面对面培训相比网络培训而言更耗费时间和金钱, 但仍是较为有效的培训方式。Knoch et al.(2007)[29]则详细对比了传统的面对面培训和在线培训在严厉度、 内在一致性、集中趋势、光环效应以及显著偏误等方面的效果。 结果显示,两种方式都能有效降低评分员效应,并且从正面证明了面对面培训由于结合了个性化反馈,对减少各种偏差更有效。

最近的一项研究(颜静兰,2018)[30]证实,培训较大程度上缩小了评分员给分与专家给分之间的差异,能帮助其掌握新的评分标准,确保阅卷质量。 实验首先对TEM 评分员进行写作专项培训,包括TEM作文新题型的理解与认识、 写作题目和材料的解读与分析以及写作评分标准的培训, 再将TEM4 评分员参加专项培训后对一套样卷的打分情况 (包括给分平均分、集体平均分值差异、个体最大分值差异)与专家给分进行对比。结果显示,培训前评分员对第一套样卷的打分与专家组的评分差距较大, 平均分值差异可达到5-8 分, 个体最大分差可达10 分;经过培训,集体平均分值差异最大为3 分,个体分值最大差异为4 分,总体情况得到了很大改善。该项研究对培训过程的描述较为详细, 为评分员培训研究提供了很好的参照。

从上述研究不难看出, 评分员培训提高了评分员之间给分的一致性,降低了评分员效应,对减少评分员差异产生了积极影响,提高了评分信度。

三、评分员培训对评分员差异的消极影响

有学者对培训的效果持相反观点。 有些研究人员(如Charney,1984;Huot,1990)认为,如果评分员培训的目的是为了达到评分的一致性, 那么所达成的共识很可能只是停留在文章表面,如书写和拼写,而不是基于任何实质性的标准, 写作质量真正的优劣往往被忽略[31,32]。 Barritt et al.(1986)同样提出担忧, 一味强调对评分员进行培训以达成共识会迫使他们忽略自己在评判文章方面所积累的经验和专业知识[33]。 Vaughan(1991)指出,不管如何培训,评分员依旧会关注不同的文本特征并形成不同的评分内化标准[34]。

以上观点在一些实证研究中也得到了印证。Vaughan(1991)采取有声思维研究受过培训的评分员使用整体评分法评阅作文的心理过程, 确定了一些独特的阅读策略或阅读风格,如“第一印象主导风格 (first-impression-dominates style)”、“两类别风格(two-category style)”、只关注结构和语法的“语法导向风格(grammar-oriented style)”等,并得出结论:尽管经过相同的培训, 不同的评分员依旧关注不同的文章要素,并可能存在阅读文章的个性化方式[35]。 与之相似,Eckes(2008)使用李克特四级量表考察了64名受过培训的托福考试写作部分评分员对评分标准各个维度,如流利性、完整性和语法正确性等的重视度。 多面Rasch 分析表明,评分员对各标准的重要性看法有很大不同。 而后,通过双模聚类技术(a twomode clustering technique)凸现了6 种不同类型的评分员。 其中四种类型是根据评分员对评分标准中某一项目给予高度重视而命名, 分别是: 句法至上型(Syntax Type)、准确度至上型(Correctness Type)、结构至上型 (Structure Type)、 流利度至上型(Fluency Type)评分员。 另外两种类型则根据评分员对标准中某一项目的忽视而命名, 即非流利型 (Non-fluency Type)和非论证型(Non-argumentation Type)评分员。因此,正如Eckes 所说,评分员远没有将他们的注意力均衡地分布在一套评分标准中[36]。 Winke & Lim(2015)引入眼动追踪技术(eye-tracking technology)更加直观地证明了这一点。 研究通过记录9 名受过培训的评分员使用分项评分量表评阅40 篇作文时的眼动数据表明,并非每个子类别(内容、结构、词汇、语言使用、书写)都受到了同等的关注,具体表现为评分员对结构和内容两个维度最为关注, 而对书写的关注最少[37]。Eckstein et al.(2019)同样使用眼动追踪技术,探究5 名受过培训的TESOL 英语教师在评阅L1 和L2 写作时的评分行为差异。 结果表明,评分员有意地阅读L1 文本的修辞、组织和语法,而忽略L2 文本的语法。 这表明评分员对文本的关注点存在明显的偏向;同时说明,即使经过培训,评分员对不同考生背景的文本仍然表现出不同的评阅风格[38]。

此外,越来越多的相关研究表明,即使经过严格的培训,评分员之间的严厉度仍然存在显著的差异。Weigle (1998) 利用基于项目反应理论的多层面Rasch 模型(Many-Facet Rasch Model,MFRM)分析发现, 尽管经过培训后大多数评分员的一致性有所改善,评分员之间的严厉度仍然存在显著差异[39]。 张文星、邹申(2015)和李美娟、刘红云(2015)同样运用多层面Rasch 模型对大规模英语考试作文评分员的评分数据进行分析,二者的实验结果均表明,评分员在宽严度方面存在显著差异[40,41]。 可见,评分员培训效果似乎又不尽如人意。

四、总结及启示

基于相关文献就评分员培训对评分员差异的影响进行了回顾。整体而言,评分员培训的研究在近四十年取得了丰硕成果。 尽管评分员培训效果的研究结论不一, 但评分员培训目前仍是写作测试人工评分的必经环节, 也是最常见的减少评分员差异的重要途径,其目的在于增强评分员一致性,提高测试信效度,保证考试公平性。 因此,评分员培训研究无论对于施测者还是受测者均有重要意义。

研究得出的评分员培训效果不一, 其原因可能在于以下几点:

首先, 使用的评分标准不同。 如有的研究 (如Vaughan,1991)使用的是整体性评分标准[42],而有的研究(Weigle,1994)使用的是分析性评分标准[43]。 按照Weigle(2002)和Weir(2005)的说法,分析性量表比整体性量表更有助于提高培训效果[44,45]。由此可见,评分标准不一,培训效果有别也就不足为奇。

第二,在内容方面大多关注培训后评分宽严度、一致性和偏差的变化, 对培训后的评分过程是如何影响评分结果的,尚不明确,如培训前后关注焦点的变化。

第三,在培训方法上,多采取统一的集中培训模式,忽略了评分员在阅读方式、决策风格、认知特点等方面的个体差异,因此可能抵消培训效果。

最后,在培训效果评估方面,大多是从统计学的角度出发, 如采用Rasch 模型对评分结果进行统计分析。Rasch 模型的输出数据虽能较为全面地诊断评分员在评分中所存在的问题, 却无法提供更为直观且有针对性的反馈。

此外, 尽管在写作评估的文献中对评分员培训的讨论颇多, 但培训是如何使评分员就评分达成一致的, 评分员培训又是如何影响评分过程等方面的研究相对较少。 早在Weigle1998 年的研究中就强调, 仅仅能够为考生的表现分配一个更准确的数字是不够的, 除非我们确定这个数字代表了被测试能力的更准确的定义[46]。 徐鹰、曾用强同样认为,评分员培训“不仅应关注以分数为代表的评分结果,也应关注分数所代表的意义和评分人的给分过程”[47]。 这就意味着, 未来评分员培训研究应更多地将关注点放在培训过程上, 通过对比培训前后评分员的决策过程来探究培训效果。在研究方法上,未来的研究可以引入眼动追踪技术,该技术具有实时追踪优势,能够生动、清晰地记录评分员评分过程的眼动轨迹,为评分员决策过程研究提供直接的测量工具。 通过眼动指标以及注视图和热点图可以验证与探讨评分员培训前后评判关注点的变化, 进一步揭示培训后评分过程与评分信效度的关系。此外,利用眼动追踪技术能够为评分员提供直观而又有针对性的反馈信息,由此最大化培训的积极效果,从而提高阅卷质量与考试公平性, 也为写作教学与测试提供建设性的启发。

猜你喜欢

评分标准眼动一致性
商用车CCC认证一致性控制计划应用
基于眼动的驾驶员危险认知
基于ssVEP与眼动追踪的混合型并行脑机接口研究
注重教、学、评一致性 提高一轮复习效率
对历史课堂教、学、评一体化(一致性)的几点探讨
贵州省体育高考100米跑新评分标准制定研究
海豹的睡眠:只有一半大脑在睡觉
永远的格纹
初高中英语作文评分标准初探
静止眼动和动作表现关系的心理学机制