APP下载

以多面Rasch 模型对一次课堂翻译测试的效度验证

2014-08-15郑美玲

山东农业工程学院学报 2014年6期
关键词:分数段评分标准效度

郑美玲

(北京语言大学,北京100083)

一、引言

相关文献表明(李中权等,2008;张洁,何莲珍,2008;李清华,孔文, 2010;罗丹,2011),国内几类高风险语言运用测试的质量问题常受到学者们的关注。 课堂翻译测试也属于运用测试,但其质量状况往往被忽视。 同时,该类测试的评分员评分、测试任务的设计、评分标准和评分量表的制定可能都存在一定的随意性。 此类测试虽是一种低风险测试,但它使用频繁,在形成性评价中发挥着重要的作用,应该具有较高的质量。 因此,我们有必要对课堂翻译测试的质量状况进行研究。

Bachman 和Palmer(1996:18) 认为测试的有用性包括信度、结构效度、真实性、交互性、影响和实用性。 其中效度对测试的质量至关重要。 效度验证指的是利用理论观点和实证数据对效度进行研究的过程 (邹申, 2005)。Weir (2010) 提出了基于证据的多层次效度验证方法,该理论对语言运用测试的效验有深刻指导意义。 语言运用测试涉及多方因素且因素间存在交互作用,比如评分员与评分量表、测量工具、考生之间,考生与测量工具之间等等,这些因素都影响着测试的效度。

鉴于此,本文试图对一次普通的课堂翻译测试的效度进行验证,从以下方面收集证据:评分员、考生、任务、评分标准、评分量表。 研究结果可以为评分员培训和试题设计提供反馈信息,还可帮助教师更好地分析考生答题过程从而促进老师的教和学生的学。

二、研究设计

(一) 研究工具

本研究采用多面Rasch 模型(MFRM)。 Rasch 模型属于单参数IRT 模型的一种, 用来分析多项选择题中的项目难度和考生的能力。 MFRM 是单参数Rasch 模型的延伸, 它可用来分析主观题中的考生能力以及考生能力之外的所有因素对考生得分的影响,这些因素包括评分人、任务、评分标准、评分量表等。 所有因素在MFRM 中被设定为各个面。MFRM 能帮助我们分析各层面造成的误差,然后对原始分数进行修正补偿,使分数更接近考生特质,提高试题的公平性。这里值得注意的一点是:经典测试理论视所有的分数变异为消极性并试图消除;MFRM 则认为评分员自身严厉度的变化是评分过程不可避免的,适度变化是可接受的。而且,评分员之间严厉度的显著差异不可能消除。总之,MFRM 已经成为运用测试中一种强大的测量工具。

(二) 研究问题

1. 在评分过程中, 评分员自身是否具有一致性? 评分员之间是否具有一致性?

2. 考生在答题过程中是否具有一致性?

3. 考试任务能否合理的区分所有考生?

4. 评分标准和评分量表的效度怎样?

(三) 参与者

本次测试是笔译这门课程进行期间的课堂测试,此课程每周一次,一次两课时。考生是来自北京某大学英语专业三年级两个班的学生。三位评分员参与评分,其中两名女性,一名男性。 女性评分员都有翻译测试阅卷经验。男性评分员有阅卷经验,但不是翻译测试阅卷。

(四) 测量工具

本测试包括四篇英文短文,每篇平均100 字,要求考生在90 分钟内将这些短文翻成汉语。 关于评分量表,本测试的评分采用1-5 级分析型量表,从准确性、流利度、得体性以及优雅这四项标准分别评分。 关于评分员,评分员1 是本门课程的教师,也是此次测试的开发者,在此项研究开展之前已经完成了评分。 本次研究另外聘请了两位评分员, 目的是比较三位评分员之间的一致性。 评分前,两位评分员仔细了解评分量表,对测量构念达成共识。 然后从考生之前的翻译练习材料中取样, 选取5份能够代表各个翻译能力等级的文本让评分员试评,并对评分结果进行讨论。 正式测评中, 每位评分员对每位考生的每个翻译任务进行评分。 最后收集到每位考生在12 个评分项上的得分。

三、结果与分析

此研究的模型可以理解为: 该考生得到某一成绩的概率(p)=考生能力-任务难度-评分员严厉度-第n 个评分标准难度-第n 个评分标准上得等级k 的难度。 模型的建立和计算都在FACET 中进行。

所有数据输入软件FACET 中并建立模型,得到总体分析层面图, 该图中各个面及其个体都在同一个洛基(logit)量尺上,这样能帮助我们对各个面的各个个体之间, 以及各个面之间进行大致比较。 大体观察得到如下信息:①考生层面,考生能力基本呈正态分布,但能力跨度很大, 能力最高和能力最低的考生相差近10 个洛基值。 48 号考生能力最高,31 号考生能力最低。 ②评分员层面,评分员度量值为均值0 是理想状态。1 号和2 号评分员的位置相对集中,在均值附近。3 号评分员距离另两位评分员稍远,评分最严厉。 ③任务层面,最难的题目和最简单的题目相差近1.5 个洛基值。 第2 题和第4 题较其他两题更难。 一般来说, 考生能力和任务难度度量值大体相当的时候, 最能够测出考生的真实能力水平。 ④评分标准层面,除elegance 外其他几项位置相对集中,一致性较好。 下面是各个层面及相关成分的信息。

(一) 评分员

评分员统计表中的Measures 一列显示,评分员3 最严厉,评分员2 最仁慈。 Infit Mnsq 一列则反映评分员自身一致性。Infit 值为1 表示数据与模型拟合良好。由于评分员自身水平,情感因素,身体因素等主观因素多,评分员评分过程很难严格按照一样的严厉度评分,适当的波动是允许。 对于Infit 的取值,不同学者观点不同,比如0.7 -1.3 ( Bonk & Ockey,2003)、0.6 -1.4 或 0.5 -1.5(Linacre, 2010; Weigle, 1998)。 McNamara (1996:173) 提出认为可以接受的取值范围介于平均值正负两个标准差之间。对于语言运用测试,范围可适当扩大。因此,本研究对于各个层面个体的拟合指数采取0.5-1.5 的取值范围。这里的数据显示,所有评分员Infit 值都在合理范围内波动,评分员内部一致性较好。

表格底部的分隔比率和分隔信度是层面水平上的统计量。 Myford & Wolfe(2004) 认为:当分隔比率大于2 且分隔系数大于0.9 时, 每一面中各个成分之间有显著差异。 分隔信度反映了评分员之间信度。 它表示每个层面的个体之间有显著差异的程度,取值在0-1,值越大表明个体间差异越大。此测试的分隔信度是0.98,说明评分员之间有很大差异。 但此差异是否于误差有关, 要看分隔系数,这里的分隔系数为7.69,说明评分员之间有显著差异。 同时,卡方值为120.5,不是很大,但P<0.05, 说明评分员之间具有统计意义上的显著差异,因而应该拒绝评分员评分无差异的零假设。

根据已知统计量,此次测试的评分员自身一致性高,但评分员之间一致性差。 3 号评分员采取了最严格的评分标准,这与Weigle(1998) 的研究结果一致:无经验的评分员一般评分更严格。 可通过评分员培训缩减评分员之间的差异。在本研究中,尽管有差异存在,但相差不大,对结果影响不大。 研究也多次表明, 严厉度属于评分员个人风格,即便有详尽的评分量表以及多次培训,评分员之间严厉度上仍存在差差异, 可以通过增加题量的方式减少评分员之间的差异对测试效度造成的影响。

(二)考生

考生能力表中,|ZStd|大于2 表示显著非拟合和过度拟合考生。 他们占考生总数将近20%,远远超过了2%,因此, 我们可以说有20%的考生其答题过程不一致(Pollitt & Hutchinson, 转引自 江进林& 文秋芳, 2010)。出题人应重视。

对于拟合度不好的考生应该从评分员和考生两方面分别解释。 一方面, 评分员对某些考生的评分可能特别高或者特别低,造成评分差异大于预测值,出现非拟合考生。 所以,非拟合情况要结合评分员被试偏差分析。 而评分员对某些考生的评判可能过于保守, 只用到某些分数段,且各项给分趋于相同,存在趋中效应或光环效应,出现过度拟合考生。 因此, 要结合这些过度拟合考生在各项评分标准上的具体得分来确定是否的确存在考分接近的现象。 另一方面, 某些考生可能因背景知识过少对某些翻译任务不感兴趣而发挥欠佳, 而某些考生可能对某些翻译任务非常感兴趣而发挥超长。 此测试中所有翻译任务都是从课文中随机挑选的段落, 该测试出题方式可能会对部分考生造成不公平现象。 要在复查阶段对拟合不好的考生进行面试从而具体分析。 Fair-MAvrage 是根据评分员严厉度,评分标准难度等对考生原始平均分做出调整以及补偿后的期望平均值, 该分值更接近考生的真实能力,这正是Rasch 优势之一,SPSS 无法做到。

在MFRM 中,考生层面的分隔系数和分隔信度对应的是试题之间的内部一致性信度。 测试的目的就是尽可能把考生能力区分开, 所以数值越高, 试题信度越好(Wright &Masters, 1982)。 这里分隔系数、 分隔信度和卡方值都较大,说明考生之间的翻译能力存在统计意义上的显著差异。

(三) 任务

试题任务表显示第1 题难度最低,第2 题难度最高,各任务的拟合度都在适当范围内, 都能够合理区分所有考生。 说明所有任务只测量了一种能力, 任务层面的效度验证较理想。另外分隔信度为0.99,任务之间有显著差异,分隔比率和卡方值也很高,说明任务之间有统计意义上的显著差异。

(四)标准

评分标准难度表中,首先,度量值一列显示评分员对标准2 (elegance)的评分最严厉,对标准3(fluency)的得分最宽松,这与翻译标准的理解是一致的,elegance 是译文质量的最高境界,准确、流利并且得体的译文不一定优雅,所以在优雅这项标准上的得分最难,评分员也最重视, 评分也最严格。 其次, 拟合度一列显示各项标准的Infit 取值均在可接受范围内, 说明考官在各项评分标准上的评分总体上具有较好的前后一致性, 也说明本测试从四个不同的维度共同测量了翻译这一能力,评分标准效度较高。 再次,分隔系数和分隔比率显示,各项评分标准具有统计意义上的显著差异。

(五)量表

评分量表的质量可以从三方面考察:1, 评分员对评分量表中各个分数段的使用情况。 2,每个分数段与考生的能力对应情况。 3,量表中分数段之间的间距对考生能力的区分情况。 (Bonk & Ockey, 2003)。 MFRM 提供四个标准的整体评分量表分数段统计表, 表中的average measure,Outfit MnSq 以及step calibration measure 从不同方面提供相关信息,这些统计量是进行效度验证的重要指标,

第一, 表格第一大列显示了各分数段的使用次数和频率。 本测试中评分员使用了所有的分数段, 第三个分数段使用频率最高。 第二,第二大列是平均度量值,即得该分数段考生的平均能力。 能力越高,分值应该越高,因此理想情况是呈单调递增趋势。 当平均度量值和预测度量值接近时,Outfit MnSq 接近理想值1, 如果差距越大,Outfit MnSq 指数越大。 如果大于2 表明考生预测分数和实际分数有较大差距, 该分数不能准确反应考生水平。对于应用不当的分数段, 应加强评分员对该段的理解。数据显示本测试平均度量值呈单调递增,说明每个分数段体现了考生相应的能力。 但分数段1 和3 的Outfit MnSq 取值有偏离理想值1。第三, Linacre(2010) 认为,就5 分制评分量表而言, 相邻分数段之间的间距应该至少有1 个洛基值,如果间隔过小,就要加大分数段之间的间隔,合并分数段或者修改评分量表是研究者可选择的方式。 此表第三大列显示阶梯标定值呈单调递增, 而且分数段之间有至少1 个洛基值的间隔。

另外, 概率曲线图也能直观的看出量表能否很好地区分考生的能力水平。 一般, 每个分数段都应有一个相对独立的分布均匀的小尖峰,这说明各等级使用情况较好。图表显示分数段3 和4 的尖峰不明显。出题人应该注意。

结合以上信息,我们可以得出结论:该评分量表从整体来讲效度尚可, 但仍有改进空间。 需要进行评分员培训加强对个别分数段的理解。

四、结论

综合上述分析可得出如下结论:①所有评分员在评分过程中显示出了较好的自身一致性。 ②三位评分员之间的严厉度具有统计意义上的显著差异, 但跨度只占1个洛基值,对结果不会造成很大影响。 ③考生之间的翻译能力具有显著差异,多数考生的答题过程具有一致性,但非拟合和过度拟合的考生数量超过了可接受的上线。因此,需要更详细的偏差分析来检验评分员考生之间以及考生任务之间的交互作用。④四道翻译任务都能合理区分所有考生。 ⑤评分标准效度较高,但评分量表质量有待提高,评分员需要加强对个别分数段的理解。

总之,在运用测试中,MFRM 能从考生、评分员、测试任务、评分标准和评分量表多个层面提供有用的反馈信息, 研究结果对今后提高运用课堂测验的质量具有一定的指导意义。

但本研究有其局限性,在一些方面存在改进的空间。第一, 在数据收集方面,MFRM 对数据的多少比较敏感,数据越大越误差越小,在今后的研究中,如果资源充足,可以增加考生、 评分员以及任务的数量从而减少误差。第二,在评分员层面,可以更加深入的研究评分员效应,从评分员的准确性、 集中度和严厉度角度综合分析。 第三,在研究工具层面,可以采用SPSS 和MFRM 分析相结合的方法进行比较研究,互补性的分析结果能更真实更全面地反映测试本质。

[1] 李中权,孙晓敏,张厚粲,张立松. 多面Rasch 模型在主观题评分培训中的应用[J]. 中国考试,2008, (1): 26-31.

[2] 张洁,何莲珍. 语言运用测试中的分数差异研究---基于多层面Rasch 模型的方法[J]. 中国英语教学(双月刊),2008,31(4): 40-49.

[3] 李清华, 孔文. TEM-4 写作新分项式评分标准的多层面Rasch 模型分析[J]. 外语电化教学, 2010, (131): 19-25.

[4] 罗丹. 多面RASCH 模型在HSK(中级)口语评分检验中的应用. [北京语言大学文学硕士论文], 2008:16-21.

[5] Bachman L. F. & A. Palmer. Language Testing in Practice[M] Oxford: Oxford University Press, 1996.

[6] 邹申. 语言测试[M]. 上海:上海外语教育出版社, 2005.

[7] Weir, C. J. Language testing and validation: an evidencebased approach [M]. 北京: 外语教学与研究出版社,2010.

[8] Bonk William. J & G.. J. Ockey. A many-facet Rasch analysis of the second language group oral discussion task [J ].Language Testing , 2003, 20 (1):89-110.

[9] Linacre, J. M. A User's Guide to FACETS: Rasch-Model Computer Program[M]. Chicago: MESA Press, 2010.

[10] Weigle, S. C. Using FACETS to model rater training effects[J].Language Testing, 1998, 15 ( 2) : 276.

[11]McNamara, T. F. Measuring Second Language Performance[M]. London: New York: Longman, 1996

[12] Myford, C.M. & E. W. Wolfe. Detecting and measuring rater effects using many-facet Rasch measurement: Part Ⅱ[J].Journal of Applied Measurement, 2004, 5(2): 189-227.

[13] 江进林, 文秋芳. 基于Rasch 模型的翻译测试效度研究[J]. 外语电化教学,2010, (131): 14-18.

猜你喜欢

分数段评分标准效度
2021年对口升学部分专业类考生分数段及院校投档线
2019年对口升学部分专业类考生分数段及院校投档线
2018年对口升学部分专业类考生分数段及院校投档线
慈善募捐规制中的国家与社会:兼论《慈善法》的效度和限度
永远的格纹
初高中英语作文评分标准初探
一本:制高点争夺之战
海峡两岸高考语文作文评分标准的比较研究
被看重感指数在中国大学生中的构念效度
针对TOPIK评分标准的韩国语写作教育