APP下载

论信度——测试质量的重要方面

2009-07-28王丹妮

中国新技术新产品 2009年11期
关键词:教与学效度信度

王丹妮

摘 要:测试的质量保证一直以来都是出题专家非常重视的方面,包括很多领域和方面。本文仅针对其中一个方面:测试信度,进行分析和说明。本文首先通过引用塔克(Tucker)相关定义对信度进行解释和说明。其次,列举出可能影响信度的因素。最后,针对这些影响因素,提出一些解决方法。

关键词:信度;效度;测试质量;教与学

每个测试设计者都希望考试能够达到公平、准确和可信的标准。因此,许多出题专家对测试发展态势作以研究,希望能够平衡测试质量的信度和效度(Reliability and Validity)、冲击力和实用性(Impact and Practicality)的关系,实现整个试题的效度和效用,保证试题能够对其测试的领域真正有用。

传统意义上,测试质量的评价主要有两个关键的决定因素:信度和效度。但是,巴赫曼(Bachman)和帕尔默(Palmer)(1996)将冲击力和实用性也纳入其中,认为它们也决定着测试在其所测试领域的有效性。但不论如何,信度的重要性是不容置疑的。因此,测试以及子测试的信度就成为公平性的关键因素,也是参试者需要了解的内容。

1 信度和效度

信度是为了使某一考试达到准确性和分数一致性的方法。可信度(Reliability)这一词,用于日常生活中时涵义广泛,可以是对朋友的忠诚,对质量的承诺,对安全的保证等等。但是当它用于测试这一专门意义时,是指可以用于反复测试考生水平,而在反复使用后所得到的测试结果是非常相近的。但是,虽然信度是一份好试卷的必要条件,它并不是唯一条件。一份信度很高的试题,却可能无法测试出考生其它方面,例如:考生的兴趣——事实上,这份试题可能与考生的兴趣毫无关系。因此,测试另一个重要方面:效度,就应运而生了——这份试题是用来测试我们想要测试的方面吗?

虽然高信度是测试的一个关键因素,但是早在1945年就有人提出:“提高信度与测试水平的矛盾”(格利克森(Gulliksen),1945,塔克(Tucker),1946)。下文是摘自塔克的一段话:

如果统一所有试题的信度,就要统一所有的试题。那么,一名考生会做其中一个试题,他就会做其它所有试题;相反,如果一名考生不会做其中一个试题,那么,他就势必不会做所有试题。这样,唯一会出现的分数就只能是一分或零分……难道人们希望一次测试中的所有试题难度都一样,而最终只产生两种分数吗?

——塔克,1946

其实,塔克这里所指的“测试水平”在某种意义上就是效度。也就是说当要同时提高信度和效度时,二者之间是存在一定矛盾的。信度在一定程度上制约着效度的提高。

巴赫曼(Bachman)(1990, p 161)对信度是这样解释的:信度是为了使测试达到最小错误率,而效度是为了使语言能力的测试达到最大效果。巴赫曼认为信度和效度是“一般测试中互补的两个方面——它们鉴定、评价和控制所有影响测试分数的因素”(1990, p 160)。然而,他也指出,信度和效度之间明显地存在着紧张关系(tension)。当我们要采取各种手段实现高信度时,例如:通过限制题型或限制测试范围,这些限制同时也制约了测试的性能和目的,即:测试效度。

可以看出,很多学者都认为用信度系数来评价测试质量对测试范围会带来影响。因此,对一份试题信度的评估仅仅是管理特定应试者们的行政手段,而并非试题本质特征。有些试题的报考者们形形色色,水平参差不齐,因此很容易分级排名,类似于这样的测试,与应试者水平相近的测试相比,其信度系数要高很多。因此,当我们比较不同测试的信度时,例如考生水平差距等很多因素都必须考虑进去。

2 信度的影响因素

考生之间的水平差距仅仅是可能影响信度的因素之一。除此之外,还有诸多其它因素:第一,考生本身的波动(fluctuation),包括疲劳、遗忘、疾病、感情挫折、练习效应等。第二,分数波动,包括评分者本身的误差偏差等。第三,测试管理波动,包括对考试指南的解释、测试时间控制、监考人员和考生的交流、作弊控制、考试剩余时间的告知、打扰、干涉、考试教室光线等。第四,试题特征:长度、难度、鉴别力、速度等。第五,响应特征:猜题能力、应试能力等。

3 如何规避信度的影响因素

要解决以上五大影响信度的因素,最大程度上达到信度和效度的标准,以下不失为一些好的方法:试题量要足够:从某种意义上说,试题的数量越多,其可信度就越高;考试指南要清楚和详细:这样是为了避免考生误解考试指南;保证试卷排版合理清楚,字迹清晰;报考者应熟知考试格式和测试技巧;试题本身要明确清楚;尽量直接比较报考者水平;提供详细的评分标准:指明正确答案,可能出现的部分正确的答案的给分标准也要明确说明;对评分人进行培训:尤其是主观题的评分人;改卷之前统一不同答案的确切给分;提供统一良好的评分环境;试题本身应该利于客观评分:例如,自由问答题,其答案应唯一和统一。

以剑桥大学的一系列考试为例,他们测试的是英语语言水平。这些考试的报考者大都在应试前参加了预试班,并准备继续学习和参加剑桥大学的连续水平测试。和考试相关的书籍和资料有很多。因此,考生的水平基本在一个层次。所以,要保证较高的测试信度,应该说难度还是很大的。剑桥大学考试体系在发展了十几年的今天,根据不同语言测试水平的要求出台了很多新考试。由于这些测试都是针对某一特定水平,测试的结果是以通过和未通过的形式公布的,其实,这在一定程度上也保证的测试的信度。但是,其信度并没有和效度分家,而是紧密的结合在一起的。例如,剑桥主流英语认证(The Cambridge EFL Main Suite exams)以及商务英语证书(Business English Certificates)等考试的设计是为了通过鼓励教和学,并反对“应试教育”来促进语言学习。目的是告诉学者:备考就是要学好这门语言。每次对试题的修订,剑桥大学都是为了体现他们当前对语言教与学的观点和看法。近期他们对测试的修订是为了突出语言的交流作用,因此,试题设计倾向于语境的把握和篇章本质的扑捉。

剑桥大学考试对测试信度和效度的研究有很多年,并根据信度和效度的要求对其考试作了很多修订。即便如此,他们也不得不承认,测试信度和效度的一些负面影响因素还是很难避免的。但是,其在注重信度的同时不断改进试题,使其达到更高的效度,这种方法是剑桥大学给我们的一个宝贵经验。

4 结论

总而言之,信度,作为测试质量的重要因素,是用于评价测试结果是否真实的反映的考生的实际水平。它是反映测试是否受到非测试因素的影响,是反映测试客观性和可靠性的指标。信度和效度是相互补充、不可分割的。在注重和提高信度的过程中,无疑会对效度产生影响和制约。所以,要平衡好二者的关系,找到一个切合点,才不失为是一份好的测试。不同测试,其信度高低的评估绝对不能不考虑诸多的影响因素。然而,作为一名测试的设计者,出题过程中也必须考虑并尽量避免这些影响因素。

参考文献

[1]Hughes, A. 1989. Testing for Language Techers. Cambridge: CUP.

[2]Weir, C. 1988. Communicative Language Testing. UK: Prentice Hall International Ltd.

[3]Bachman, L F (1990): Fundamental considerations in language testing, Oxford: OUP

[4]Bachman, L F and Palmer, A (1996): Language testing in practice, Oxford: OUP

[5]Gulliksen, H (1945): The relation of item difficulty and inter-item correlation to test variance and reliability, Psychometrika 10 (2), 79-91

[6]Tucker, L R (1946): Maximum validity of a test with equivalent items, Psychometrika 11 (1), 1-13

[7]刘润清,韩宝成.语言测试和他的方法[M].北京:外语教学与研究出版社,1999.

[8]桂诗春,语言测试:新技术与新理论[J].外语教学与研究,1983,(3).

猜你喜欢

教与学效度信度
楷书的教与学
《广东地区儿童中医体质辨识量表》的信度和效度研究
教与学
慈善募捐规制中的国家与社会:兼论《慈善法》的效度和限度
科技成果评价的信度分析及模型优化
耳鸣残疾问卷中文版的信度和效度检验及其临床应用
被看重感指数在中国大学生中的构念效度
外语形成性评估的效度验证框架
中文版脑性瘫痪儿童生活质量问卷的信度
奇异值分解的教与学