论信度——测试质量的重要方面

2009-07-28王丹妮

中国新技术新产品 2009年11期

王丹妮

摘要：测试的质量保证一直以来都是出题专家非常重视的方面，包括很多领域和方面。本文仅针对其中一个方面：测试信度，进行分析和说明。本文首先通过引用塔克（Tucker）相关定义对信度进行解释和说明。其次，列举出可能影响信度的因素。最后，针对这些影响因素，提出一些解决方法。

关键词：信度；效度；测试质量；教与学

每个测试设计者都希望考试能够达到公平、准确和可信的标准。因此，许多出题专家对测试发展态势作以研究，希望能够平衡测试质量的信度和效度（Reliability and Validity）、冲击力和实用性（Impact and Practicality）的关系，实现整个试题的效度和效用，保证试题能够对其测试的领域真正有用。

传统意义上，测试质量的评价主要有两个关键的决定因素：信度和效度。但是，巴赫曼（Bachman）和帕尔默（Palmer）（1996）将冲击力和实用性也纳入其中，认为它们也决定着测试在其所测试领域的有效性。但不论如何，信度的重要性是不容置疑的。因此，测试以及子测试的信度就成为公平性的关键因素，也是参试者需要了解的内容。

1 信度和效度

信度是为了使某一考试达到准确性和分数一致性的方法。可信度（Reliability）这一词，用于日常生活中时涵义广泛，可以是对朋友的忠诚，对质量的承诺，对安全的保证等等。但是当它用于测试这一专门意义时，是指可以用于反复测试考生水平，而在反复使用后所得到的测试结果是非常相近的。但是，虽然信度是一份好试卷的必要条件，它并不是唯一条件。一份信度很高的试题，却可能无法测试出考生其它方面，例如：考生的兴趣——事实上，这份试题可能与考生的兴趣毫无关系。因此，测试另一个重要方面：效度，就应运而生了——这份试题是用来测试我们想要测试的方面吗？

虽然高信度是测试的一个关键因素，但是早在1945年就有人提出：“提高信度与测试水平的矛盾”（格利克森（Gulliksen），1945，塔克（Tucker），1946）。下文是摘自塔克的一段话：

如果统一所有试题的信度，就要统一所有的试题。那么，一名考生会做其中一个试题，他就会做其它所有试题；相反，如果一名考生不会做其中一个试题，那么，他就势必不会做所有试题。这样，唯一会出现的分数就只能是一分或零分……难道人们希望一次测试中的所有试题难度都一样，而最终只产生两种分数吗？

——塔克，1946

其实，塔克这里所指的“测试水平”在某种意义上就是效度。也就是说当要同时提高信度和效度时，二者之间是存在一定矛盾的。信度在一定程度上制约着效度的提高。

巴赫曼（Bachman）(1990, p 161)对信度是这样解释的：信度是为了使测试达到最小错误率，而效度是为了使语言能力的测试达到最大效果。巴赫曼认为信度和效度是“一般测试中互补的两个方面——它们鉴定、评价和控制所有影响测试分数的因素”（1990, p 160）。然而，他也指出，信度和效度之间明显地存在着紧张关系（tension）。当我们要采取各种手段实现高信度时，例如：通过限制题型或限制测试范围，这些限制同时也制约了测试的性能和目的，即：测试效度。

可以看出，很多学者都认为用信度系数来评价测试质量对测试范围会带来影响。因此，对一份试题信度的评估仅仅是管理特定应试者们的行政手段，而并非试题本质特征。有些试题的报考者们形形色色，水平参差不齐，因此很容易分级排名，类似于这样的测试，与应试者水平相近的测试相比，其信度系数要高很多。因此，当我们比较不同测试的信度时，例如考生水平差距等很多因素都必须考虑进去。

2 信度的影响因素

考生之间的水平差距仅仅是可能影响信度的因素之一。除此之外，还有诸多其它因素：第一，考生本身的波动（fluctuation），包括疲劳、遗忘、疾病、感情挫折、练习效应等。第二，分数波动，包括评分者本身的误差偏差等。第三，测试管理波动，包括对考试指南的解释、测试时间控制、监考人员和考生的交流、作弊控制、考试剩余时间的告知、打扰、干涉、考试教室光线等。第四，试题特征：长度、难度、鉴别力、速度等。第五，响应特征：猜题能力、应试能力等。

3 如何规避信度的影响因素

要解决以上五大影响信度的因素，最大程度上达到信度和效度的标准，以下不失为一些好的方法：试题量要足够：从某种意义上说，试题的数量越多，其可信度就越高；考试指南要清楚和详细：这样是为了避免考生误解考试指南；保证试卷排版合理清楚，字迹清晰；报考者应熟知考试格式和测试技巧；试题本身要明确清楚；尽量直接比较报考者水平；提供详细的评分标准：指明正确答案，可能出现的部分正确的答案的给分标准也要明确说明；对评分人进行培训：尤其是主观题的评分人；改卷之前统一不同答案的确切给分；提供统一良好的评分环境；试题本身应该利于客观评分：例如，自由问答题，其答案应唯一和统一。

以剑桥大学的一系列考试为例，他们测试的是英语语言水平。这些考试的报考者大都在应试前参加了预试班，并准备继续学习和参加剑桥大学的连续水平测试。和考试相关的书籍和资料有很多。因此，考生的水平基本在一个层次。所以，要保证较高的测试信度，应该说难度还是很大的。剑桥大学考试体系在发展了十几年的今天，根据不同语言测试水平的要求出台了很多新考试。由于这些测试都是针对某一特定水平，测试的结果是以通过和未通过的形式公布的，其实，这在一定程度上也保证的测试的信度。但是，其信度并没有和效度分家，而是紧密的结合在一起的。例如，剑桥主流英语认证（The Cambridge EFL Main Suite exams）以及商务英语证书（Business English Certificates）等考试的设计是为了通过鼓励教和学，并反对“应试教育”来促进语言学习。目的是告诉学者：备考就是要学好这门语言。每次对试题的修订，剑桥大学都是为了体现他们当前对语言教与学的观点和看法。近期他们对测试的修订是为了突出语言的交流作用，因此，试题设计倾向于语境的把握和篇章本质的扑捉。

剑桥大学考试对测试信度和效度的研究有很多年，并根据信度和效度的要求对其考试作了很多修订。即便如此，他们也不得不承认，测试信度和效度的一些负面影响因素还是很难避免的。但是，其在注重信度的同时不断改进试题，使其达到更高的效度，这种方法是剑桥大学给我们的一个宝贵经验。

4 结论

总而言之，信度，作为测试质量的重要因素，是用于评价测试结果是否真实的反映的考生的实际水平。它是反映测试是否受到非测试因素的影响，是反映测试客观性和可靠性的指标。信度和效度是相互补充、不可分割的。在注重和提高信度的过程中，无疑会对效度产生影响和制约。所以，要平衡好二者的关系，找到一个切合点，才不失为是一份好的测试。不同测试，其信度高低的评估绝对不能不考虑诸多的影响因素。然而，作为一名测试的设计者，出题过程中也必须考虑并尽量避免这些影响因素。

参考文献

[1]Hughes, A. 1989. Testing for Language Techers. Cambridge: CUP.

[2]Weir, C. 1988. Communicative Language Testing. UK: Prentice Hall International Ltd.

[3]Bachman, L F (1990): Fundamental considerations in language testing, Oxford: OUP

[4]Bachman, L F and Palmer, A (1996): Language testing in practice, Oxford: OUP

[5]Gulliksen, H (1945): The relation of item difficulty and inter-item correlation to test variance and reliability, Psychometrika 10 (2), 79-91

[6]Tucker, L R (1946): Maximum validity of a test with equivalent items, Psychometrika 11 (1), 1-13

[7]刘润清，韩宝成.语言测试和他的方法[M].北京：外语教学与研究出版社，1999.

[8]桂诗春，语言测试：新技术与新理论[J].外语教学与研究，1983，(3).