听力水平测试的效度分析

2011-08-15周颖

飞天 2011年22期

周颖

听力是一项重要的语言技能，是衡量个体综合语言能力的重要指标。听力测试作为一种综合语言能力的测试，具有较高的效度。测试的合理设置和实施能对教学其到很好的反拨作用。而要使听力测试准确地反映受试者的实际听力理解能力，在教学中发挥其指导作用，促进学习者听力理解水平的提高，就必须保证试题设计的科学性，判分的可行性和可靠性，保证对受试者的语言能力做出准确，公正的测量。而谈及评估听力测试，人们往往将目光放在全国性的甚至是国际的大型测试，事实上，平时学校内部的考核跟教与学有着更直接的关系，更值得关注。本文将结合听力理解和听力测试的特点，对教师自行设计的英语专业大一期末听力测试的题型和选材等方面进行效度分析和研究。希望通过研究，反映是否能通过测试对象在有限的测试任务样本中的表现推断出其是否具有相应的语言能力。

一、语言测试的效度相关理论

自20世纪60年代以来，语言测试与评估的研究一直围绕效度展开（Kunnan，1998）。但在此前及此后的很长一段时间里，效度理论一直处于众说纷纭的状态，缺乏明晰的效度研究理论模型。邹申（2005）将效度理论的演化分为三个阶段。20世纪30年代到40年代，“效度”被简单地看成两个相同目的的测试所得结果之间的相关性；20世纪40年代到50年代，“效度”产生了林林总总的分类，如内容效度、共时效度、预测效度等等。20世纪90年代以后，“效度”被界定为一个不可分割的整体性概念，统指测试的有效性。李清华（2006）也以三个阶段来划分效度理论的发展。60-70年代，效度和信度是语言测试的两大重要质量标准。证明效度即需证明“……在多大程度上这项测试与其他有效二可靠地语言测试相关”（Oller，1979）。效度则一般分为三类：内容效度，效标关联效度和构念效度。80年代，三分法得以扩展。同时，国内外研究者开始认识到效验就是假设检验过程。90年代至今，效度被认为是一整体概念，构念效度是其核心。

两人的阶段划分有所区别，但其共同点在于都把Messick（1989）的效度思想引入语言测试领域后的90年代初认为是效度理论发展的分水岭（Douglas，1995），确立了效度整体观的主流理论地位，而此前的效度分类成为讨论效度的证据。综合国内外语言测试界学者的研究，效度作为一个整体概念，构想效度是其核心，内容和效标关联证据是构念效度证据的一部分。效度定义由某一测试相对于另一测试的相关，完善为是基于多种理论依据和经验证据的论证，对测试分数在多大程度上能够正迷宫测试的解释和使用合理性的论证。

按照Ebel和Frisbie（1991）的定义：构想指的是一个无法直接测量或观察到的心理特征或理论概念，如智力、动机、进步、焦虑等。就语言测试而言，拟测试的“构想”及时某项语言能力，它可分析为若干个分范畴或指标。语言测试需要有效地考查学生在这些指标上的表现，从而评估该向能力提供可靠的依据。听力测试的有效性就在于测试结果能够真正反映测试对象在生活中应该负有的听力理解能力。听力理解能力极为听力测试的构想。

在听力理解过程中，环境刺激以听觉形式输入，永久记忆中的语音，词汇，句法和语义知识被提取，用于感知储存器中的语音，并进行词汇识别，语法分析和语境推到等环节（Rost，1995）。经过处理的语言信息进入工作记忆即进行答题。部分信息有可能进入永久记忆，补充已有知识。控制过程即控制手，眼，耳协调，调出永久记忆，辨认和修正语音输入的过程。听力理解的信息处理同时包含了自上而下（top-down process）和自下而上（bottom-up process）两个过程。此外，在测试过程中，除了理解过程以外，还有两个过程会直接影响测试结果：信息的保持过程和题目解答过程。这两个过程与信息处理的准确性，反映速度和熟练程度密切相关，表现为听力技能。因此，可以认为，听力测试想要测量的构想包括三个组成要素：信息理解能力，信息保持技能和答题技能。信息理解能力又包含语音感知，词汇识别，语法分析，语境推导；信息保持技能包含记忆，笔记，速记；答题技能包含信息提取和信息应用（邓杰，朱小舟，2007）。

基于以上对于“效度”及“构想效度”的认识，本文试图从以下两个方面收集证据来验证听力测试的效度：听力测试的内容效度分析；听力测试与精读成绩之间的关系。前一项属于内容相关性证据，后一项属于效标关联性证据。

二、调查方法

（一）调查对象及调查方法

调查对象为浙江工商大学外国语学院英语专业一年级两个班51个学生。调查在2011年6月期末考试期间进行。

调查主要从两方面进行。第一，进行考试试卷文本分析，研究材料是听力课程期末试卷。听力测试中，往往在一段听力材料后有一至多题与之对应，每一题考查不同的内容：或考查对材料的整体理解，或针对细节的判断推理，等等。作者将每一题所考查的内容对应一项相应的听力构想。然后计算各项构想的总频数。以此对照2000年出版的《高等学校英语专业英语教学大纲》，检查听力测试内容是否符合《大纲》对英语专业二级听力的要求。该项调查旨在获得听力测试内容相关性的证据。第二，对期末听力测试成绩与精读测试的成绩进行对比分析。虽然，听力测试与精读测试性质不同，两者考查的能力亦不同。但两者依据同一个教学大纲，反映同为运用英语的能力，两者有者密切的关系。国内也已有拿英语专业四级口试与笔试进行对比，获得标准关联性证据的研究（文秋芳，王凌，2009）。同样，听力测试中的信息理解能力和精读中大量的局部语言意义理解能力或篇章语言理解能力；听力测试中的信息提取及应用的能力也和精读测试中的阅读答题能力都有大量共通之处。因此，作者将同期进行的两场考试听力和精读成绩进行比对分析，旨在获得效标关联性证据。

（二）结果和讨论

这套自行设计的英语专业一年级听力测试题型设计包含：I.短对话听解选择（20题），II,篇章听解选择（20题），III，数字填空（10题），IV，根据篇章意思判断正误（15题），V，篇章听写（1题）。VI，根据篇章将文字转换为图像填空（10题），VII，根据篇章原文填空（15题）。共90题，期中I到IV为客观题，V，VI，VII为主观题。另外，为激励学生对于平时课堂的重视，短对话听解选择和篇章听解选择中各有10题出自课堂内容。

作者首先把每一道听力题目上将测试到的各项听力构想进行归类计算。基本确定了听力构想在整套测试中的总频数（听写作为综合语言能力的测试，不考虑在归类中）。出现频率为：语音感知：100%，词汇识别：100%，语法分析：66.7%，语境推导：50%，记忆：100%，笔记：27.8%，速记：27.8%，信息提取：100%，信息应用：100%。

可以看出，该套测试的听力题目表现形式不同，或填空、或选择、或判断；听力的输入材料内容也不同，有对话、数字、讲座、访问等。整套测试基本都考查了听力测试覆盖的所有构念。

然后，作者对照《高等学校英语专业英语教学大纲》对于英语专业二级的听力教学要求（《大纲》在教学要求上按级划分，每学期为一级，一年级第二学期期末考试即为二级）。“听懂英勇语国家人士所作的难度不超过所学语言知识的讲座，掌握中心大意，理解主要内容，并能辨别说话人的态度和语气。听懂VOA慢速新闻广播和文化节目，抓住主要内容。能在15分钟内听写根据已学知识编写而成或选用的录音材料（词数150个左右，念四遍，语速为每分钟100个单词），错误率不超过10%”。可以看出，该套听力测试的具体内容，以测试构念所体现的测试目标与《大纲》对二级的听力的要求完全吻合。由此可以得出结论：听力考试具有内容相关性。

作者再将参加听力考试的51名学生的成绩进行统计，其80分以上有11人（21.6%），70分以上28人（54.9%），60分以上10人（19.6%），60分以下2人（3.9%）。同时，将这51名学生在几天前参加的精读考试的成绩进行统计，80分以上有5人（9.8%），70分以上17人（33.3%），60分以上25人（49%），60分以下4人（7.8%）。通过SPSS软件，作者得出的两项成绩的总相关系数为0.712.这一结果可以表面听力测试对于精读测试来说，具有较强的相似性。听力考试具有标准效度。

但是，在研究过程中，就效度实现而言，这套听力测试依然暴露出不小的问题。第一，整套试题中有占20%分值的题目是从平时课堂听力资料中选取。也就是说，虽然这些题目的确涵盖了听力构想，但对绝大部分受试学生来讲，只需凭借记忆即可作答。因此，这部分的试题并不能有效推断测试对象的听力能力。可是，这也是我们大多数考试往往遵循的老模式，即在期末测试中以部分分值体现课堂教学的效果，同时促进学生平时的学习积极性和学习效率。因此，如何解决这两者之间的矛盾值得在设计题目时好好考虑，从而使考试更好的为教学服务。第二，整套测试题量较大。1个小时的大量听力输入，令一些学生产生心理焦虑。已有研究证明测试中，往往焦虑程度越高，考试成绩越低。焦虑程度影响了测试结果反映真正的听力水平。因此，老师如何尽量减低学生的焦虑程度，使测试结果更加公平准确，也值得进一步的探讨。第三，虽然整套测试的确基本涵盖了听力构想。但是，题材过多地以文化历史社会人文为主，内容比较贴近现实生活，文体属于口语体较多。而实时性的新闻评论等内容较少，体裁稍显单一。那么究竟在试题设计时，改如何实现听力测试的构想，使听力测试具有效度？确保听力测试材料的真实性，确保听力测试任务的真实性，明确目的语使用场景的听力需要等是基本的三项要求。

因为教师自行设计的各种课程的期中，期末考试和平时的教与学更息息相关，更对实现教学目标，提高教学质量有举足轻重的作用，所以，借此研究，希望能引起广大教师的重视，促进考试对教学的积极导向作用。本研究从构想效度角度对教师自行设计的英语听力测试进行检验。文章陈述了构想效度，及听力的构想的基本理论。并从内容相关性和效标关联性两个方面进行研究。研究结果发现听力测试具有一定的效度，但也存在影响效度实现的问题。只有保证测试的效度，才能公正，合理地反映出考生的真实听力水平，真正推动听力教学的发展。

[1]Douglas，D.Development in language testing[J].Annual Review of Applied Linguistics 1995，(15).

[2]Ebel，R.L.& D.A.Frisbie，Essentials of Edu －caional Measurement[M].5th edition.En glewood Cliffs,NJ:Prentice Hall,1991.

[3]Kunnan，A.J.(ed.).Validation in Language Assessment[C].Mahwah,NJ:Lawrence Erlbaum Associates.1998.

[4]Messick，S.Validity[A].In R.L.Linn(ed.).E－ducational Measurement（3rd edition）[C].New York:Macmillan.1989.

[5]Oller，J.W.Language Tests at School[M].London:Longman.1979.

[6]Rost，M.Listening in Action[M].London:Prentice Hall International Ltd，1991.

[7]邓杰，朱小舟.英语听力学习在线质量评估与辅助决策研究[J].外语与外语教学，2007，（9）.

[8]李清华.语言测试之效度理论发展五十年[J].现代外语，2006，（2）：87-95.

[9]文秋芳，王凌.英语专业四级口试的效度研究[J].解放军外国语学院学报，2009，（9）.

[10]邹申.语言测试[M].上海：上海外语教育出版社，2005.

[11]高等学校英语专业英语教学大纲[Z].上海：上海外语教育出版社，2000.