《听力测试<br/>——第二语言听力评估的研究与实践》评介*

《听力测试
——第二语言听力评估的研究与实践》评介*

2017-03-11雷雪梅辜向东

外语与翻译 2017年1期

雷雪梅辜向东

《听力测试
——第二语言听力评估的研究与实践》评介*

雷雪梅辜向东

1.引言

效度(validity)是测试评价中需要考虑的最重要的因素之一。Messick (1989:13) 对效度的定义是“对经验证据和理论依据在多大程度上支持分数的解释与使用所进行的综合评价。”该定义具有历史意义，因为它明确了效度验证的对象是测试结果的解释和使用(Davies 2003)。基于Messick的整体效度观，Weir (2005) 构建的“基于证据的效验框架” (Language Testing and Validation: An Evidence-Based Approach 2005)(以下简称“效验框架”)，从社会认知视角出发，涵盖了五个方面的效验证据：基于理论的效度(后改为认知效度)、情境效度、评分效度、效标关联效度和后果效度。该效验框架可操作性强。剑桥大学外语考试部(Cambridge English Language Assessment)借用该框架，对剑桥英语五级证书考试(Main Suite Examinations, 缩略为MSE)(KET1, PET2, FCE3, CAE4, CPE5)进行了一系列的实证研究，为语言能力测试的效度对比研究提供了基础，出版了四部分别针对听、说、读、写四项技能的编著，从理论和实践两方面阐述了MSE的效度验证过程。

Ardeshir Geranpayeh 和 Lynda Taylor 于2013年合编的《听力测试——第二语言听力评估的研究与实践》(ExaminingListening—ResearchandPracticeinAssessingSecondLanguageListening)，是该系列丛书第四部有关剑桥大学外语考试部语言能力测试的编著。该书继续沿用同系列测试专著的理论框架，即Weir (2005) 的“效验框架”，从“受试特征、认知效度、环境效度、评分效度、后果效度和效标关联效度”六个方面对MSE考试的听力测试进行效度验证。该书将效验理论与实践相结合，对听力技能的定义和听力测试过程做了全新阐释。本文就该书的主要内容作简要介绍与评述。

2.内容简介

全书共分八章，书末附有附录。

第一章是由Lynda Taylor 完成的简介。本章开篇强调公共或商业测试机构有责任和义务向公众解释其测试原理和施测情况，因为公开性和透明度应是测试开发者首先要考虑的问题。接着简要介绍该书的主要内容，定位该书的读者群体，说明其出版目的和编写基础。本章系统回顾了MSE考试的听力测试发展过程，分析和描述“框架”用来效验MSE考试在六个方面的效度。此外，作者概述该书第二章至七章的内容结构：理论阐述，文献综述及MSE考试听力测试相应的效度情况。

第二章为Mark Elliott分析的“受试特征”。作为任何测试行为的核心，受试的生理特点(年龄、性别、短期疾病、长期残障等)，心理特点(人格、情感图示、动机等)，以及经历特点(教育、考试准备、居住经历等)都有可能影响受试在测试中的表现。基于MSE考试中使用的考生信息表(Candidate Information Sheet)，作者全面展示参加MSE考试的考生在以上三个方面的特点。分析受试特点有利于不断改进和完善MSE听力测试，确保受试群体使用的测试材料的稳定性，为利益相关者提供有关英语学习、教学、评估方面的信息。本章强调MSE考试不仅考虑受试整体特征，还兼顾个别受试的特殊需求。本章最后提出如何应对听力测试中可能遇到的特殊情况。

第三章为John Field 撰写的“认知效度验证”。本章写作实现了两个目的：一是勾勒出听力概念的加工模式，为研究其它测试的认知效度提供理论框架；二是确定试题设计中可能增加受试认知负担的影响因素。进行认知效验的目的是了解“录音”、“测试方式”和“测试题”这三大要素在MSE听力测试中的代表性和全面性。作者强调效验听力测试应考虑三点：加工过程的相似性、全面性和校准。基于已有的理论和实证数据，作者把听力加工过程分为五个层级：输入解码(input decoding)、词汇搜素(lexical search)、句法分析(parsing)、意义构建(meaning construction)、话语构建(discourse construction)。本章应用该模式从理论和实证两个角度回顾关于听力本质的相关研究，尤其是听力的认知加工过程，剖析不同语言水平受试在做MSE考试听力任务时的认知过程，并尝试从听力测试基本要素“录音、测试方式和测试题”三个方面评估该系列考试的听力测试在多大程度上“复制”或“反映”真实世界的听力任务特征。这种基于认知的听力测试效度比较能向利益相关者提供较为全面的测试难度信息。在分析试题时，作者提出了增加试题难度的方式, 如增加试题长度、加大试题的复杂度等。但作者同时强调测试的初衷是测试听力, 而非阅读能力。这一论点尤其应该引起试题开发者的注意。

第四章，Mark Elliot 和 Julith Wilson 合作撰写了“情境效度验证”。在相关研究中，“情境”变量被认为会影响受试的听力表现。两位作者把与“情境效度”相关的因素确定为“任务设置”、“语言要求”(任务输入和输出)和“说话人”，并阐释该系列考试听力测试的情境变量在不同水平测试中的表现情况，尤其是难度级别。根据情境效度参数分析测试任务有助于人们发现试题设计中的问题，比如作者特别提到各级别考试的规范说明(考试手册)对考试重点术语没有统一，容易造成误解。

第五章为Ardeshir Geranpayeh撰写的“评分效度验证”。该章从“测试难度”、“项目偏差”、“内部一致性”、“测试误差”、“评分”和“分数报道”等方面探讨与听力测试评分效度相关的因素。本章重点关注两方面:一是测试材料的适宜性, 即测试难度和内容的一致性(internal consistency)；二是数据处理，即减少不利变量如题目偏差(item bias)等因素造成的负面影响。作者介绍了MSE为保证评分效度在这两方面所采取的措施，并用FCE测试分数报道说明评分效验能给测试使用者提供有用信息。作者也谈及评分效度未来面临的挑战，例如如何将测试的有用性最大化，以满足测试分数使用者不断提高的期望值，如何充分描述分数反映的听力能力等。这些挑战正是该领域未来研究应关注的方向。

第六章是由Roger Hawkey 主笔的“后果效度验证”。基于MSE考试多年在效验方面的经验，作者对Weir (2005)的“后果效度”做了重新阐释。“后果效度”重点关注分数解释，但也包括测试对相关个人所产生的反拨效应(washback)和对相关机构及社会产生的影响(impact)。本章主要讨论后果效度研究的实质、“影响”过程的复杂性以及测试反拨效应在效验高风险国际测试过程中复杂的作用机制。作者梳理了有关MSE考试后果效度的研究，旨在帮助该机构了解其系列考试的后果效度，尤其是与听力测试有关的部分。本章还重点列出听力测试对课堂听力教学的负面影响，如采用应试材料、强化听力训练、强调应试策略等。因此作者提出应重视后果效度研究，提高试题质量，增强测试的正面影响。

第七章是由Gad S Lim 和 Hanan Khalifa合作撰写的“效标关联效度效验”。本章强调有必要在不同测试之间，同一测试的不同测试形式之间，以及测试与国际公认的语言能力标准或国际公认的语言测试标准之间做关联研究。作者讨论了MSE考试在这三方面的实践情况，即MSE五个等级考试之间，MSE与外部国际公认的语言能力标准，如欧洲语言共同参考框架(The Common European Framework of Reference for Languages: Learning, teaching, and assessment, CEFR 2009)之间的高度关联。不过作者强调，把MSE考试与CEFR做关联效度研究可能会引起争议，因为比较本身可能过于简单或易产生误导。据此，作者建议深入了解受试特征和情境因素，减少不同机构在界定测试目的时可能存在的差异，并详尽描述测试目的。

第八章为结语部分，Lynda Taylor & Ardeshir Geranpayech对该书的前七章进行了综合性回顾与总结，突出和再现从“效验框架”的六个方面效验MSE考试听力测试的情况，展望未来听力测试研究方向。该书对类似的听力测试研究具有极大的借鉴意义和参考作用。

附录部分列出了MSE的听力测试样卷、受试信息表、听力测试材料的选定程序、听力测试的实施和管理等信息。

3.评述

该书的八位作者根据Weir(2005)的“基于证据的效验框架”，从“受试特征”、“认知效度”、“情境效度”、“评分效度”、“后果效度”、“效标关联效度”六个方面对MSE听力测试进行了全面而深入的效度对比分析。全书章节安排合理，脉络清晰，理论联系实际。

纵观全书的内容与布局，本文作者认为该书有以下三大特点：

3.1 理论指导

目前，公共或商业测试机构面临公众要求详尽解释测试设计和施测过程的呼声，使得这些机构首先要考虑测试的公开性和透明度。因此测试机构需要提供相关测试的“情境效度”、“认知效度”和“评分效度”证据，及这三种效度在测试中的实践情况。Weir(2005)提出的检验语言测试效度的理论框架“基于证据的效验框架”为MSE提供了可行性强的检验测试的有用性和测试效度的方法。基于理论和实践研究，该框架在理论层面论证效度的本质及效度验证的证据，全面阐述测试开发和效验的新框架，而且探讨了效度证据收集方法。所以基于该框架的分析方法能够“分析并描述任何测试包含的效度特点，构建一个可以参考的解读框架，从而使得测试及其相应的效度特点在该框架的指导下可以得到清晰的呈现”(刘力2013)。与此同时，该框架指导下的分析方法能让测试机构公开透明地呈现效度证据，以此来验证考试质量。这也满足公众在重要考试的公开性和透明度上的要求。

3.2 实践验证

该书讨论和阐释了听力测试理论原则，并将这些原则应用于MSE考试的听力测试实践，既有听力测试领域的前沿理论研究，也有相关实证研究动态。因此该书有三个实践意义：第一，加深了人们对MSE考试开发的理论基础的认识。该书借助Weir (2005) 的“框架”，评估了不同等级的听力测试，验证了该框架在考试效度对比研究中的可比性，并呈现了这些测试项目目前和未来的发展状况。第二，该书向公众展示了MSE听力测试施测过程，增强了其公开性和透明度。第三，该书为其他想效验自身测试的个人或机构提供了一个操作性强的理论框架，原则基础，及不同等级测试之间做效度对比时的研究方法。因此该书补充和完善了测试效度对比的框架和模式，可指导测试机构描述和分析其开发的测试的质量或进行效验研究。

3.3 创新突破

二语听力的认知过程是目前语言测试涉及最少的领域(Lynda Taylor 2013：326)。John Field撰写的听力测试“认知效度”在语言测试领域有突破。在已有的理论和实证研究基础上，John Field 提出听力认知加工过程由五个层级组成：输入解码、词汇搜索、句法分析、意义建构和语篇建构。作者用该理论框架分析MSE听力考试，指出听力测试认知研究方向，如听力问题出现的顺序、录音播放次数等设计下的受试的认知过程。本研究为听力测试研究提供了有极大参考价值的理论框架和实践模式。

4.对我国外语听力测试研究的启示

第一，从事语言测试研究的人员可从Weir (2005) 构建的“基于证据的效验框架”出发，从“受试特征”、“认知效度”、“情境效度”、“评分效度”、“后果效度”、“效标关联效度”六个方面收集效验证据，对我国的大规模、高风险考试做效度研究。

该书理论联系实际的载体是MSE考试。该考试分为五个等级，满足不同年龄段或不同能力水平的教学需求，是基于学校或高校语言学习背景，其目的或者功能是支持这些教学环境下的英语教学。我国的高考英语、大学英语四、六级考试，英语专业四、八级考试都具有同样的综合英语能力测试的性质。所以该书为我国的语言测试工作者和研究者提供了一个研究模式，比如借用该书附录中的考生信息表来调查我国重大考试的受试特征；用听力认知模式研究各级别考试对受试认知上的不同要求，或者对比研究受试参加各级别考试时的认知过程；对比大学英语四、六级考试之间，英语专业四、八级考试之间的情境效度等。此类研究可使测试参与者了解测试的目的，测试方法，分数的解释和使用，且有利于他们结合这些效度研究结果做出重要的教育决策。

第二，将我国的重大考试与国际公认的语言测试标准实现对接，增强测试的科学性和权威性。本书实现了MSE考试五个等级与国际公认的语言能力标准(CEFR 2009)相对接，其开发与使用遵循了国际公认的语言测试标准，增强测试的权威性。

当然，该书也存在一些不足，比如，第二章“受试特征”讨论了受试特征的研究结果，但没有详细描述特征数据的测量方法；第三章“认知效度”章节分析综合性试题时，若有更多的定性或语言分析则更能说明受试的听力测试加工过程；第六章“后果效度”若能提供更多详尽的影响研究的信息则有助于人们充分了解测试的后果效度。

总之，该书用社会认知效度理论框架来效验MSE考试听力测试，有助于读者充分了解听力测试在学术方面的进展，而且该系列听力测试基于实证数据的具体测试决策，也为未来探索相似主题的研究者提供了一个理论加实证的参考依据。

注释：

1 KET(Key English Test)：英语入门考试

2 PET(Preliminary English Test)：初级英语考试

3 FCE(First Certificate in English)：第一英语证书考试

4 CAE(Certificate in Advanced English)：高级英语证书考试

5 CPE(Certificate of Proficiency in English)：熟练英语证书考试

Council of Europe.2009.RelatingLanguageExaminationstotheCommonEuropeanFrameworkofReferenceforLanguages:Learning,Teaching,andAssessment[M].Strasbourg, France: Council of Europe.Available online:www.coe.int/t/dg4/linguistic/Source/ManualRevision-proofread-FINAL_en.pdf.

Davies, A.2003.Three heresies of language testing research[J].LanguageTesting(4): 355-368.

Geranpayeh, A and Taylor, L (eds).2013.ExaminingListening—ResearchandPracticeinAssessingSecondLanguageListening[M].Cambridge: Cambridge University Press.

Messick, S.1989.Validity [A].R.L.Linn(ed.).EducationalMeasurement(3rdedition) [C].New York: Macmillan.

Weir, C.J.2005.LanguageTestingandValidation:AnEvidence-basedApproach[M].New York: Palgrave MacMillan.

刘力等，2013，第二语言口语评估研究与实践纵览——《口语测评》(2011)评介[J]，《外语测试与教学》 (2)：60-64。

(雷雪梅：重庆邮电大学外国语学院讲师；辜向东：重庆大学外国语学院教授，博士生导师)

通讯地址：400065重庆市南岸区重庆邮电大学外国语学院

*本文系国家社会科学基金重点项目“基于证据的四、六级、雅思、托福考试效应对比研究”的部分成果，项目号：14AYY010。

2016-11-18