《中国英语能力等级量表》研究综述

2019-04-01李玉龙

外语与翻译 2019年1期

李玉龙

东华理工大学

辜向东

重庆大学

【提要】《中国英语能力等级量表》（简称《量表》）中英文已于2018年颁布。其研发有助于解决我国各项英语考试标准各异，教学与测评目标分离，各阶段教学目标不连贯等问题。本文拟以国内外期刊上发表的68篇《量表》相关文献为研究对象，就《量表》总体建设研究和分《量表》建设与实证研究进行综述，以期为《量表》今后的研究与应用提供一些启示与建议。

1.引言

2014年9月3日国务院颁发的《关于深化考试招生制度改革的实施意见》明确指出，加强外语能力测评体系建设，其中一项主要任务是制定国家外语能力等级量表，提供不同等级的外语能力标准（刘建达2015a：7）。这将有助于解决我国各项英语考试标准各异，教学与测评目标分离，各阶段教学目标不连贯等问题，实现英语教学“一条龙”和多种学习成果的沟通互认（林蕙青2016：4）。在此背景下，《中国英语能力等级量表》（以下简称《量表》）开始建设，2016年底完成主体研制，2018年2月12日，由教育部、国家语言文字工作委员会正式发布，并于2018年6月1日正式实施，《量表》英文版于2018年12月1日在教育部考试中心和北京外国语大学联合举办的“语言测试与评价国际研讨会——新时代的语言测评：创新与融合”开幕式上发布。在《量表》研制前后及研制过程中，许多学者从理论到实践探讨了《量表》的构建，为实现中国英语测试的“车同轨、量同衡”做出贡献。本文拟对相关研究进行综述，以期为《量表》今后的研究与应用提供启示与建议。

2.文献来源

本综述共收集国内外文献68篇。对于国内外研究的界定标准基于文献所属期刊。通过中国知网、万方数据、维普期刊，在关键词和主题栏目中以“英语能力等级量表”、“中国英语能力等级量表”、“语言能力等级量表”、“外语能力量表”、“能力量表”、“量表”等进行搜索，通过系统阅读标题和摘要，排除与《量表》无关的论文，总共搜集到61篇国内文献。其中42篇发表在12种CSSCI来源期刊，19篇发表在5种非CSSCI来源期刊（见表1）。综述选择包括这19篇非CSSCI来源期刊文章主要因为：《中国考试》是教育部考试中心主办的期刊，是《量表》研究发布的重要平台；《英语学习》和《山东外语教学》3篇文章的作者是《量表》研发专家组成员；《外语测试与教学》和《解放军外国语学院学报》刊发的3篇论文同《量表》研制关联度较大，并且这2个期刊在外语界也有重要影响。通过 Elsevier，Springer，Taylor&Francis Online，SAGE，Wiley等电子数据库，将关键词和主题限定为“China Standards of English”，通过系统阅读标题和摘要，排除与《量表》无关的论文，总共搜集到7篇国外期刊文章发表在非SSCI来源期刊Language Testing in Asia上。根据该期刊网页介绍，其主要刊发亚太地区的语言测试类文章。这7篇论文的第一作者和通讯作者有6篇是中国学者，可见，该期刊是中国学者向世界发布《量表》研究成果的重要平台。

表1 《量表》综述文献来源

国内《量表》研究起步于21世纪初期，在2015年之前发展缓慢，属于研究的自发期，研究大都是关于《量表》建设的构思。从2015年到2017年呈上升趋势，2017年有20篇，达到顶峰，这主要是因为2014年国家开始立项建设《量表》，这是《量表》的主要研发期，这段时间研究成果较多。2018年有所下降，有15篇，一方面可能是因为2018年的研究成果还未完全发表，另一方面也可能因为《量表》的应用需要更长时间。国外的7篇研究都是在2017年，是Language Testing in Asia的专栏。

到目前为止，《量表》研究作者以《量表》项目组专家为主。对比教育部考试中心2018年5月29日在官方网站公布的“《中国英语能力等级量表》研制组成员和专家顾问致谢名单”，在68篇文献中，有51篇是由《量表》研制成员或顾问专家发表，占文献发表的75%。很大一部分是《量表》研制的阶段性成果。

在68篇文献中，实证研究28篇，占41.2%，非实证研究40篇，占58.8%；其中定量研究17篇，占总研究的25%，定性研究11篇，占总研究的16.2%。

3.《量表》研究

《量表》研究大致可以分为两个大类，即总体建设和分《量表》建设与实证研究。

3.1 总体建设研究

《量表》总体建设研究主要涉及以下六个方面。

3.1.1《量表》建设与实施的科学性和适切性

研制《量表》是建设中国外语能力测评体系的首要任务，确保《量表》建设的科学性和适切性是《量表》研发人员和广大外语教育工作者首先深思的问题。

陈国华认为制定统一的英语能力标准是时代发展的趋势（陈国华2002：405；邹申、张文星、孔菊芳 2015：26）。刘建达、彭川（2017）结合《欧洲语言共同参考框架》（以下简称《欧框》）和中国国情，从《量表》建设的总体原则、描述框架、描述语表述以及分级验证等方面探讨《量表》研制的科学性。何莲珍、张慧玉（2017），王莲（2018）从语言经济学角度分析《量表》研制和实施的政治、经济和社会意义。Jin et al.（2017）从宏观政治和微观政治角度分析《量表》研制的必要性，重点探讨了研制和实施的挑战，包括宏观上《量表》的制定和实施可能会遇到不同政府部门的阻力；微观上《量表》在研发过程中可能会在能力分级、描述语验证等技术层面遇到挑战，《量表》实施过程中可能会出现理解和使用上的困难。蔡基刚（2018）却认为《量表》能力等级和描述语追求过于全面、等级要求描述去语境化，《量表》的制定缺少理论依据等。

除上述文献外，也有不少文献论述《量表》研制和实施的迫切性与必要性，如韩宝成（2006）；方绪军、杨惠中、朱正才（2008）；杨惠中、朱正才、方绪军（2011）；林蕙青（2015a，2015b，2016）；姜钢（2016）等。

3.1.2《量表》建设的总体思路

《量表》的研制极其复杂，做好顶层设计尤为关键。戴炜栋提出要构建英语教学“一条龙”体系，并结合语言教学的各个方面进行阐述（戴炜栋2001：322；邹申等 2015：26）。蔡基刚（2012）认为应该借鉴《欧框》制定一个真正意义上的中国英语能力等级标准。杨惠中、桂诗春（2007）提出制定亚洲统一的英语语言能力等级量表，提出制定亚洲量表应该遵循的六项原则、三项具体操作方法和八个实施步骤。该研究为后续《量表》建设总体思路的提出奠定了基础。许多学者（如方绪军等2008；郭宝仙 2014；刘建达 2015a，2015b；邹申等 2015；杨惠中 2015；赵雯、金檀、王勃然 2015；Jin 2017；刘建达、韩宝成2018）就《量表》的整体设计进行了探讨，探讨的内容大体可以归结为两类：

1）《量表》的制定原则

a.以面向运用的语言能力量表理论框架为理论基础。b.分别描述听、说、读、写、译、语用、组构能力。c.用明确、直观的描述语对语言能力进行“能做”描述。

d.根据社会实际需要对语言能力等级做出详略描述。

e.《量表》须便于语言教学人员、语言学习者和语言测试者理解和使用。

f.《量表》能促进中国外语高考改革，实现英语科目“一年多考”和不同省份试卷具有可比性。

g.《量表》要有利于改革现有考试制度，使各项考试实现“车同轨、量同衡”。

h.《量表》要有利于实现中国现有英语考试的国际化，同国际接轨。

2）《量表》的研究方法和研制步骤

a.通过文献法、采样法、问卷法等收集描述语，确定典型语言活动。

b.通过专家经验法、问卷法、改写法等对描述语加以分类。

c.通过问卷法、统计分析法等对描述语分级和验证。

3.1.3《量表》描述语的建设

描述语建设是描述语量表化的基础，而“能做”描述研究又是描述语建设的基础。方绪军、杨惠中、朱正才（2011）以《实践中的欧洲语言共同参考框架》为例探讨语言能力“能做”的原理和方案，“能做”描述语量表化的基本要求和方法，“能做”描述的基本框架、参数、总体描述、具体描述等，深化人们对语言能力“能做”描述的理解。满在江（2013）认为二语语言能力描述语库的建设要以二语语言能力的研究为先决条件，并应设法避免语言水平等级划分、描述任务、语言能力等级和语言能力描述的参数设置方面的主观性。为了从技术层面和政治层面界定《量表》描述语，朱正才（2015）深入探讨《量表》研制过程中与描述语库建设有关的几个问题：语言能力模型的构建、我国英语学习者英语能力的描述参数、描述语料库的心理测量模型与规模和描述语的“Can-Do模式”及语言规范、描述语中的社会和意识形态问题。描述语量表化是《量表》研制的关键环节，直接关系到《量表》的科学性和可操作性（朱正才2016a：3）。朱正才（2016a）在结合国内外研究的基础上，立足中国国情，提出了《量表》描述语量表化的可行性方案，即抽取有代表性的学生语言行为样本，收集描述语和学生语言行为表现的匹配数据，设计带锚题的描述语调查问卷，解决教师评判松紧度问题，进行数据分析和最后审核描述语等。

除总体上系统探讨《量表》描述语的建设外，还有一些研究探讨《量表》描述语的特点、描述的能力范围、描述框架和描述语验证等问题（郭宝仙2014；刘建达、彭川 2017；王丽、范劲松 2017）。

3.1.4《量表》的效度

《量表》是测量和评价语言能力表现的尺度，效度是其质量的最重要指标，关系着《量表》的科学性（方绪军、杨惠中2017：163）。制定《量表》的实际工作十分复杂，其中使《量表》具有较高的效度并基于证据进行效度验证是制定《量表》工作的关键（方绪军、杨惠中 2017：163-164）。方绪军、杨惠中（2017）在探讨《量表》的构念效度、内容效度、效标关联效度和使用效度内涵及其相互关系的基础上，深入探讨了对各种效度进行验证的方法和要求，得出如下结论：构念效度和内容效度紧密相关；将一份《量表》同一定的测试或教学项目进行关联是检验该《量表》效标关联效度和使用效度的必然选择；《量表》的内在效度和外在效度紧密相关，内在效度决定外在效度；《量表》的效度研究贯穿《量表》制定和使用的全过程，必须全力保证各方面的效度。该研究为《量表》制定和使用中的效度研究和效度验证提供了理论支持。

朱正才（2016b）从即时效度、延时效度、构念效度、公平效度、教学反拨效度、社会影响效度和决策效度等方面构建了一套《量表》效度研究框架，探讨了《量表》效度研究的内涵、《量表》效度证据的类型和《量表》效度研究的方法，从时间维度、科学与道德维度、英语教育与社会生活维度等方面拓展人们对《量表》效度研究的整体认识。3.1.5《量表》与英语学习、教学和测试的关系

《量表》的研制是为了将英语学习、教学和测试紧密结合在一起，以便更好地促进三者的发展。一些学者深入探讨《量表》与三者的关系（刘建达2017a，2017b，2018；刘建达等 2018）。这些研究的主要观点可以概括为以下四点：

1）《量表》促进英语学习：《量表》可以促进学习者听、说、读、写、译的能力，帮助学生进行英语能力的自我评估，确立英语学习目标、应用“档案袋”等学习方法和学习策略，可以为学习者提供一个循序渐进的学习依据。

2）《量表》可以指导英语教学：《量表》可以指导教师采用基于语言活动、面向运用的教学理念，提倡教师在形成性框架下进行英语教学，启发教师开展促进学习者听、说、读、写、译等综合能力的教学活动。

3）《量表》变革英语测试：《量表》可以为英语考试内容设计、试题命制、评卷及成绩报告等提供质量保障，可以推动国内外考试的对接与互认，为形成性、终结性等测评方式提供能力参照标准。

4）《量表》将英语学习、教学、测试紧密关联：参照《量表》修订教学大纲、教材，开发基于《量表》的考试等，可以促进英语学习、教学和测试的深度融合。

此外，王守仁（2018）通过梳理《量表》的五级、六级描述语的相关内容，指出《量表》的建设契合《大学英语教学指南》的理念，有利于促进大学英语的规范化教学和学习。

3.1.6 与《量表》总体建设相关的其他研究

与《量表》总体建设相关的其他研究还包括一些政策类文章，如林蕙青（2015a，2015b，2016），姜钢（2016），杨帆、吴莎（2018）就建立、加强和推进国家外语测评体系、推进国家英语能力等级考试建设传达政策性信息。也有一些同《量表》相关的述评、书评和社论等，如韩宝成（2006）就国外语言能力《量表》进行述评；韩宝成、常海潮（2011）对比国内外12个外语能力标准；王丽、范劲松（2017）就国外商务英语能力等级量表研究进行述评；刘建达、周艳琼（2017）就《实践中的欧洲语言共同参考框架》一书进行述评；Alderson（2017）就Language Testing in Asia上关于《量表》的特刊文章进行了引介与点评。这些研究的主要观点可以概括为以下几点：

1）建设国家外语能力测评体系意义重大，国家将集中力量研发《量表》和国家英语能力等级考试，到2020年基本建成具有中国特色的现代外语能力测评体系。

2）不同国家和地区的外语能力标准（量表）研发的目的和理论基础有所差异，各种标准既有优势又有不足，对我国《量表》的建设既有启发也有教训可以吸取。

3）《欧框》在众多标准中对《量表》研发参考意义最大，有必要深入研究《欧框》的设计与实践。

4）与《欧框》相比，《量表》有自己的创新，如开发了语用《量表》，但仍有技术环节需要完善，需加强对《量表》的效度验证。

3.2 分《量表》建设与实证研究

刘建达、韩宝成（2018）构建了面向运用的语言能力量表理论框架，该框架是《量表》建设的理论基础。该研究根据语言学习者和使用者能力水平的实际情况和社会需求程度，将《量表》中的各种能力分为：听、说、读、写、笔译、口译、语用、组构。本部分也将从这八个方面对分《量表》建设与实证研究进行综述。

3.2.1 听力《量表》建设

He&Chen（2017），何莲珍、陈大建（2017）定义听力理解能力，阐述听力描述语的横向参数框架和纵向典型特征，构建听力《量表》的描述框架，阐释研发听力《量表》的步骤和效度验证问题，为听力《量表》的建设提供了理论支撑。张洁、赵亮（2017）针对听力描述语的第五、六两个级别，选取分级验证中教师评价和学生评价差别较大的描述语，在学生中开展定性和定量研究。研究发现学生总体能够比较准确地使用描述语评价自己的听力理解能力并对描述语的质量和使用持乐观态度，但部分学生使用不当，主要因为描述语本身存在逻辑性不足、学生缺乏实际经验等问题。闵尚超、何莲珍（2016），闵尚超、何莲珍、罗兰（2018）证明IRT垂直等值模型对构建中国英语听力能力垂直等值《量表》的可行性，并基于该模型对《量表》听力描述语进行较大规模效度验证，验证了《量表》听力描述语的质量。

3.2.2 口语《量表》建设

杨惠中等（2011）将65条描述英语口语能力的描述语编制成问卷，进行了较大规模的实证研究，检验了制定《量表》的原则与方法的科学性和可行性，是制定《量表》的先行尝试。揭薇、金艳（2017）通过建立口语能力描述语库和编制程序对口语描述语进行查重筛选，考察了描述语总体语体特征和分类描述语的语体特征，为口语描述语的撰写、修订和翻译提供了指导。金艳、揭薇（2017）界定了口语《量表》制定的原则和口语能力的构念，描述口语《量表》的框架结构，阐述口语《量表》研发和效度论证的方案，为口语《量表》的建设提供系统性理论指导。王隽、高淼（2018）以口语《量表》描述语为例探讨年龄指向成分对《量表》在小学教育中的使用及影响。该研究对《量表》在小学英语教育阶段的落地具有一定参考价值。

3.2.3 阅读《量表》建设

张晓艺（2017）基于语言任务特征研究框架，从代码复杂度、认知复杂度、交际压力三方面考察了中国大学英语四级水平考生对《欧框》中B1-C1级阅读能力描述语的理解情况，验证语言任务特征描述框架在分析语言能力描述语方面的潜力，为阅读《量表》描述语库的建设和修订提供借鉴。Zeng&Fan（2017），曾用强（2017）从阅读能力构念、阅读能力描述语的制定规范和流程、阅读《量表》效度验证的步骤与方法几个方面探讨阅读《量表》的制定原则与方法，为阅读《量表》的建设提供系统性理论指导。

3.2.4 写作《量表》建设

袁友芹（2016）将《欧框》“笔头输出及其策略”中的16个三级能力指标量表编辑成测试表，在四个水平的中国学习者中进行“嫁接”实验、开展建模测试，并基于实验结果整合中国英语测试大纲标准和《欧框》相关内容，进而提炼出英语写作《量表》的基础理论模型和典型描述参数，为写作《量表》描述语库的构建提供了一定参考依据。袁友芹等（2017）通过将我国英语培养目标与《欧框》对比分析找出二者写作描述语接口。Zou&Zhang（2017）探讨《欧框》写作描述语应用于中国大学英语专业写作能力量表建设的可行性。前面这三项研究为《欧框》“对接”我国写作《量表》研制提供思路。潘鸣威（2017）基于系统功能语言学的文本类型视角，提出了写作《量表》中典型写作活动的选取步骤和注意事项，并以写信/电邮和（文学）创作两种典型写作活动为例加以阐述，为写作《量表》描述语的研制提供新的视角。邓杰、邓华（2017）基于写作认知活动视角，构建写作认知模型和写作认知框架，并将该模型和框架运用于写作《量表》策略的描述语撰写之中，该研究为写作《量表》的建设提供了一定的理论支撑和实践指导。张新玲、张思雨（2017）基于《量表》框架，运用调查问卷和写作任务的方法，开展了一项探究综合性读写结合写作能力构念的实证研究，为形成性评估和终结性评估的结合提供实证。潘鸣威（2018）从写作交际任务的难度和写作语境及写作任务的发展角度阐述《量表》对写作能力发展的体现。

3.2.5 笔译《量表》建设

白玲、冯莉、严明（2018）在建立笔译能力构念的基础上，描述了笔译能力《量表》的描述语参数框架，为笔译《量表》的研制提供构念与原则指导。冯莉、严明（2018）从语言能力的“描述”角度出发，以笔译《量表》的研制为例，探讨《量表》语言能力的本体论、认识论和方法论问题，得出只有深入解读“描述”的本体，认识描述语的建构，才能理解描述语的研制方法，为后续笔译《量表》的实证研究提供理论指导，有利于提高实证研究的信度和效度。

3.2.6 口译《量表》建设

刘建珠、穆雷、王巍巍（2017）构建基于《欧框》综合语言能力框架的口译能力，为口译《量表》的研究提供初始依据。许艺、穆雷（2017）从元认知视角出发，构建口译策略能力《量表》框架，并以交替口译为例探讨该框架的描述语收集及其量表化的方法和步骤，指出策略能力各因子之间的关系及其量化指标仍需研究，该研究是口译《量表》研制的重要组成部分。王巍巍（2017）明晰了口译能力的构念，阐释口译《量表》的描述语参数框架，介绍口译《量表》的建构方法及步骤，阐述口译《量表》在口译教学形成性评估中的应用，弥补口译教学测试评估缺乏评测依据的缺陷。王巍巍、许艺、穆雷（2018）在梳理国内外关于“语言能力”研究的基础上，提出口译《量表》的构建思路，拟定了口译《量表》的描述参考框架，为口译《量表》的研发提供了理论依据。

3.2.7 语用《量表》建设

韩宝成、黄永亮（2018）在评述国内外关于语用能力研究的基础上，结合《量表》的理论框架，分析语用能力的界定范围、构成部分、同语言知识的关系、语用表达的影响因素等，界定语用理解能力、语用表达能力、语言知识和得体性，从而构建《量表》语用能力描述框架。该研究为语用《量表》的研制提供构念和操作基础。

3.2.8 组构《量表》建设

白丽茹（2015）以中国171名英语专业低年级学习者为被试展开实证研究，尝试建构语法量表，并对该量表测试题目进行分析、对量表的信度和效度加以检验，得出该量表具有良好的信度和效度，对英语语法教学和学习具有一定的促进作用。Zhao et al.（2017）基于《欧框》和《大学英语课程教学要求》（教育部2007版）的词汇描述语，选取22名中国大学英语教师以《欧框》为参照点，对这些描述语进行分级，为大学英语教学筛选量表词汇描述语，并对分级结果运用多层面Rasch测量模型加以验证，该研究显示运用教师分级判断的方法可以为量表分级提供参考。吴介焜、赵雯（2018）基于自建语料库探讨非英语专业大学生写作中的准情态动词的使用情况，该研究为《量表》中有关准情态动词描述语的进一步完善提供了参考。以上研究从语法和词汇角度为组构能力《量表》的建设提供了经验。

4.启示及建议

《量表》研究角度多样化，研究范围较广。就国内研究而言，从探讨《量表》建设与实施的合理性，《量表》描述语的建设，《量表》建设的总体思路，《量表》的效度，《量表》与英语学习、教学、测试关系，同《量表》总体建设相关的其他研究，到探讨听、说、读、写、笔译、口译、语用、组构等分《量表》的建设，这些由点到面、从整体到部分的研究涉及面较广、研究角度具有多样性，说明《量表》的研究已经初具规模。但是，《量表》的研究尚不充分、不均衡。相对于《量表》的总体建设研究，对分《量表》的研究明显不足，每种研究只能搜集到寥寥几篇文献（如对于语用《量表》的研究只有1篇），研究力度不够。另外，将《量表》加以应用的研究严重不足，在搜集的62篇文献中，只有王巍巍（2017）等几篇谈及《量表》在英语教学和测试中的应用。就国外研究而言，国外的7篇文献只涉及《量表》总体建设的宏观政治和微观政治问题，听力、阅读、词汇等分《量表》的建设和以《量表》为例的情景研究。因此，《量表》的研究广度和深度仍需极大加强。

鉴于《量表》具有重大的政治、经济和社会意义，要继续加强《量表》的科学性和适切性研究，完善《量表》制定的理论依据，把《量表》的效度验证贯穿于《量表》的应用之中。根据《量表》建设的总体思路，在英语学习、教学、测试实践中不断验证《量表》的各技术环节，确保《量表》的科学性、实用性和可操作性。要重视《量表》在使用阶段的宏观政治和微观政治上所面临的挑战，加大对《量表》的宣传和使用培训，确保《量表》使用者能够正确理解《量表》要义，防止《量表》误用。要加强对《量表》的实证研究，注意将《量表》理论运用到英语教学、测试实践中。要加强分《量表》的研究，促进《量表》研究的均衡与持续发展。

要尽快使《量表》落地，发挥好《量表》“车同轨、量同衡”的作用，构建中国英语学习、教学、测试“一条龙”体系。学习者要学会使用《量表》，促进自身听、说、读、写、译等能力的综合发展，主动承担学习责任，转变学习观念，把学习看作一个循序渐进的过程；学会利用《量表》进行自我评价，诊断自己各种语言能力所处的水平；加强与同伴交流，学习使用同伴评价，促进学习共同进步；学会利用《量表》根据自身的状况制定学习目标，并根据《量表》的要求制定相应的学习策略，寻找更为有效的学习方法。教师要认真学习《量表》，提升自身语言测评素养，改进教学策略和方法，提升教学效果；按照《量表》的等级划分和学生的实际情况制定个性化、循序渐进的教学大纲，提升学生综合运用语言能力；利用《量表》对学生的实际语言水平进行评价，及时、准确掌握学生的学习情况，从而为学生提供有效反馈。教育管理者要定位学生语言水平在《量表》中的等级，思考《量表》与教材、教法、大纲、课标、测评的关系，利用《量表》衔接不同阶段英语教学。语言测试研发人员要基于《量表》研究，研发相应的等级考试，实现国内各种英语考试的“同轨道”运行；参照《量表》对考试的内容、题型、成绩报告等进行设计，加快《量表》等级考试同国际接轨，实现同国际有重大影响考试的互认等。