四模块五维度的英语分级阅读测试设计<br/>——基于《中国英语能力等级量表》

四模块五维度的英语分级阅读测试设计
——基于《中国英语能力等级量表》

2020-07-15杨志明曹巧利

教育测量与评价 2020年7期

杨志明潘清曹巧利刘巍

在全球化和“互联网+”时代，英语学习能力强的人必定在日常学习、升学、就业或创业等方面占有极大优势。遗憾的是，很多人在英语学习方面的“投入—产出”比例极不理想，有人学了十多年英语仍然“口不能开、手不能写”，更谈不上有效沟通。在一项针对中国在校大学生非英语专业代表性群体的英语测试中，一万多名考生的英语作文居然只有一篇勉强称得上“优秀”。正因为此，广大英语教师和学习者迫切希望找到能够快捷高效地提升英语水平的方法。英语分级阅读项目就是一种能够有效提高个体英语水平的方法。事实上，英语分级阅读已经在北美一些国家的中小学英语教学中得到了普遍应用，效果十分明显，国内一些学校也开始引进并应用这种方法。本文对英语分级阅读的理论依据、操作方式和测量学算法进行分析，并结合我国中小学教育教学实际，参照《中国英语能力等级量表》[1]的逻辑框架，推介一套四模块五维度的英语分级阅读测试系统的设计方案，并提供若干试题样例。

一、英语分级阅读概述

英语分级阅读是一种根据阅读者的英语知识和能力水平，由出版商或有关教育机构精准推送阅读书目，并提供相应检测系统的英语学习模式。国外比较著名的分级阅读项目[2]主要有“蓝思阅读计划（Lexile professional development）”“阅读提速计划（accelerated reader level，AR）”“阅读发展评价（developmentalreadingassessment，DRA）”[3]“阅读指导等级（fountas-pinnell guided reading levels，GRL）”等十多种。由于该方法在英语知识的掌握和英语能力的提升方面具有明显的效果，它在北美一些国家中受到了基础教育工作者和学生的广泛欢迎。

分级阅读的具体操作一般遵循以下5 个步骤：（1）在教师指导下，学生选定适合自己水平、目的和兴趣的文本或书籍；（2）学生在课堂或者课外独立阅读；（3）学生读完文本或书籍后自觉参加一个针对所读文本或书籍的诊断性测试或形成性测试，获得反馈信息；（4）学生根据反馈结果，及时纠正错误，并再次选择同一级别的类似读物，重复前面3 个环节；（5）一旦学生能连续通过某个级别的阅读诊断测试，教师就会建议他阅读下一个更高阶段的读物。[2]

英语分级阅读的理论依据主要是Krashen的“输入假说”理论。该理论认为，语言习得主要依靠大量、持续、有趣且难度略高于学习者现有水平（即水平i）的信息输入（即水平“i+1”或“可理解的输入”或“最近发展区”）。[4]分级阅读的任务之一就是通过诊断性测试，设法找到每个学生的现有水平（i），然后给学生精准推送难度水平为（i+1）的阅读书目，并提供与之配套的诊断性测试，以便检验学生的阅读效果。

显然，给各种阅读书目确定难度等级是一项很有挑战性的任务。事实上，不同的出版商或教育机构在这方面往往自行其是。有的侧重于文本材料中单词的出现频率、长度、复杂度，以及作品的长度等，有的侧重于文本内容的深度和广度等。如Lexile 主要从语义难度（semantic difficulty）和句法复杂度（syntactic complexity）两个角度确定文本的等级水平；GRL 项目主要参考全文词语数量、单词数量、高频词语数量与比例、低频词语数量与比例、句子长度、句子复杂度、句义明晰度、句式、印刷规格、每页词语数、插图信息量、思想深度、主题熟悉度等。Lexile 还使用了题目反应理论（item response theory，IRT）中的Rasch 模型估算文本的难度系数，最后推出了一套分值介于（200，1100）的蓝思量表，如分值为（200，299）（300，499）（500，699）（700，799）（800，899）（900，999）的阅读书目分别适合北美1～6 年级学生阅读，分值（1000，1100）的阅读书目则适合北美7～8 年级学生阅读等。其他分级阅读项目也分别设计了各自的等级算法。

二、现有英语分级阅读项目的问题与不足

北美现行的英语分级阅读虽然效果不错，但也存在一些不足，在将英语分级阅读引入中国时，我们需要规避这些不足并从理论、方法到效果检测等各个环节进行必要的更新。

首先，英语分级阅读的理论依据需要进一步整合。从语言习得角度来说，英语学习除了需要大量的信息输入，还需要有计划的信息输出，更需要吸纳二语习得中的词块理论（lexical chunks）、建构主义的认知结构理论及行为主义的学习理论等。[4]例如：Swain 认为，外语习得不能局限在“信息输入”环节，而要积极主动地开展大量富有意义和创造性的输出（写作、口语）训练，应当用输出“倒逼”输入，进而巩固必备知识和提升英语关键能力，特别是提升英语表达能力、语用能力和言语策略；Lewis 认为，语言不是由词汇化的语法组成，而是由语法化的词汇组成的。因此，英语学习不能遵循“阅读原文—逐句翻译—讲解词汇—说明语法—刷题练习”这种固定套路，而是要鼓励多种主动输出训练，也可用词块的思路，从信息沟通和思想情感交流等角度，以观点内容和思维方式为切入点，“倒逼”学生谋篇布局和选词造句的本领，进而掌握语法、词汇等内容，发展学生的英语能力。在英语知识的掌握方面，建构主义的认知结构理论在确定阅读书目的等级、检查学生对英语必备知识的掌握情况等方面有一定参考价值。在任务完成和能力发展方面，行为主义的学习理论在判断阅读书目的等级、评估学生阅读理解能力的水平等方面意义重大。分级阅读不能局限在“级别确定”这一个方面，还需要从语言习得角度，加大文本内容的建构主义解析和行为主义的输出使用等方面的设计，吸纳更多的学习理论，改进阅读测试系统。

其次，确定阅读书目等级水平的算法需要优化。目前，无论是蓝思阅读还是其他分级阅读项目，阅读书目等级的划分方法还存在缺陷。比如，现行算法中关注单词、词组等知识层面的因素较多，对文本所承载的思想、情感、态度、价值、文化，以及思维能力等较高认知、非认知方面的因素缺乏客观的评定标准，甚至被忽略不计，这显然是不恰当的。有些文章或著作用词华丽，但思想内容未必是精品；有些作品朴实无华，其背后的思想深度却可能是大师级的层次。若采用蓝思阅读的水平等级算分方法，则很难反映作品的真实层次。这好比中国人阅读《三国演义》，其中的文字并不复杂，不同读者所能达到的阅读层次却有天壤之别。同样，海明威的The Old Man and the Sea 的文字也不复杂，其背后的思想情感深度，所有读者未必都能领悟。可见，阅读等级的划分不能局限在文字层面，而是要提升到内容、思想、态度、文化和价值观等层面。

再次，阅读测评需要引入现代测评理论与方法。目前常见的几种分级阅读项目都配套了相应的测评系统，但这些阅读测评系统非常简陋。这些测评中的绝大部分试题主要考查文本中的基本观点、态度和基本知识，对中心思想和文章细节，以及文中字、词、句等语言知识方面的考查偏多，而对事实判断、前提辨认、态度分析、论证评价、结论推广等方面的考查偏少，更缺乏高层次的测评理论与技术支撑。显然，这种测评系统缺乏现代测评理论的指导，考试题目的公平性没有客观的评价指标，更没有题目参数等值的考试题库，分数报告也仅仅局限在对文本信息量的随机抽查方面，最终测评的信度不太理想，内容效度和结构效度无法得到保障，测评结果的解读也简单粗糙。即便如蓝思阅读使用了Rasch 模型，其测评系统依然在测评的内容效度等方面存在漏洞，其能力估计值所依赖的文字信息也不足以代表文本本身及其背后的思维层次等。

最后，分级阅读需要与中国教育的现实相结合。要想发挥分级阅读的效果，我们必须调整北美的一些做法，以便适应中国的国情，满足中国学生英语学习的需求。比如，在文本选择方面，由于学生的成长环境、教育体系、价值观念、文化传统等存在着明显差异，因此，绝不能直接照搬北美某个出版社或教育机构的分级阅读产品。再比如，课本在中国学生的英语学习过程中扮演着十分重要的角色，而北美很多中小学几乎没有英语课本，他们的英语学习主要是直接向莎士比亚、马克·吐温、狄更斯、海明威等语言大师学习。此外，北美学生也很少有课外辅导和“题海”作答任务，他们有大量时间开展自主阅读活动，一个小学五年级学生一年的名著阅读量就多达300 本，这对中国学生来说几乎不可能。尤其不同的是，北美的英语分级阅读项目针对的是以英语为母语的学生，大多数中国学生可能到小学高年级甚至到初中才开始正式学习英语，而且有的地区缺乏优质的英语师资和英语环境，因此，在中国，分级阅读所对应年级的阅读书目必须进行全面调整。

三、英语分级阅读项目的改进策略

要较好地适应中国国情，顺利完成英语分级阅读书目的选择和等级设定工作，至少需要解决以下3 个方面的问题。

1.组织专家团队精心选择阅读书目并确定其难度等级

从理论上讲，大量引入英文原著可以尽可能地保留英语的原汁原味。这对于缺乏英语环境的中国学生来说十分有利，因为他们在阅读英文原著时，英语语用能力和文化意识比较容易在潜移默化中得到提升。但在实际操作过程中，为所有年级或所有水平的学生选择恰当的英语阅读书目，是个浩大的工程，充满着挑战。

首先，人们对阅读能力的不同理解会直接影响阅读材料的选择和等级的确定。有专家认为，阅读能力包括语言解码、组织连贯、模式辨别、筛选贮存、语感、阅读迁移等6 种能力。[5]PISA 认为，“阅读是理解、运用、反思并积极参与阅读书面篇章，以增进知识，发挥潜能，参与社会，实现个人的目标”[6]。对阅读能力的不同理解显然会影响阅读材料的选择与等级的确定。

其次，阅读内容的处理需要高超的艺术。由于东西方文化等的差异，不少人觉得在引进英文原著时应该有一个审核机制，可能需要对其中的部分内容进行修改。若组织专家修改英文原著，则很可能把其中最重要的语用信息、文化理解等内容删除了，甚至把英语思维方式改成中文思维方式，这是一种费力不讨好的行为。若直接使用英文原著，则需要有大量专家乐意关注儿童读物的挑选和导读，而这项工作往往既不能吸引高校教师（这种研究无法在高级别刊物上发表论文），也不能吸引一线英语教学工作者（中小学英语教师往往资源有限、时间有限等）。

最后，设定等级的技术需要专门的培训。在设定阅读材料的等级时，往往需要使用标准设定（standard setting）的方法，而大部分一线教师对标准设定的原理和方法可能闻所未闻或理解不深，且很少有机会参加相关培训。这些问题都需要在阅读材料的选择和等级确定的过程中解决。

2.参照《中国英语能力等级量表》设计测评系统的考试蓝图

目前，国内一些学校采用的分级阅读测评系统基本上缺乏考试蓝图，因此测评的内容效度和结构效度都不够理想，直接影响了命题的质量和分数的意义。根据《中国英语能力等级量表》：英语知识可分为4 个模块，包括语法知识、篇章知识、功能知识和社会语言知识；英语能力可以分解为5 个维度，包括英语理解能力（听力和阅读）、英语表达能力（写作和口语）、语用能力（表达得体）、语言使用策略（计划—执行—补救或调整）及英语翻译能力。这就是说，在编写分级阅读测试题时，命题者需要兼顾英语知识的四大模块和英语能力的五大维度。表1 是四模块五维度的英语阅读测评系统考试蓝图样例。

表1 四模块五维度的英语阅读测评系统考试蓝图样例

3.借助现代测评理论和方法，优化分级阅读测试系统的测量学特性

根据现代测评理论，测评项目的评价指标主要是测评效度（validity）、测量信度（reliability）和考试的公平性（fairness），另外还有题目区分度、难度和题目功能差异（differentiating item function，DIF）指标，此外还有分数表达和解释的科学性水平，包括报告常模参照分数（norm-referenced scores）、标准参照分数（criterion-referenced scores）和成长分数（growth scores）。对分级阅读而言，标准参照分数和成长分数特别重要。一旦某个学生阅读完某部原著之后的自我测试成绩达到某个标准，则可以建议他阅读更高层级的书目；假若他的阅读测试成绩没有达标，则需要指出他在必备知识和关键能力的哪些方面存在不足，并推荐阅读同等级别难度的原著。

四、英语分级阅读测试题目编写样例

根据表1 所设计的四模块五维度阅读测评系统考试蓝图，针对不同的阅读材料，我们可以设计一系列题目，分别考查学生的英语理解能力、表达能力、语用能力、语言使用策略和翻译能力，并覆盖语法知识、篇章知识、功能知识和社会语言知识。比如，以儿童读物How Elephants Lost Their Wings[7]为例，我们可以设计如下一些类型的题目，其难度适合中国的初中学生。

例1.Once upon a time，elephants could_____.

A.fly B.yell

C.shout D.stomp

【点评】本题答案为A。本题主要考查学生的语法知识和事实辨认能力。其中，“yell”“shout”“stomp”3 个干扰项均来自语篇，具有很强的干扰性，该题既可以考查学生是否熟悉这3 个英语单词的意义，同时也能够考查学生是否可以通过阅读语篇，提取文中关键信息，从而排除干扰选项，选择正确答案。而题干的设计是为了让学生通过阅读语篇，理解印度民间故事中大象能够“飞”这个事实性知识，从而激发孩子们对后文大象为什么会失去翅膀的阅读兴趣。

例2.The gods took away elephant’s wings after elephants______.

A.flew B.ate C.slept D.shook

【点评】本题答案为C。本题主要考查学生的篇章知识和判断理解能力。题干通过使用“after”这个连词对原文的信息进行了衔接整合，目的是考查学生是否能够根据文中的连接词理解上下文的逻辑信息。同时，在选项中设立“flew”“ate”“shook”这3 个选项，一方面是因为它们放入题干都连贯通顺，另一方面是因为它们都出现在原文正确答案附近，二者容易对学生选择正确答案造成干扰。因此，该题可以有效考查学生是否已经真正理解语篇，以及是否可以根据原文信息对题干做出正确判断。

例3.Elephants shouted and stomped_____they didn’t get their wings back.

A.so B.but C.and D.because

【点评】本题答案为D。本题主要考查学生的篇章知识和逻辑推理能力，其突破口在于学生是否理解题干中两个分句之间的逻辑关系。从语法上看，选项A、B、C、D 都言之有理，但从语篇逻辑上看，两个分句之间的关系既不是“so”体现的顺承关系，也不是“but”体现的转折关系，更不是“and”体现的并列关系，而是“because”体现的因果关系。

例4. The following are the reasons why elephants were noisy EXCEPT_______.

A.They shook trees and houses.

B.They yelled and crowded like roosters.

C.They flew into trees and smashed them.

D.They landed on houses and fell right through.

【点评】本题答案为A。本题主要考查学生的语法知识、功能知识和论证理解能力。题干的设计主要是为了引导学生去探究会飞的大象很吵闹的原因，学生要回答这个问题，必须在原文中寻找证据或关键信息进行论证；而干扰项的设计是为了考查学生对原文主语和谓语的定位是否明确，若定位明确，能对题干进行有效论证，则可选出正确答案。

例5.What trick did the gods come up with to stop elephants from destroying tress and houses？

A.They invited the elephants to a big feast.

B.They invited the elephants to a large feast.

C.They invited the elephants to a grand feast.

D.They invited the elephants to a great feast.

【点评】本题答案为C。本题主要考查学生的社会语言知识和表达能力。题干的设计主要是为了帮助学生了解在该故事中上帝想到了用什么样的方法去阻止有翅膀的大象破坏树木和房屋；而选项的设计是基于原文信息的事实性表达，在4 个选项中，通过运用“grand”“big”“large”“great”这4 个单词，既考查了学生对这4 个单词的熟悉程度，也考查了学生是否能够区分这4 个词语在不同语境下的表达方式。

例6. How Elephants Lost Their Wings is an Indian______.

A.novel B.folktale

C.fairy tale D.idiom story

【点评】本题答案为B。本题考查学生的社会语言知识和语言使用策略。由于该阅读语篇来自印度的一个民间故事，因此学生对4 种故事类型，即民间故事、寓言故事、神话故事及成语故事的熟悉程度，可以帮助他们在阅读之前对语篇进行快速定位。学生若能更好地理解该阅读语篇的背景知识和文化信息，就可以快速发现和挖掘该民间故事背后传递的关键信息和丰富内涵。

例7. In the end of the story，elephants ______theirwings.

A.got B.took C.gave D.lost

【点评】本题答案为D。本题主要考查学生的功能知识和语言使用策略。该题的设计主要是为了考查学生能否利用故事里的对象、场合、情境及上下文线索去预测该故事的结局。在这个故事中，我们既可以通过最后一句话“But they didn’t get their wings back and they never flew again”来推测故事的结局，也可以根据最后两张图片里面大象的表情、眼神、外观，以及孔雀和香蕉树的特点，预测在这个故事末尾，大象的调皮捣蛋让它们失去了自己的翅膀。

例8. The author believed that flying elephants were_____.

A.cute B.naughty C.cross D.strong

【点评】本题答案为B。本题主要考查学生的语法知识和语言使用策略。其中，题干考查学生能否利用材料中的衔接词识别并评估作者的观点。在该语篇中，衔接词“but”和“like”反复出现，如“but the elephants were noisy”“but they didn’t get their wings back and they never flew again”“They yelled and crowded like roosters”，如果学生掌握了评估或补救这个言语策略，就可以推断出作者认为飞着的大象特别调皮吵闹，给树木和房屋造成了很大的伤害。但是正确答案的设计并没有直接使用原文中的单词“noisy”，而是使用了“naughty”这个词，目的是考查学生对阅读语篇的概括能力。在选项的设置上，命题者分别设计了“cute”“strong”两个褒义词和“cross”“naughty”两个贬义词。设计两个褒义词的原因是我们常常会用“可爱”“健壮”等形容词去形容大象，如果学生先入为主，没有结合具体的语篇进行分析，就很容易选错。选项C“cross”也具有较强的干扰性，一是因为这个词直接在文中出现，二是因为“cross”确实能反映文中大象的特点，但是解题的关键在于“cross”是形容失去翅膀后的大象脾气变得暴躁易怒，若学生不仔细分析该题，就很容易选择错误答案。

例9.The gods decided to______elephants after they broke all the trees.

A.stop B.punish C.praise D.invite

【点评】本题答案为A。本题主要考查学生的功能知识和语用能力。题干对原文信息进行了整合，要求学生能够根据材料中的语境，探究大象破坏了所有树木之后上帝所做出的决定，包括阻止、惩罚、赞扬，或是邀请参加聚会。选项A 是基于原文的正确答案；选项B 是基于“做了错事就该受到惩罚”的常识的答案；选项C 既考单词的熟悉程度，又考查学生区分“punish”和“praise”这两个形近义异词汇的能力；选项D“invite”的干扰性较强，因为该词直接来自原文，但上帝邀请大象去参加盛宴是一个“trick”，所以该选项与题干要求不符。

例10.“Flying elephants”is used as_____.

A.simile B.personification

C.metaphor D.repetition

【点评】本题答案为C。本题主要考查学生的社会语言知识和语用能力。该题的设计主要是为了考查学生是否初步了解比喻、拟人等修辞手法，以及是否能够结合具体的语言现象来对这些基本的修辞手法进行判断，从而考查他们在社交得体方面的语用能力。

例11. Please translate the following sentence into Chinese：“They flew high into the sky and down to the ground”.

A.他们飞向高空，又飞向低地。

B.他们高飞上天，又低飞落地。

C.他们飞向天空，又回落低地。

D.他们冲上高空，又跌下落地。

【点评】本题答案为B。本题主要考查学生的语法知识和翻译能力。其目的在于考查学生能否翻译语言浅显的场景描写，使译文再现原文空间定位、自然环境等信息。一般情况下，学生都能够正确地翻译“sky”和“ground”这两个单词，但要使这句话翻译得流畅地道，符合目的语的语言习惯，重点在于学生怎么翻译“high”和“down”这两个空间方位词。在这个句子里面，“high”和“down”都充当副词，修饰前面的“flew”，所以，根据直译法和严复先生提出的“信、达、雅”3 个翻译原则，这句话最恰当的中文翻译是B 选项。

例12. Please translate the following sentence into English：“不久，所有的树木都被破坏了，房子也都没了”.

A.Soon all the trees were broken and there were no houses leaving.

B.Soon all the trees were broken and there are no houses left.

C.Soon all the trees were broke and there were no houses left.

D.Soon all the trees were broken and there were no houses left.

【点评】本题答案为D。本题主要考查学生的语法知识、功能知识和翻译能力。解题的关键在于能否把源语中的被动语态、过去式、过去分词，以及句子与句子之间时态的一致性翻译出来，再现原文的细节信息，应体现翻译的忠实性原则。由于D 选项最能够传达出源语的信息，因此该项翻译最准确。

在设计阅读测试题目时，表达能力的考查挑战较大，例13 就是一种尝试。

例13. According to the book Kipper and the Giant[8]，please order the following events correctly.

①go into the magic house

②villagers threw thingsat Kipper

③watch TV

④Kipper helped the villagers

⑤Kipper came back

⑥the giant injured

A.③①②④⑥⑤ B.①②④⑥⑤③

C.③①⑤②④⑥ D.③①④⑥⑤②

【点评】本题答案为A。本题主要考查篇章知识、功能知识及学生的表达能力。从试题的设计上来说，该题既要求学生对全文有一个整体性的把握，而非碎片化的了解，又要求学生根据事件发生的顺序进行排序，如果有一个地方弄错，整个篇章结构将会被打乱。

在考查学生选词造句方面，试题可以设计成类似于例14 的形式。

例14.According to the book Amelia Bedelia[9]，which is correct for combining the following six words into one sentence？

“me”，“makes”，“surprise”，“a”，“she”，“to”

A.She makes a surprise to me.

B.She makes a surprise me to.

C.Me makes a surprise she to.

D.Me makes a surprise to she.

【点评】本题答案为A。本题通过语序题的设计，考查学生的组句能力。主格、宾格的差异决定了它们在句中相应的位置，“介宾”常规语序也决定了整个句子的语序。选项设置A 与B 相似，C与D 相似。学生必须对主格、宾格在句子中的位置和介宾语序都有所了解才能选出正确答案。此外，选项的句子长短因词汇的固定而固定，所以需要避开“三短一长选最长”或“三长一短选最短”等出题漏洞。

总之，实施英语分级阅读项目是高效提升学习者英语水平的重要方法。不过，国外分级阅读材料的等级确定方法和相应的测试题目，过度依赖于语言文字本身，对文本所蕴含的思想、观点、态度、文化、价值和思维方式等内容关注不足。此外，直接引进国外分级阅读项目的做法也存在着阅读材料不足、等级划分不符合中国学生发展水平、中国学生阅读时间不足、教师教学观念和方法不适应等问题。本文主张组织专家团队，积极开展英语阅读书目的选择和等级的确定等科研工作，系统研发符合测量学要求和教学需要的相应测评系统。文章提供了一个基于《中国英语能力等级量表》的四模块五维度阅读测评系统考试蓝图样例和14 道典型例题，为英语分级阅读测评系统的研发提供了设计样例。