大学英语分级考试内在效度研究<br/>——以HFUT 2018级英语分级考试为例

大学英语分级考试内在效度研究
——以HFUT 2018级英语分级考试为例

2020-01-10

阜阳师范大学学报(社会科学版) 2019年6期

（合肥工业大学外语学院大外部，安徽合肥 230009）

引言

目前大学英语教学面临的一大难题是考进同一所学校甚至同一个专业的学生英语水平参差不齐，个体差异很大。大部分高校为了了解学生的英语学习水平和学习能力，以便根据教育部颁发的《大学英语教学大纲（1985）》的要求更有效地组织教学都实施了校本分级考试。根据学生的分级考试成绩将他们分到不同班级进行分级教学，能更好地因材施教，最大限度地优化学生英语学习效果。分级考试是大学英语分级教学的第一步，也是关键的环节，将会对随后的英语教学产生较大影响。分级考试是否公正可靠，能不能有效区分学生不同的英语学习水平和学习能力，依据分级考试分数划分的分级标准在多大程度上具备合理性，效度检验便是一项重要的验证方法。因此对分级考试的效度进行研究就很有必要，只有对考试的每一步进行充分的研究，才能找到考试的不足和问题所在，从而知道考试是否达到它所要考的目的，反过来更好地促进教学。HFUT英语分级考试已实施了十多年，但未曾对其进行过验证和研究。鉴于分级考试在大学英语分级教学中的关键性作用，本文拟对HFUT 2018级的分级考试效度进行探索性研究。语言测试的效度理论经过了不同时期代系的发展，共有5到8种效度，李筱菊将其分为4大类，即内在效度、外在效度、使用效度和超考试效度。其中，构念效度和内容效度是内在效度，指的是测试本身的效度，本文主要分析内在效度。

1 研究方法

1.1 研究对象

本文选取HFUT 2018级大学英语分级考试试卷作为研究对象(随机抽取了123名来自全校5个不同专业的2018级大一新生的分级考试试卷)，该试卷的设计目的主要是考查学生的语言知识及其应用能力，具体包括：词汇语法知识、阅读理解能力和获取口头信息的能力。此次测试的试卷包括三大测试任务：听力理解、词汇与结构和阅读理解。各项所占分值分别为40%、20%、40%，满分100分。全卷共60道题，各项平均20道题，除词汇与结构项每道题1分外，听力和阅读理解两项每道题2分。所有试题都是客观题，采用多项选择题型，每份试卷都配有专用答题纸，机器阅卷。

1.2 研究工具

研究工具为社会统计软件包SPSS21、Microsoft Word 2007和Flesch易读度美国参考量表。

2 结果与分析

首先对123名新生的分级考试分数进行正态分布检验。

图1 123人在HFUT 2018级分级测试中的成绩分布图

图1.是对123名学生在HFUT2018级分级测试中分数的正态分布检验图。从图中可看出，此次考试的分数基本呈正态分布，分布在50-60分左右的人数最多。

表1 HFUT 2018级123人分级考试的描述性参数

表1是123人考试分数的描述性统计结果。从表1可看到总分均值为60.92，标准差为12.46，显示学生的分数分布较为合理，离散程度较高，可以将不同水平的学生区分出来。通过计算得出分布图的峰值和倾斜度分别为-0.308和0.107(正常范围为 -2～2），表明本次分级考试成绩呈正态分布，有较好的信度，因此可对其进行效度验证。

2.1 构念效度（construct validity）

构念效度是效度中最重要的，其核心是显示分数意义及其解释的可靠性。一项测试构念效度的高低可通过计算出组成测试各部分之间的相互关联性来检验，就语言测试而言,组成试卷的试题各部分之间的相关系数,杨惠中和weir通过研究得出在0.3-0.7之间是合适的，他们认为如果两部分试题之间的相关系数太高，则说明这两部分考的是相同的能力，将其中的一个部分留下即可，以避免考试内容的重复；如果太低，则表明两者考的是完全不同的能力[1]61。HFUT 2018级分级考试各部分之间及与总分之间的相关矩阵如表2所示。

表2 相关矩阵

从表2可看出听力、词汇与结构、阅读各部分与总分之间的相关系数分别为0.188、0.207和0.424，且只在0.05水平上显著。根据经典测试理论，各项目与总分的相关系数可能被期望达到0.7±或更高，因为总分是对语言能力的综合测量[2]184。但是本次测试的各部分与总分的相关系数都与0.7相差较远，没有达到经典测试理论所期望的指标，从而缺乏对总分的解释力。

各部分之间的相关系数只有词汇与结构和阅读为0.367，处在合适的范围内，在0.01水平上显著；而听力和其它两部分之间的相关系数都非常低，与阅读之间的相关系数最低，仅为0.100，这说明听力考查的语言能力与词汇与结构、阅读两者考的是完全不同的能力。只有阅读和词汇结构之间的相关关系在0.01的水平上显著，其余各部分之间的相关关系都没有达到0.01的显著性水平。由此可见，本次分级考试听力部分的考题设计存在较大问题，试卷的内部结构一致性不理想。

2.2 内容效度（content validity）

内容效度指的是考试是否考了要考的规定内容，考试的内容越是与考试大纲相关，符合考试大纲的规定和要求，越是能代表它所要求的测量任务和目标，就越能够获得较高的内容效度。李筱菊认为因为有白纸黑字的大纲作依据，内容效度是可检验的。

此次考试的第一项是听力理解，它的内容效度具体体现在材料的选取、语篇的长度、语速的快慢等听力技能方面。此部分由新闻报道、长对话和短文各两篇组成，共20道考题，每道考题后留有10秒的答题时间，相较于《全国大学英语四级考试大纲（2006修订版》（以下简称《考试大纲》）规定的答题时间15秒[3]，少了5秒；各部分的语速分别为每分钟120词、160词和122词，根据《大学英语课程教学要求（2007）》（以下简称《教学要求》）中的一般要求，大学生的听力能力是能听懂语速为每分钟130-150词的听力材料[4]，《考试大纲》规定，听力部分的语速为每分钟130词，据此可看出，第二部分语速较快，其它两部分语速在正常范围之内。在新闻报道中，第一条新闻是关于索马里及非洲另外三个国家遭受饥荒和疾病急需国际社会援助的糟糕现状（共184词）；第二条新闻是报道中国小米手机在印度市场的占有情况（共178词），这两类话题对学生来说都比较熟悉，理解起来难度不大。两篇长对话分别是有关周末生活安排（共277词）和是否要去现场观看足球比赛的讨论（共281词），有6-7轮对话，符合《考试大纲》的5-8轮对话的规定，但语速较快。短文的第一篇是说研究者发现婴儿发笑的原因（共233词），第二篇是关于古埃及的社会生活（共252词），根据《考试大纲》的规定每篇短文的长度为200-250词，这两篇听力短文长度符合大纲的要求。此次考试的听力材料语篇总长度达到了1205词，而高考(全国卷)听力材料的语篇总长度多年稳定在800词左右[5]46，由此可见，较长的语篇对刚参加完高考还没开始大学英语学习的考生们来说，会对他们的听力理解产生不利的影响。在语速方面，长对话的语速为每分钟160词，远远高出高中课程标准中的语速为每分钟110词的规定，对他们来说难度较大。不同于阅读，在英语学习中听力历来就是中国学生最大的难点和薄弱部分，过快的语速瞬间使考生紧张起来并且容易使他们产生焦虑情绪，从而影响答题正确率，影响考试的效度，这与构念效度分析是一致的。

阅读理解部分的测试目的是考查考生通过阅读获取书面信息的能力，HFUT2018级分级考试的阅读理解部分为仔细阅读，由4篇短文组成，分值40%，与《考试大纲》规定的分值占35%基本一致，每篇长度分别为248词、320词、391词和348词，基本符合《考试大纲》每篇300-350词的规定，但在题型上没有简答题和选词填空题。4篇短文的体裁皆为叙述文，但《考试大纲》对体裁的规定则要求多样，包括叙述文、说明文、议论文等。因每一种文章的体裁都有其特定的写作结构和不同的图解，针对不同体裁的阅读材料考生会用其对应的图解来进行诠释和理解，文章的体裁不同会对阅读理解产生很大的影响，一般来说，像议论文和说明文相比记叙文读起来就更难理解。4篇短文的话题皆有关社会生活和文化，缺乏广泛性，而诸如人文科学、社会科学、自然科学等领域都是大纲规定的考试题材，应尽可能涉及。不同的话题对考生能产生显著的影响，碰上熟悉话题考生答起题来就会得心应手，其答题的准确率也会高于对话题不熟悉的考生，这就要求阅读部分所选文章的题材应该尽可能广泛，尽可能多地涉及规定的领域，覆盖多个方面。

测试与能力密不可分，每项测试都考查考生特定的能力，在阅读技能考查方面，大纲要求考查考生是否具备在不同层面上的英语阅读理解能力，包括理解文章的主旨大意及其重要细节、文章中没有明说而隐含的意义、根据上下文推测词义、通过作者的用词和语气来判断其观点和态度等，杨惠中和Weir把词汇或句子层面的技能划定为低层次技能，即理解文章中事实及某个细节、单词和句子、概念等，而高层次技能则是如大纲中规定的理解主旨大意、隐含意义等技能，不局限于表面的理解而是涉及到语篇水平上深层次的阅读理解。本次阅读测试的20道考题中考查事实细节类题有10题，主旨大意类题有3题，隐含意义类的有3题，有关作者态度的有2题，推测判断类的有1题，根据上下文推测词义的有1题，高低阅读技能都得到了考查，符合大纲要求。但是仔细观察不难发现，考查事实细节类的低层次技能题就占了50%，各项技能的考查比例不均衡。此外，为测定语篇的易读度，本文参考了Flesch易读度（Flesch Reading Ease）公式和易读度美国参考量表，使用了Microsoft Office Word的拼写和语法功能进行计算，4篇短文的易读度分别为62.1、76.0、64.9和61.8。Flesh易读度以100—0百分制来评定阅读材料的难易度，分值越高难度越低越易理解，而分值越低则难度越高越难读。根据Flesch易读度参考量表[6]211-233，分值为60-70的是“标准”的阅读材料，具有此等阅读技能的人群在全美成年人中占比75%，相当于美国7-8年级的学生；70-80的是“相当简单”的阅读材料，具有此等阅读技能的人群在全美成年人中占比80%，相当于美国6年级的学生，由此可见，此次测试的语篇易读度对于已学习英语至少八年的学生来说偏容易了。

最后一部分的词汇与结构由20道多项选择题组成，其中一道题考的是词组搭配，另有两道题考的是介词的运用，其它考的都是词汇题。这20道题的出题范围是5000多词汇的大学英语词汇表，对刚入学的大学新生来说，词汇量的要求较高，答对较难。

2.3 问题分析与讨论

总体来看，此次考试试卷的内在效度不高，尤其是构念效度较低，如何提高分级考试的效度亟待研究。目前国内学者的研究主要是对分级考试的某个效度或多个效度进行验证和分析，并没有从分级考试的特点和目的出发进行有针对性的研究。作者认为以下几方面需要我们认真思考：首先，要明确分级考试的性质，分级考试不同于高考那样的选拔性考试，也不同于四、六级考试那样具有明确的水平标准的水平考试，分级考试的目的是把受试者的不同水平和特点区分开，测定受试者当前的英语水平和英语学习能力适合今后什么层次的英语学习和什么特点的英语学习，以决定教学起点，因材施教，并不要求受试者必须达到划定的分数线，这样的考试特点决定了分级考试试题的重点在甄别，也就是试题的区分度要高、题型要多样、题量不能少、难度要适中。

分析HFUT 2018级大学英语分级考试试卷，其题量较少，一套全面的外语考试如以客观题为主，总题量不应少于80至100[7]92；其次，题型少、体裁单一，阅读理解部分的文章总体偏容易，没有考查到受试者的多方面语言能力；听力题的语速、篇幅、答题时间都存在一定的问题，答题难度大，难以答对。一般来说，太难或太容易的试题都不便于区分出受试者的水平高低。“试题要适宜于要考它的受试者，受试群要适宜于他们要考的试题。”[7]47所以试题设计的原则应深入了解受试者的语言能力需求，即参加分级考试的考生们，他们是刚刚参加完高考，刚入学还没有开始大学英语学习的新生，那么什么样的试题难度对他们是合适的，这是在试题设计时必须要考虑的。因全国各高校的学生情况不一样，分级考试试卷的难易度应参考本校考生高考的英语成绩，结合本校一直以来新生入学时的英语水平背景，合理设计。就HFUT新生入学时英语水平的状况，试题的难度应稍高于高考试题的难度，接近大学英语一级的程度较为合适。另外，本次考试试题全为多项选择客观题，虽然选择题适用机器阅卷，具有避免人为因素影响的优势，但是考试中考生容易作弊，带有出题者的主观性等缺陷也不容忽视，而选择题很难测试出考生对英语语言的应用能力，在将来的分级考试试卷设计中应增加一些主观回答的题型，进一步完善分级考试试卷。有鉴于分级考试是在大学课堂学习开始之前举行的，所以在试卷设计时也要考虑中学到大学的过渡和衔接，尤其是听力。

分级考试是每年进行的反复性考试，每次考试结束后应将数据收集起来，对考试进行分析评估，以逐步提高试题质量、提升考试的效度。各校可根据自己学校学生的实际情况确定考试构念并制定详细的分级考试要求和命题细则，起到考试大纲的作用，保持考试所考核的内容、语言技能要求及试题结构的稳定性，以保证考试题目不会偏离受试者的需求太远，从而使受试者能按考试的要求，公平地考出实际水平，使分级考试更好地为教学和学习服务。