APP下载

剑桥英语Compact First考试口语部分评析

2014-03-27蔡常石

黄山学院学报 2014年2期
关键词:试卷可靠性口语

蔡常石

(英国利物浦大学 语言学院,利物浦L69 3BX)

一、引 言

Compact First考试是剑桥国际英语认证考试系列(FCE:First Certificate in English)中的一种模拟测试。[1]6该考试旨在帮助考生达到CEFR(欧洲共同语言参考标准)的B2水平。该考试能够全面反映考生现实生活中实际运用语言的能力,如普通综合能力、社交和旅游能力以及工作和学习能力等。考试由五个部分组成:阅读理解(1小时)、写作(1小时 20分钟)、英语应用(45分钟)、听力(40分钟)及口语(14分钟),每个部分各占总分值的20%。分析研究Compact First考试的口语部分对该考试形式和内容的可靠性、有效性和真实性以及能否反映考生语言应用能力进行评估。

二、试卷分析的理论依据

运用试卷分析学理论对Compact First考试口语部分进行分析,主要从语言测试的可靠性、有效性和真实性入手。

(一)语言测试的可靠性

可靠性是一种不受非系统性波动影响的概念。Hughes认为要想一个测试是有效的,必须以系统准确的评分为前提,即确保语言测试的可靠性。[2]36

根据不可靠性的来源可将可靠性分为以下三种类型:

1.评分人的可靠性

评分人搜集到的信息中的不稳定性(非系统性波动)将会影响到评分结果,即测试中评分人的可靠性。对于同一考生的试卷,不同的评分人可能会给出大相径庭的评分。评分人的可靠性除了受评分者之间的差异影响外,还包括评分人自身的不可靠性。如:同一评分人在一天中的不同时段由于受到情绪或其他因素的影响,对同一考生也会给出不同的评分。

2.与考生相关的可靠性

考生自身的情况也会对可靠性造成影响。例如,由于考生生理或心理的状况不同,或受到其他测试范围以外的因素的影响,可能会有不同的应试表现。

3.与测试方式有关的可靠性

可靠性还与测试的方式相关。语言水平相当的考生,参加不同题型的考试,其结果也会大不相同。例如,对于一些善于猜题的考生,在多项选择题型的考试中就有可能获得较高的分数。

(二)语言测试的有效性

语言测试中的另一个重要的概念是有效性。Borsboom和Van提出有效性是指一个测试是否测试了想要测试的内容。[3]145Hughes亦认为:“如果一个测试能按照其计划进行准确评估,那么此测试就是有效的。”[2]143

有效性可分为内容有效性、结构有效性和考生认可度有效性。

1.内容有效性

内容有效性涉及到测试是否涵盖了被测试知识和技能的足够范围。“如果一个测试的内容包含了它打算包含的语言技能和结构等具有代表性的范例,那么此测试就做到了内容有效性。”[2]50例如,如果综合语法能力测试包含两个练习:一个练习要求学生将10个句子改为过去时,另一个练习要求学生将10个句子改为否定形式,其内容有效性就不容乐观。因为过去时和否定形式只是整个语法范围中的一个小部分,而该测试的目的是测试考生的综合语法能力。没有达到测试的目标,就意味着该测试的内容有效性很低。

2.结构有效性

Hughes认为:“‘结构’这个词存在于语言能力理论中的假设,是指(语言学习者)任何潜在的(语言相关的)能力。”[2]46此概念关注试卷所能测试到的考生潜在语言相关能力的深度。例如,如果阅读理解测试要求学生在阅读的基础上写出总结,然后按语言和内容的准确性进行评分,该测试的结构有效性就较低。原因在于这种测试过多涉及考生的写作总结能力而非阅读理解能力。

3.考生认可度有效性

Hughes指出:“如果某测试被考生视作能够测出它应该测试的内容,那么此测试就具有考生认可度有效性。”[2]151它反映考生对于试卷的态度。例如,一个原本准备测试教学纲要里规定内容的考试却测试了此范围以外的内容,则会引起考生的不满,从而导致较低的考生认可度有效性。

(三)语言测试的真实性

语言存在于某一特定的语境中,而非孤立存在的。一个测试能否反映考生实际生活中可能使用语言的情境以及在何种程度上反映,则与语言测试中的真实性概念相关。例如,测试材料是不是从使用该种目标语言的人群的现实生活中所选取的?测试项中的活动是不是现实生活中存在的?

三、测试与分析

(一)测试的组织与实施

为了对Compact First考试试卷的实际使用效果进行考察,由应用语言学专业研究生组成了4人测试小组,对40名最近一次雅思成绩均为6.5分的利物浦大学在校生进行集中的口语测试。测试试卷为Compact First考试中的模拟考试2(口语部分),测试过程严格按模拟考试规定的流程进行。

1.准备阶段

为了使测试工作顺利开展,除了应提前通知考生考试信息外,还应考虑选择考生较佳的应试状态(如考生的空闲时间、熟悉的地点、健康的身体状况和较佳的心态等)进行测试。为此,测试小组选择了考生的课余时间,并在考生就读的大学图书馆进行测试。测试小组在测试之前还做了其他一些必要的准备工作,包括准备录音设备、熟悉试卷内容和考试流程、研读评分标准等。

2.测试阶段

考生两两一组,由4名评分人对每组考生依次进行测试。测试过程中注重不同类型的互动行为,包括考生之间及考生与评分人之间的对话(3分钟)、考生的个人陈述(1分钟)、考生之间协作完成一个任务(3分钟)和考生之间的讨论(4分钟)。评分的标准涉及Grammar and Vocabulary(语法和词汇)、Discourse Management(话语能力)、 Pronunciation(语音)、Interactive Communication(交际能力)和Global Achievement(综合能力)等五个方面。该阶段在14分钟内完成,并全程进行了录音。

3.评分阶段

该阶段由评分人依据Compact First口语考试的评分标准对考生进行评分 (4名评分人独立评分)。为了增强评分人的可靠性,进行了两次评分。第一次是根据考生的现场表现评分,第二次是根据录音的内容评分。

(二)试卷分析

根据测试过程中反映出的情况和测试结果,主要从语言测试的可靠性、有效性和真实性的角度对Compact First考试试卷(口语部分)中存在的缺点和不足做出分析。

1.14 分钟(14minutes)的口语测试时间是不充分的。近乎50%的考查对象不能在规定的时间内自然表达其想法,或是说话不多,或是条理不清,或是被评分人打断。实际情况是这短短的14分钟不可能全部用于对考生的口语能力测试。如:整个时间段内考生不可能一直说话,因为参试者需要时间考虑说什么怎么组织语言,并且这14分钟是两个考生和一个评分人一起使用而非考生独自使用的。时间的严重缺乏限制了测试的范围和深度,大大影响了测试的有效性,包括内容的有效性(如在口语测试中缺乏测试范例,例如在Part1中,仅仅给了5个例子)、结构的有效性(如测试深度因为时间缺乏而不够)和考生认可度的有效性(如由于让考生感觉到时间短缺而无法表现他们真实的口语能力)。建议增加该口语测试在整个测试(包括听说读写)中所占的时间比例。

2.由于试卷中谈话或讨论部分提出的问题并没有正确或者错误的答案(open test),此测试是一个主观性测试而非客观性测试,通常融入了评分人的主观性。因此不可避免的降低了评分人的可靠性。虽然这是所有主观性测试都不可避免的误差,但并不意味着不可能降低该影响。建议尽量避免选取偏题怪题,力求内容积极丰富(如Part4部分的内容虽然够不上偏题怪题,但话题比较狭窄,都是与危险“risks”有关的,包括“accidents in kitchens”, “safer roads”, “risks in danger”,“extreme sports”,“rescued”and“safety rules”)而有意义,让考生有话说并且愿意交流,同时也一定程度上为评分者评分降低难度。

3.该口语测试在构建良好的结构有效性方面也存在问题。例如,由于考生的图片解释能力不足,或者在听的过程中不能领悟来自其他伙伴的信息,而导致该考生无法继续说下去,致使所测试的是该考生的其他能力,如图片解释能力(in Part 2&3)和听力能力(in Part 3)而非其目标语言的口语能力。建议选择更为纯粹的考题,其职能是考察考生的目标语言能力而非其他能力。此外,由于该测试某种程度上无法反映出考生的真实口语能力(受其他能力的影响,如解释图片能力和听力能力),让考生感到测试不公正,导致考生认可度的有效性在第2部分和第3部分被降低了。

4.该测试的大部分设计脱离了真实语境而只是表现出与现实世界目标语应用较为松散的联系,因此真实性较不理想。例如,在Part 2&3中出现的场景(pictures interpretation)在现实世界中几乎不存在,同样Part 4中关于“risks”的一系列提问在日常生活中亦很少以这种方式提及,如“Who should pay if people who take risks have to be rescued?”(人们也很少谈论“谁应该为那些冒险受伤的人付医疗费? ”这样的话题)。 “Which health and safety rules do you think are unnecessary?”(一般人对健康安全条例都未必清楚,更不会知道问题所关注的其中哪些条例是非必须的。)因缺乏真实的语境使得对语言准确性的评估极为困难,进而影响了评分人的可靠性。建议通过设计更多真实生活环境中存在的话题来提高目标语言测试的真实性。Part 1在这一点上做得较好,因为它提出了一些在日常生活中很可能出现的更真实的问题。

5.Part 1到Part 4为参试者提供了就不同话题回答的机会[如Part 1、2&3考生有机会被问到或分到不同的题目,Part 4考生有自行选择(“select”)考题的机会]。因为是在不同问题的答案上去评定不同的考生,这就削弱了评分人的可靠性,因而致使主观评定变得更难。同时,由于让考生有了避免回答其不喜欢的或者不擅长的问题的机会,内容有效性也被降低了,从而进一步缩小了测试类型的范围。建议适度控制考生自由选择考题的比例,或者在评分标准上做出相应的调整。

表1 对比测试1

表2 对比测试2

测试小组还做了一个对比测试:测试1和测试2。由2名评分人对40名考生(每10人一组)进行测试。采用附录-1试题,5分制计分。测试1:评分人在Part 1的5个简答题中任选2题提问,在Part 4的6个问答题中由考生任选1题回答。测试2:评分人在Part 1的5个简答题中任选3题提问,在Part 4的6个问答题中由考生任选2题回答。两次测试的结果已分别列于表1和表2(表中分数为各组考生的平均得分)。

对比表1和表2可以看出:适量在Part 1中增加评分人提问题的数量以及在Part 4中增加考生任选题的数量,可缩小不同评分人对同一考生的评分差距,即增强了“评分人的可靠性”。

6.小组讨论(如Part 3)会影响到考生认可度的有效性与考生相关的可靠性以及与测试方式有关的可靠性。因为每个考生的表现都可能严重依赖于其伙伴,而这种情况可能发生在各种合作中,如主题针对的是考生不熟悉甚至不喜欢的方面,或者因为考生之间的口语能力迥异而给对方很大的压力,或考生之间无法达成共识。在这些情况下,考生有理由认为测试是不公平的。正如Ahmad Abdulrahman所说:“可靠性从属于考生认可度有效性”。[4]143建议让考生有机会在一次考试中接触不同的合作伙伴。另外,该测试没有给考生提供就测试内容不理解或者疑虑和考官进行交流的机会 (如果考生提问,也许会影响到评分,也耽误时间),而只是被动的回答,这让考生在测试中陷入了不同于平时正常交流的劣势处境。建议题目设计中给考生留出适当的提问空间。

7.由于一个评分人也可以作为谈话者 (as an interlocutor)与考生对话,这也会因为涉及到评分人自身的表现而影响到评分人的可靠性,或者致使某些考生存在必须将评估者作为谈话伙伴的压力而降低主观可靠性和与测试方式相关的可靠性。建议对评分人的自身素质进行培训,使他们能最大程度的配合考生。

Compact First考试口语部分采用的是一种趋向于鼓励考生使用交际性目标语的测试方法,能在一定程度上保证测试的可靠性、有效性和真实性,因而是一种能够比较全面反应考生在现实生活中实际运用英语口语能力的考试。但通过对其使用效果的实际考察,发现它还存在着一些不够完善的地方,因此需要相应的调整和改革。

附录:

本文分析对象(CompactFirst考试中模拟测试2的口语部分)

Part 1 3 minutes(5 minutes for groups of three)

The examiners introduce themselves;the interlocutor ask the candidates their names and collects the mark sheets.

Interlocutor:First,we'd like to know something about you.These are examples of the kind of questions the interlocutor might ask each candidate:

·Do you ever play any sports?(Why?/Why not?)·Which city would you most like to visit?(Why?)

·Do you spend more time with your family or with your friends?(Why?)

·Do you prefer going out to places with other people or on your own?(Why?)

Part 2 4 minutes(6 minutes for groups of three)

Interlocutor:In this part of the test,I'm going to give each of you two photographs.I'd like you to talk about your photographs on your own for about a minute,and also to answer a short question about your partner's photographs.(Candidate A),it's your turn first.Here are your two photographs(Indicate the photographson page 34).They showpeople learning to do things.I'd like you to compare the photographs,and saywhat you think is difficult about learning to do these things.All right?

Candidate A:[One minute]

Interlocutor:Thank you.(Candidate B),do you enjoy learning to do new things?

Candidate B:[Approximately twenty seconds]

Interlocutor:Thank you.Now, (Candidate B), here are your two photographs(Indicate the photographs on page 35).They show people watching films.I'd like you to compare the photographs,and say how enjoyable you think it is to watch a film in these ways.All right?

Candidate B:[One minute]

Interlocutor:Thank you.(Candidate A),do you often go to the cinema?

Candidate A:[Approximately twenty seconds]

Interlocutor:Thank you.

Parts 3 and 4 7 minutes(9 minutes for groups of three)Part 3

Interlocutor:Now,I'd like you to talk about something together for about three minutes.(4 minutes for groups of three)Here are some pictures ofthings thathelp protectpeople from injury.(Indicate the photographs on page 36 and 37)First,talk to each other about how these objects can help keep people safe.Then decidewhich two are the most important safety items.All right?

Candidates:[Three or four minutes]

Part 4

Interlocutor:Select any of the following questions,as appropriate.·Why do so many accidentshappen in people's kitchens?

·What do you think we can do to make the roads safer?

·Why do some people take risks that put them in danger?

·Why are extreme sportsbecoming more popular among young people?

·Who should pay if people who take risks have to be rescued?

·Which health and safety rules do you think are unnecessary?

Select any of the following prompts,as appropriate:·What do you think?·Do you agree?·And you?

[1]May,P.Cambridge English Compact First[M].UK Cambridge:Cambridge University Press,2012.

[2]Hughes,A.Testing for Language Teachers[M].UK Cambridge:Cambridge University Press,2002.

[3]Borsboom, D.Mellenbergh, G.J.&Van Heerden.The concept of validity[J].Psychological Review, 2004,111(4).

[4]Ahmad Abdulrahman,A.An Investigation into the Construct Validityofan AcademicWritingTestin English with Special Reference to the Academic Writing Module of the IELTS Test[M].UK Exeter:University of Exete,2013.

猜你喜欢

试卷可靠性口语
可靠性管理体系创建与实践
合理使用及正确测试以提升DC/DC变换器可靠性
酒中的口语诗
Module5 A Trip Along the Three Gorges
Module5 Great People and Great Inventions of Ancient China
Module 4 Sandstorms in Asia
Module 1 Europe
提高口语Level 让你语出惊人
5G通信中数据传输的可靠性分析
口语对对碰