APP下载

口语评分中评分员对评分标准的理解和使用
——配对口试评分的报告分析

2012-12-08史天化唐国平

关键词:外向评分标准内向

史天化,唐国平

(1.福建工程学院外语系,福建 福州 350108;2.攀枝花学院外国语学院,四川 攀枝花 617000)

口语评分中评分员对评分标准的理解和使用
——配对口试评分的报告分析

史天化1,唐国平2

(1.福建工程学院外语系,福建 福州 350108;2.攀枝花学院外国语学院,四川 攀枝花 617000)

通过有声思维实验方法并辅以刺激回忆,收集四名不同性格倾向的评分员在配对口语考试评分时进行的思维报告数据,定性分析结果表明:在实际评分中,评分员对评分量表的理解和使用存在很大的差异性,具体表现在:(1)外向的评分员在评分过程中,表现的比内向的评分员更为宽容;(2)内向的评分员更多地关注评分量表中的各项具体指标和标准,而外向的评分员强调任务的完成状况和考生之间的比较、交流,和互动;(3)外向的评分员比内向的评分员更少地依赖评分量表,更多地使用非语言的特征。本研究结果对考试评分标准的修订和评分员培训均有启示。

配对口语评分;评分标准;口试评分

在语言测试领域,对口语评分的研究一直是口试研究的重点之一。目前,口语研究多侧重于三人以上的小组测试模式,比如 Berry(2004),[1]Gary J.Ockey(2009)[2]等,很少有对双人配对口语测试中有声思维的作用以及评分员性格倾向对评分量表的不同理解和使用的研究。本文采用认知心理学研究方法——有声思维进行试验记录,分析评分员大脑的思维加工过程,研究评分的认知过程。以某工科院校非英语专业大学生为实验对象,研究双人配对口语测试中有经验的评分员的性格倾向对评分量表的不同理解和使用差异。

一 相关研究

在过去二十几年里,国外诸多学者专家们,如Iwashita(1998),[3]Orr(2002),[4]Lyn May(2009),[5]等等,就不同配对模式,学生外语水平,性格情感特征,学生学习风格偏好与学生性别,专业及母语类型等因素对口语产出产生的影响进行了一系列的研究。相比国外,国内在外语教学中的口语测试和口语测试领域的研究都要晚得多。目前影响最广的大学英语四、六级考试和高校英语专业四、八级考试长久以来并不包含口语测试部分,直至1994年英语专业四级考试才开始进行录音口试试点,[6]1999年大学英语四,六级考试才开始有条件的口语测试(考生笔试成绩达到一定分数才有资格参加)。而在口语测试领域,研究课题主要来自国外研究的启发和国内口语测试的实践,包括测试形式,[7]口试真实性[8]以及大学英语口试[9]和英语专业四级考试[6]的效度等。

二 研究问题

口语评分属主观性评分,往往通过让考生完成一项指定任务,展示其在问题解决中的推理、判断和表达等方面的技能,然后评分员依据既定的标准对考生的表现进行综合评定。其评估是由评分员依据评分标准完成的,因此测试分数只能看作是实际语言运用的部分指标。也就是说,测试分数不能完全反映出考生的语言能力,因为分数还受到其他非语言因素的影响,比如评分员和评分标准因素。Skehan[10]提出,在配对口语中,口语评分是多重因素互相影响的结果,这些因素包括考生之间,任务特点,评分标准以及评分员等。其中,examiners和 task characteristics会影响到受试的performance,而评分员又按照评分标准进行评分,最终得出考生的口语成绩。依据Skehan的口语评分模型,本研究要探讨的研究问题是:(1)不同性格倾向的评分员在评分过程中的宽严度是否有差异?(2)不同性格特征的评分员在理解和使用评分量表方面是否存在差异?

三 研究设计

1.实验对象。

四名评分员参加了本次实验,具有专业英语教学经验2-12年不等,副教授职称,其中性格偏内向和外向各两人,其内、外向人格倾向和特征事先经“艾森克人格问卷量表”检测。20名学生参加该实验,年龄为19-21岁,系福建某工程学院一年级学生,从三个工科专业中随机挑选出来。考生任务设计按照学院期末口语考试模式。首先,考生两人一组,共十组,接着从12个备选题目中抽取试题,准备三分钟,然后要求考生依据题目要求在三至五分钟时间内完成口语对话。考生的口语产出全部通过计算机口语考试系统自动录音。20名考生的音频文件全部转写为文本文件。

2.研究工具和研究步骤。

本实验采用有声思维的方法,希望了解评分员特定的思维过程以及评分员在评分中使用了哪些方法和策略,另外,还想了解在评分过程中某些因素对思维过程和机制的影响作用。评分员在对考生的口语表现评分时可以随时按暂停,在任何可能影响评分的状况出现时,比如考生的某句话,甚至是一个单词、习语的表达;也可能是评分员认为重要的,有意义的一些非语言特征,比如考生的情绪或眼神的交流等。

此外,并辅以刺激回忆(stimulated recall)。实施中尽可能多地给评分员口头报告和回忆的时间。评分员一边听磁带评分一边尽可能地说出当时的真实想法,但是如果听、说、评不能兼顾,可以随时暂停录像。另外,由于注意力有限,评分员很难做到评分和口头报告同时顺利有效进行。研究者会根据情况让评分员再看一遍录像,逐句播放,评分员在受刺激后回忆刚才评分时大脑中的想法,以对有声思维进行必要地补充。

3.数据的收集与分析。

研究者对所有的录音资料进行转写和定性分析,定性分析是再反复听录音资料、反复阅读转写文本的基础上形成的。

四 结果和讨论

1.评分员在评分过程中不仅使用或参照了评分量表内的因素,而且融入了很多评分量表中没有的特征和标准。

本研究关注的是在多大程度上评分员一致地使用了评分量表中的标准。要回答这个问题首先要了解该口语考试的评分标准。本实验采用目前大学英语口语考试大纲中的评分标准。该标准从语言的准确性和范围,话语的长短和连贯性以及语言的灵活性和适切性三个方面进行评价。(参照大学英语口语考试大纲及样题,1999:4)

表一

表一罗列出了评分员在有声思维报告中涉及的所有评分标准,包括语言特征和非语言特征。总的来讲,不同性格的评分员都会基本按照表一中的各项标准综合打分。但是,内向的评分员更多地强调语言准确性,流畅性,任务的完成情况,考生的自信程度,幽默情况,和对考生的第一印象。而外向的评分员则倾向于流畅性,语言范围,灵活性和适切性及考生之家的交互性。在刺激回忆报告中,内向的评分者提到习语表达,语法结构准确,流畅或停顿、犹豫、重复,彼此交流互动,以及语言的发杂程度;而外向的则为:话语轮换自然,交流气氛热烈,较好地控制任务的完成,语言准确、流畅。可以看出以上不同性格的评分员在评分中各有侧重,但是也存在个别的重合。像语言的准确,流畅,彼此交流,任务的完成状况所有的评分员都有提及。

表二

2.从表二中我们可以看出评分员的总体评分倾向。

(1)内向的评分员在评分中使用积极性评论的比例为56%,而外向性的则远远高出,达到72%。这说明在有声思维中,外向的评分员比内向的评分员更多地使用积极性的评论,更多地认可考生的表现,因此,外向的评分员在评分过程中,表现的比内向的评分员更为宽容。

(2)教育心理学的研究表明内向性格倾向偏好视觉型、独自型和审慎型;外向性格倾向偏向场依存型和合作型。本研究也得出类似的结论:内向的评分员更多地关注考生个体地表现,而对考生间的差异,比较,互动的思维活动只占全部的18%;而外向的评分员高达31%。原因可能是在评分过程中,内向的评分员更多地关注评分量表中的各项具体指标和标准,而外向的评分员强调任务的完成状况和考生之间的比较、交流,和互动。

(3)从表中评分员使用评分量表的情况看,即使是经验丰富的评分员也不可能只注意考生的发音、语法、流利行和可理解性,而不被考生口语表达中各种各样的其他特征所影响.所有的评分者在评分过程中不仅使用了评分量表中的各项指标,而且也根据自身的经验融入了很多评分量表中没有涉及到的非语言特征。内向的评分员思维活动中71%的涉及给定的评分量表,而剩余的29%则是依据自己的经验和喜好,即依据表一中的非语言特征进行评分。与内向的评分员相比,外向的评分员更少地依赖评分量表(54%),更多地使用非语言的特征(46%)。

五 结论与启示

本研究在配对口语评分中使用有声思维,分析了评分员性格倾向对评分量表的不同理解和使用差异。外向的评分员在评分过程中,表现的比内向的评分员更为宽容,更多地使用非语言的特征,更多地关注任务的完成状况和考生之间的比较、交流,和互动。

基于以上研究结论,研究者对大学英语配对口语考试提出以下建议:(1)口语考试的题目应该让考生能够以信息交流和意义表达为出发点,提供尽可能真实的交际情景和语境。这样才能够保障口语测试的质量及测试的信度和效度。(2)设计明确详细的评分标准和量表。测试评分过程中,评分员需要一份描述清晰,标准科学而又便于操作的评分标准和量表。评分量表应从语法能力,语用能力和社会文化能力三个方面来考察应试者运用语言来完成现实生活任务即以言行事能力。但是,评分标准的细分要恰当,标准越复杂,评分员所关注的面就越不一致,分数的信度,效度都会越低。(3)在评分标准上,口语评价的标准不是完全看语法、语音,而是要看交际效果和交际效率,语言能力只是交际能力的一个组成部分而非全部。(4)在评分量表中,只考虑考生与测试任务或考生自身各种能力之间的互动是不全面的,还应该从社会语言学角度把人际间的互动也考虑在内。尤其是在口语考试中,考生与考官,考生与搭档间的互动在评分量表上要有所体现。

本研究为以后的口语测试的评分标准修订以及评分员的培训提供借鉴和依据,进而为倾向于犯不同类型的评分者偏差的评分员提供有针对性的培训和反馈,从而提高测试评分的信度和效度。

[1]Berry,V.A study of the interaction between individual personality differences and oral performance test facets.Unpublished doctoral dissertation.King’s College,U-niversity of London.2004(1):25.

[2]Ockey,G.J.Is the oral interview superior to the group oral?[J].Working Papers on Language Acquisition and Education, International University of Japan,2009(4),165-167.

[3]Iwashita,N.The validity of the paired interview in oral performance assessment[J].Melbourne Papers in Language Testing,1998(5):51 -65.

[4]Orr,M.The FCE Speaking test:using rater reports to help interpret test scores[J].System,2002(30):143 -154.

[5]May,L.Assessment of oral proficiency in EAP programs:A case for pair interaction[J].Language and Communication Review,2009(9):13-19.

[6]文秋芳.英语口语测试与教学[M].上海:上海外语教育出版社,1999.

[7]盛越,管博.配对形式在口语考试中的作用——从剑桥第一证书口试看配对形式的作用[Journal of Lanzhou Railway University][J].兰州铁道学院学报(社科版),2000(5).

[8]邹申.论口语测试的真实性[Foreign Language World][J].外语界,2001(3).

[9]熊敦礼,陈玉红,刘泽华,黄更新.大学英语大规模录音口语测试的研究[Foreign Language Teaching and Research][J].外语教学与研究,2002(4).

[10]Skehan,P:A cognitive approach to language learning[M].Oxford:Oxford University Press.1998:172.

Raters’Understanding and Utilization of the Rating Scale in an Oral Test:An Analysis of Scoring Process in a Paired Candidate Test

Shi Tianhua,Tang Guoping

This study adopted Think Aloud Protocol and stimulated recall to collect thinking data of four raters with different personality types.Qualitative researches demonstrate that raters have distinct understanding and utilization of rating scales.The more detailed findings are:⑴the introverted raters are more severe than extroverted ones;⑵the introverted raters pay more attention to the specific features of the rating scale,whereas extroverted raters concentrate task realization and the interaction of candidates;⑶the extroverted raters attend to more non-criterion features,and rely much less on the rating scale.These findings have implications for both the development of rating scales and the training of raters for paired candidate discussion tasks.

paired oral scoring;rating criteria;oral scoring

G642.475

A

1672-6758(2012)06-0033-2

史天化,硕士,讲师,福建工程学院。唐国平,硕士,副教授,攀枝花学院。

2010年福建工程学院教育科学规划课题(批准号:GB-K-10-18)项目成果,同时该课题为重大专项子课题,课题编号:GA-K-09-06

Class No.:G642.475Document Mark:A

(责任编辑:蔡雪岚)

猜你喜欢

外向评分标准内向
对内向人的8个误解
内向的人,也能拥有高配的人生
做最好的内向者
你回避社交,真不是因为内向
你的性格是内向还是外向
永远的格纹
What Statistics Show about Study Abroad Students
初高中英语作文评分标准初探
海峡两岸高考语文作文评分标准的比较研究
针对TOPIK评分标准的韩国语写作教育