外语口试评分心理揭示

2013-01-04张兰峰

淮北师范大学学报(哲学社会科学版) 2013年4期

张兰峰

(淮北职业技术学院基础部，安徽淮北 235000)

一、研究的背景和研究的问题

(一)研究的背景

外语口语测试的评分方法可以分为主观评分和客观或半客观评分两种。前者主要有总体等级评分 (Holistic Rating)和分项等级评分 (Analytic Rating)[1]，后者主要有机器评分、分项客观指标评分和0/1制评分等。无论是从目前的技术水平和测试理念来看，尽管受人为因素影响比较大，标准不易确定和把握，主观评分还是被认为比较有效的评分方法，所以，在诸如雅思、托福、中国的大学英语口语测试 (CET-SET)等各种大规模高权重的外语口语测试中，主观性评分是主要的方法。因为外语口语测试主观评分方法具有标准难以制定和把握、评分主观性比较强、评分信度比较难以达到理想的水平等缺陷，国内外对主观性评分方法的研究非常多，其中，对评分主体(评分员)的研究是外语口语测试中重要组成部分。所以，有不少的外语口语测试研究是以评分员为对象的。从国外对评分员的研究来看，主要集中在:评分员就受试口语水平看法的一致性[2]、评分员在口试中对语言功能和话题的选择[3]、评分员在口试中的提问及提问的方式[4]、评分员在口试中根据受试的水平调整自己语言的程度和方式[5]、评分员在口试中推进话题的方式[6]、评分员的性别对口试结果的影响[7]以及评分员间的信度研究[8]等。国内学者对口试评分员因素也做了一些研究，但是远不如国外的研究广泛和深入，主要集中于口试评分的信度研究[9-11]。

从这些研究我们可以看出，现有的研究大部分集中于评分员的外显特征，对于评分员的评分心理，如:在评分员的内心对口语评分的不同方法是怎样看待的，这些看法会不会影响评分标准的执行，会不会对不同的评分方法有影响，是否对外语口语测试结果的科学性和真实性产生比较大的影响等问题，还缺乏关注。我们认为，对评分员的评分心理进行研究很有意义，因为任何好的评分方法、评分标准、评分程序，如果得不到评分员的准确理解和执行，也会形同虚设，不能发挥设计者所期望的价值，造成外语口语测试的低效和失真。鉴于此，本文将对外语口语测试中的评分员心理进行初步的实证性研究，以期为有效地组织和培训评分员队伍，从而提高外语口语测试效度、信度，提供切实的参考和借鉴。

(二)研究的问题

外语口语评分员的评分心理表现可谓多种多样，从评分方法来说，有评分员对评分方法的偏好心理，从评分关注的维度来说，有评分员对评分因素关注侧重的心理，从评分员本身的背景来说，评分员可能受到性别、年龄、种族、国籍、专业、评分经验和教龄等因素的影响，对口语评分有着不同的心理表现，从而形成评分的性别心理、年龄心理、种族心理、国籍心理、评分经历心理、教龄心理等等。限于研究的条件和论文的篇幅，本研究不能对评分心理面面俱到地进行研究，且这样做也无必要，只选择两个主要的评分心理事实和规律进行研究:

(1)评分方法偏好心理。即对于整体评分法和分项评分法，评分员比较偏好的是哪种方法?为什么?

(2)评分维度侧重心理。即对于分析评分法的五种主要因素——语法、语音、词汇、流利性和可理解性，评分员是同等重视，或者是有所侧重。为什么?

二、研究方法和过程

(一)研究工具和方法

研究工具包括:1)电子录音设备，用来对样本学生进行口语测试录音;2)评分量表和评分记录表，评分量表包括整体性评分量表和分析性评分量表，评分记录表包括整体性评分记录表和分析性评分记录表;3)评分员调查问卷。评分员调查问卷的主要内容有:调查评分员对评分方法的偏好，评分员对于分项评分法中语法、语音、词汇、流利性和可理解性等五个因素的关注程度。4)SPSS统计软件，用来统计分析实验中收集的数据。

研究的方法为定性和定量相结合的实证性研究，通过调查问卷和样本口语的评分结果，对两个口语评分心理事实进行质和量的描述，运用比较分析、方差分析等手段，揭示这些心理事实的规律，进而根据问卷中样本评分员填写的解释性说明内容，对这些评分心理规律的心理机制尽可能做进一步的解释。

(二)研究样本

研究样本的抽取方法为随机抽取，首先抽取大学二年级学生6名，用来对其进行口语录音;接着抽取评分员教师100名，为安徽省内高校的英语教师，抽取的方法是通过上网查询各个大学的外语学院或者外语系的教师名单，然后抽取有明确联系方式的教师100名。

(三)研究过程

研究的过程如下:

(1)对样本学生进行口语测试录音，录音格式为MP3的格式。用作样本评分员进行口语评分，评分的结果用来验证调查问卷的结论，并把评分结果用来分析不同群体评分员对外语口语评分的宽严程度。

(2)制作分析性评分量表和整体性评分量表。制定两种评分量表时主要参照了CET-SET对口语能力等级的描述及Heaton(1988)等提出的评分标准，并结合大学英语口试的实际情况修改而成。其中分析性评分的维度主要为语法、语音、词汇、流利性和可理解性等。评分量表主要供样本评分员对样本口语进行评分时进行参照。

(3)制作调查问卷，调查问卷中主要的内容为:评分员的性别、年龄、专业、教龄、是否接受过评分培训等个人背景信息，评分员对于评分方法的偏好，对于分项评分法中语法、语音、词汇、流利性和可理解性等五个项目的重视程度。对评分方法偏好和对分项评分方法中5个因素的重视程度的调查都采用五点量表形式，即每个问题设置5个答案:非常赞成，赞成，无意见，不赞成，很不赞成。与5个答案相对应的分数分别为5、4、3、2、1。调查问卷主要用来了解评分员对评分方法、评分因素等的心理偏好。

(4)与样本教师联系，向样本教师寄送电子邮件，邮件的内容为:5个样本学生的口语录音;评分量表和评分记录表，包括整体性评分量表和分析性评分量表以及相应的的评分记录表;对口语录音进行评分的说明和请求:请求每位受试教师对照量表，分别用两种评分方法对5份口语测试录音进行评分，请求评分员填写调查问卷，为了保证调查问卷的真实性，问卷采取无记名的方式，并且请求样本评分员在填写调查问卷时，能够尽量附上对评分方法的选择、对评分维度的侧重的简要解释性说明。

(5)回收口试评分结果和调查问卷，并利用SPSS软件进行分析。

三、结果和讨论

评分员样本基本情况:在本研究中，共发放问卷100份，回收83份，其中有效问卷62份。在有效问卷中，男性占22.6%(14人)，女性占77.4%(48人)。21-30岁者占 19.4%(12人)，31-40岁者占56.5(35人)，41-50岁者占14.5%(9人)，50岁以上者占9.6%(6人)。评分员的专业差别很大。为了方便研究，本文把样本评分员的专业分为三个大类:语言学和语言文学(9人)，外语教学专业(38人)，其他专业(5人)。通过对回收问卷和评分结果的统计分析，我们有如下的发现:

(一)评分方法选择心理:偏好整体评分法

表1显示，整体评分法的均分为4.04，分项评分法的均分为1.45，两者均分相差近2.6，这说明，在外语口语测试中，整体评分法受到大多数评分员的喜爱。从两者的标准差来看，虽然两者的标准差有所差异，整体评分法的标准差略高于分项评分法 (整体评分法的标准差为1.50，分项评分法的标准差为1.08)，但是标准差的差异比较小，仅为0.42。所以，数据还是能很好地说明评分员对两者的偏好意见是相对集中的。为什么评分员对整体评分法这么偏好呢?从调查表中的解释性说明中可以总结出如下几种原因:整体评分法效率比较高，评分员可以凭平时的经验来评分，对评分员的注意力分布要求不是很高;学界分析性评分法的评分维度划分不一，不如干脆用整体评分法;整体评分法和分项评分法的评分结果差异不大，没有必要进行分项评分。对于前两种原因，应该说调查对象所言都是有定论的，整体评分法的效率比较高是学界的定论，分析性评分法的维度也确实有不同的划分方法，如托福考试和中国的大学英语口语考试(CET-SET)都是使用分项评分法，但是托福口试是从总体可理解度、语音、语法、流利程度四个维度来评分，而CET-SET是从语言的准确性和范围、话语的长短和连贯性、语言灵活性和适切性三个维度对考生的口语水平进行评估。对于第三个原因——总体评分法和分项评分法的评分结果差异不大——本研究利用样本评分员对样本英语口语录音的评分进行了检验。

表1 评分员对不同外语口试评分方法偏好的统计

在寄送给样本评分员的评分说明中，要求评分员在使用总体评分法和分项评分法时均采用等级评分，每个评分量表都有7个等级，只不过，在统计分项评分法的分数结果时，把考生口语样本在语法、语音、词汇、流利性和可理解性等5个维度上的所得到的等级数量相加，然后除以维度数5，得到最终的分数。所以，使用分项评分法得到的分数往往是小数。如表2所示，从样本个体均数来看，总体评分法和分项评分法得出的结果大致相同，因为从极端值来看，两种评分方法中，口语测试录音样本5的得分最低，样本3得分最高，并且两种评分方法中各口语样本的得分比较接近，如样本1在整体评分和分项评分中的得分分别为4.34、4.54，非常接近。

表2 总体评分法和分项评分法评分结果统计

为了进一步验证总体评分法和分项评分法的差异，在研究中对整体和分项评分的结果进行了配对样本检验，从配对样本的描述性统计可以看出(如表3)，两者的平均值和标准差都非常接近，两者的平均值分别为4.54和4.51，两者的标准差分别为0.71和0.70。从T检验的结果(如表4)可以看出，两者的显著性参数水平为0.46。大于0.05显著性水平，所以可以判定，这62位评分员的整体评分和分项评分差别不大。所以，我们可以得出这样的结论，评分员对整体评分和分项评分的结果差别不大的猜想得到了实证性的支持，基本上是正确的。

表3 整体评分法和分项评分法评分均数统计

表4 整体评分法和分项评分法配对检验

(二)评分维度关注心理:重视口语的可理解性

根据分析性评分维度的研究和实践，评分维度在数量和名称上各不相同，本研究综合Heaton的评分理论和CET-SET的评分维度，把问卷调查中的维度确定为语法、语音、词汇、流利性和可理解性。

在口语测试评分中，评分员对语法、语音、词汇、流利性和可理解性中的关注度是均匀的还是有所差异?为了了解这个问题，我们在问卷上采用5点量表的形式，设计了如下几个问题:“1.在口语测试评分的时候，我认为考生口语的语法最重要。2.在口语测试评分的时候，我认为考生口语的词汇最重要。3.在口语测试评分的时候，我认为考生口语的语音最重要。4.在口语测试评分的时候，我认为考生口语的流利性最重要。5.在口语测试评分的时候，我认为考生口语的可理解性最重要。”备选答案是“A非常赞成B赞成C无意见D不赞成 E很不赞成”，分别赋分“5、4、3、2、1”，并且把答案A视作最重要的表达，答案E视作最不重要的表达。为了直观地看到评分员的意见，我们对最重要和最不重要的两个选项进行了统计，结果显示 (见表5)，51.6%的评分员认为可理解性是他们认为最为重要的因素，其次是语音;37.1%的评分员认为词汇最不重要，其次是语音和语法。这个结果也可以对整体评分法中评分员的评分依据作出解释，也许，在整体评分法中，大部分评分员把注意力集中到考生英语口语的可理解性上，也就是说，考生如果所说的外语如果能够使人听懂了，很多评分员就基本上认可了其外语口语能力。换而言之，很多评分员的对外语口语的评分结果可能主要反映考生口语的可理解程度，对语法、语音、词汇、流利性反映的很少或者基本上没有。

表5 评分员对口语分项评分项目各因素的侧重统计

虽然对评分维度重要性的认识受评分员背景的影响略有差异，但是还是大致一致的，即外语口语的可理解性是评分员最重视的因素，词汇是最不受重视的因素。从问卷中的解释性说明中，我们也可以看出评分员重视口语可理解性的原因，即大部分评分员认为口语的目的是交际，交际的功能的实现是通过信息的有效传递，那么，如果考生的口语能够让人听懂，即能够让人理解，也就很好地实现了口语的功能。可见，评分员对口语不同因素的侧重受到交际教学理论的影响很大。这也许是近些年大力推行交际教学理论和交际测试理论的结果。

四、启示

从以上的调查问卷和评分结果分析中我们可以看出，我们不难看出，外语口语测试存在以下的评分心理:在对外语口语评分方法的偏好方面，大部分评分员对整体评分法比较喜爱，在对评分维度的重视方面，大部分评分员认为口语可理解性是评判考生外语水平最重要的因素。评分员的这些心理表现为我们选择评分方法、组织和培训评分员队伍提供了重要参照。从评分方法选择来说，如果确有评分效率的需要，也许选择整体评分法并不逊于分项评分法。从评分员的组织方面来看，为了提高外语口语测试评分的科学性和合理性，评分员队伍应该注意结构上的合理性。只有使评分员队伍的背景因素多样化并有机组合，才能尽可能地使评分宽严有度，使评分结果不至于与考生的真实口语水平距离太大，尽量接近考生的真实口语水平。从评分员的培训来看，除了要求评分员熟悉口语测试流程、准确理解口语测试标准、加强与考生的有效交流从而消除考生的考试焦虑心理以外，从本研究的角度来看，恐怕更重要的是消除评分员的以偏概全的评分心理，即以一个标准来代替其它的标准，因为从本研究的结果来看，评分员对口语可理解性最为看重，的确，可理解性代表了交际语言理论的观点，但是，视语言学习者的不同层次，对口语的其它因素也不可偏废。

值得说明的是，因为已经有研究者对外语口试评分员的性别差异进行过研究，故这里不再重复研究。还有，评分心理是一个非常复杂的课题，它可能受到性别、年龄、教龄专业的影响，也许还会受到评分员的人格、气质、口语测试环境等多方面因素的影响，受研究的条件所限，本实验只选择几个主要指标对其进行初步性的研究，肯定还有许多没有涉及的因素以及不科学的地方，另外，本研究揭示的这些评分心理倾向性只是评分心理规律，那么这些心理规律后面的心理机制和心理本性是什么等问题，这都有待进一步探索。

[1]李筱菊.语言测试科学与艺术[M].长沙:湖南教育出版社，1997.

[2]Lazaraton，A.Interlocutor support in oral proficiency interviews∶ The case of CASE [J] .Language Testing，1996a.(13)∶151-172.

[3]Brown， A.＆ T.Lumley.Interviewer variability in specific purpose language performance tests [J].Language Testing，1998(1)∶43-64.

[4]Brown，A.Interviewer variation and the co-construction of speaking proficiency[J].Language Testing，2003(20)∶1-25.

[5]Ross，S.Accommodative questions in oral proficiency interviews[J].Language Testing，1992(9)∶173-186.

[6]Berwick， R.＆ S.Ross.Cross-cultural pragmatics in oral proficiency interview strategies [M]∥In M.Milanovic＆N.Saville (eds.).Performance Testing，Cognition and Assessment∶Selected Papers from the15th Language Testing Research Colloquium.Cambridge:CUP.1996∶34-54.

[7]O'Loughlin，K.The impact of gender in oral proficiency testing[J].Language Testing，2002(19)∶169-192.

[8]Surface，E.＆ E.Dierdorff.Reliability and the ACTFL oral proficiency interview∶Reporting indices of interrater consistency and agreement for 19 languages [J].Foreign Language Annals，2003(36)∶507-519.

[9]聂建中，王正仁.评分员的信度与口语能力测量[J].山西大学学报∶哲学社会科学版，1997(2)∶102-106。

[10]李庆本，许雪立.中国汉语水平考试(高等)口试评分的误差控制[J].世界汉语教学，1999(3)∶43-47。

[11]郭茜，邢如，沈明波.口试评分规范化与信度研究[J].清华大学教育研究，2003(S1)∶135-139.