录音时长与英语口语流利性评分的实验研究

2021-11-22杨萌

现代英语 2021年12期

杨萌

(江苏师范大学外国语学院，江苏徐州 221116)

一、研究背景

流利性是口语测试考查的重要指标，目前国内外关于录音时长与流利性评分关系的研究较少，目前的口语流利性评分时间主要取决于录音时长。尽管此前已有研究探讨如何节省时间和人力成本，但由于研究目的和研究方法等条件的限制，他们大都仅涉及测试环节，几乎没有研究专门针对流利性评分中的录音时长进行考查，目前国内外关于不同录音时长的口语流利性评分研究仍缺乏实证支持，尚有待于进一步证明。

二、研究方法

(一)研究问题

本研究收集了中国英语学习者的朗读录音，邀请评分员进行流利性评分，旨在回答以下研究问题:每组的整段评分和单句评分之间是否存在差异?

(二)研究对象

本研究采集了国内某大学英语专业一年级30名教育硕士的朗读录音，邀请了三组不同水平的评分员进行口语流利性评分。评分员包括1组大学教师和2组大学生(分别为英语专业和非英语专业)。教师的平均年龄为34.7岁，平均教龄为11.1年。两组学生的平均年龄分别为20.9岁和19.6岁，平均英语学习时间分别为13.8年和10.2年，前者均通过英语专业四级考试，后者均未参加大学英语考试。

(三)研究工具

本研究选取«新概念英语»中的1篇文章作为朗读材料，要求易于理解，适合朗读。这主要因为:(1)朗读文本相对固定，评分员评分比较便捷，容易形成比较一致的评分标准；(2)学习者在朗读过程中，能够比较全面地展示语音语调和口语流利性水平。

学习者录音在语言实验室内完成。其他工具包括:笔记本电脑、Cool Edit 2.0和 Gold Wave 5.67等。

(四)数据收集

本研究收集的数据包括学习者录音和评分员评分。

录音由5位研究生完成，要求学习者完成2分钟左右的朗读录音。随后，切分录音、分别编号，共生成150个小段录音，然后随机排序，并制成4套完整录音。

评分标准参照Likert 5级量表，对学习者的口语流利性进行总体评分，其中1分代表最不流利，5分代表最流利。

(五)数据分析

采用定量研究和定性研究相结合的方法，使用SPSS 17.0统计分析三组评分(共3750个)，考查整段评分和单句评分之间是否存在显著性差异。随后，借鉴语言教学和口语测试领域中的研究成果，定性分析各组评分细节。

三、研究结果与讨论

(一)整段评分和单句评分比较

将教师组的整段评分和单句评分数值作为因变量，整段或单句的代码作为自变量，使用SPSS17.0进行显著性差异分析。根据单因素方差分析结果，Levene方差齐性检验P＝0.393>0.05，可以认为符合方差齐性，满足进行方差分析的主要条件。

随后，采用单因素方差分析的Tukey HSD检验的方法进行多重比较，分别得出教师组整段评分和单句评分差异的显著性数值。将整段评分和单句评分1、2、3、4分别进行两两比较，显著性P值分别为 0.991、0.227、0.132、0.059，均大于 0.05，因此可以认为教师组的整段评分和单句评分之间不存在显著性差异。

这表明，教师单句评分的方法可以用来评价学习者的口语流利性。究其原因，可以归纳如下:①Cucchiarini et al.(2002)认为，和自主语言相比，朗读可以更好地预测口语流利水平。由于朗读文本的可控制因素较多，和其他口语测试的任务类型相比，学习者在完成朗读任务时的口语流利性表现比较稳定，因此朗读整段和朗读单句的评分差异不大。②多年的教学经验表明，由于口语流利性与时间指标紧密联系，判断口语流利性通常不需要考虑过于冗长复杂的句型结构，而是更多地关注学生的语音语调和连贯性等问题，因而许多评分员在评价口语流利性时，完成评分需要的时间往往比规定的时间要少。③已有研究表明，只听某一种任务类型的录音给出的口语流利性评分，和听完三种任务类型的评分相比，仍然具有很高的信度。因此可以认为，录音时长的缩短，不会明显降低口语流利性评分的信度。和整段评分相比，单句评分方法的主要优势是它在很大程度上可以节约成本、提高效率，因而在口语流利性评分中应当受到广泛关注。

教师组的这一研究结果从学生组评分的统计数据中也得到了印证。结果表明，高、低水平学生组的整段评分和单句评分之间大都不存在显著性差异。整段评分和单句评分2存在显著性差异的原因同样可以从单句的难易度指标进行分析单句2句型结构为并列句，句子最短(仅为23个单词)，短语频率最高(19696)，无低频词和多音节词，可以看作是难度最低的单句，高、低两组评分员给出的流利性评分均值最高(分别为3.42和3.76)，因此不难理解单句2和整段评分之间存在差异。

(二)各单句评分之间比较

将教师组的单句评分之间进行两两比较后发现，单句1、2、3之间的显著性P值分别为0.479、0.324、0.999，均大于 0.05，因此可以认为单句 1、2、3的评分之间不存在显著性差异。需要指出的是，单句4和单句 1、2、3之间的显著性P值分别为0.016、0.000、0.000，均小于 0.05，因此可以认为单句4和其他单句的评分之间存在显著性差异。

造成这种显著性差异的原因可能是单句4的流利性评分最低，评分的均值仅为3.14。表1列举了4个单句的各项难易度指标。其中，由于单句4的句型结构为复合句、短语频率最低(180)(根据COCA语料库统计各单句中短语的平均频率)，因此可以看作是朗读录音中难度最高的单句，学习者在这一单句上的口语流利程度最低，因而和其他单句之间存在显著性差异。同时，单句4中的低频词为3个(vicar，torchlight，Wilkins)(根据COCA 语料库统计各单句中的低频词数)、多音节词为2个(immediately，recognized)，尽管低频词数和多音节词数均比其他单句多，但由于数量差异不大，因此可以认为词频和词长对流利性评分的影响相对较小。

表1 单句难易度比较

上述结果表明，教师组的单句评分之间大都不存在显著性差异，但高难度单句和其他单句之间存在显著性差异。

将高、低水平学生组的单句评分之间进行两两比较后发现:高、低水平学生组的整段评分和单句评分之间大都不存在显著性差异，但整段评分和低难度单句评分之间存在显著性差异；单句评分之间大都不存在显著性差异，但高难度单句和其他单句之间存在显著性差异。

通过对每组整段评分和单句评分的比较，可以得出以下结果:和整段评分相比，单句评分法可以用来评价学习者的口语流利性，但在选择单句时应当做到难度适中，尽量选择那些句型结构和长度适中、短语和单词频率适中的单句作为流利性评分的朗读文本。

此前的研究均未对整段和单句录音的口语流利性评分进行比较。尽管Cucchiarini et al.(2000)的研究涉及单句评分，但该研究中的评分对象是成组的单句(两组单句，每组5个，包含所有音素)而非独立的单句，两组单句的录音总时长为1分钟左右。Bosker et al.(2013)从原始录音的中间截取20秒左右的小段录音(每小段以短语边界开始，以0.25秒以上的停顿结束)，邀请评分员进行口语流利性评分。该研究共考查三种任务类型(简单描述型、简单议论型和复杂议论型)，每位评分员实际所听录音的总时长仍为1分钟左右。由于本研究中评分员只对一种任务类型(朗读)进行评分，因此可以认为对于时长少于1分钟的单句录音进行流利性评分的做法具有一定的可操作性。

四、结语

流利性是口语测试考查的重要指标。目前的流利性评分研究大都聚焦测试环节，关注如何在评分环节省时省力的研究较少。本研究采集了英语学习者的朗读录音和三组不同水平评分员的流利性评分，旨在考查整段评分和单句评分之间是否存在差异。研究发现教师评分员的单句评分可以用来评价学习者的口语流利性。上述发现不仅有利于节省口语流利性评分的时间和人力成本，而且有助于推动该领域关于口语流利性的应用研究。

文章对节约口语流利性评分成本有一定的指导意义，后续研究将进一步考查不同水平评分员评分是否存在差异，从而深化该领域对于口语流利性感知的认识。