APP下载

大规模英语口语考试自动评卷可行性研究

2014-12-02

中国轻工教育 2014年6期
关键词:评卷英语口语专家

范 鹏

(天津教育招生考试院,天津 300387)

多年来,英语一直是中国学生的主要课程。但由于语言习惯、传统教学方式等原因,中国人的英语大多是“哑巴英语”——“听、读、写”与“说”发展的极不均衡。但语言归根结底是交流的工具,学习英语的目的是获得以英语为工具的国际交际能力,只会读不会说,语言交际也无从谈起。针对这个问题,无论是教育主管部门还是教学单位都十分重视。针对以提高学生实际运用英语的能力,改变哑巴英语学习的现状,英语口语考试被广泛推广。天津考试院作为考试主管部门,多年来大力推广英语口语考试,每年组织多次全市范围不同层次的英语口语考试,考生规模多在万人以上。本文着重对此类大规模英语口语考试进行研究。

一、人机对话考试系统

传统的英语口语考试多为面试,顾名思义是考官与考生进行面对面的交流,根据考生作答情况现场予以评分。这种形式对于考官的要求比较高,要在面试的时间内给出考生合理、客观的成绩。随着考官精力的下降,考生成绩也会产生一定的波动,并且由于受到考官数量的限制,这种形式也不适合大规模的英语口语考试。

随着计算机网络技术的发展,出现了“人机对话”的英语口语考试系统,通过建立大型题库和评价标准系统,实现计算机人机对话,出题、考试、判卷、结果反馈全部由计算机完成。与以往英语口语考试的“人人对话”形式不同,“人机对话”考试模式由电脑充当考官角色,所有问题和指令都由电脑发出,考生则根据从耳机中听到的或在电脑屏幕上看到的指令和要求进行作答。系统自动将考生答案保存成语音文件,后期再由考试主管部门统一组织教师进行评卷。考试的全过程中排除了人为因素和外界干扰因素对考生的影响,“人机对话”所有试题从题库中选题。因此,不同场次的考生题目都不同,有效防止随机“漏题”,即便是同一场次,相邻的考生所作答的题目也不同。“人机对话”实现了考官和考生的分离,更适合大规模英语口语考试。

二、人机对话考试系统的弊端

虽然人机对话的考试系统解决了组织大规模考试的难题,大大提高了考试的效率,但在一些方面尤其是评卷部分仍存在着许多弊端。主要表现在以下几点。

1.人力投入大

英语口语考试的测试要求多为朗读、复述、表达类题目,这类题目主观性很强,考生的答案也没有唯一性,因此需要大量教师进行评阅。一般来说,一次大规模英语口语考试的评卷,需要上百名教师评阅3至4天才能完成。

2.质量难控制

不同于笔试评卷,所有考生的作答都是语段信息,评卷教师都是“听阅”,每名评卷教师每天要听大量的考生语音信息,还要努力排除由于口音、系统噪音等对作答造成的干扰,对于每个教师的体能都是不小的挑战,且每个教师对于题目的主管判断存在差别,评卷质量很难良好的控制。

3.系统误差多

由于话筒、电脑声卡等硬件问题会对考生作答造成一定的干扰,评卷教师轻则部分作答语段听不清楚,重则所有作答语段都听不到声音,对于这种情况,评卷教师难以判断考生是没有作答还是系统故障。针对这些问题,作为考试主管部门,我们一直在探索一种适合的替代办法。

三、人机对话系统自动评卷技术

近年来,随着语音识别技术的发展,许多针对人机对话系统开发的自动评卷产品面市。这类产品使用语音识别技术,采用专业模型对考生语音信息进行分析,进而对考生答案进行评卷。这在一定程度上解决了口语考试评卷一直困扰的几个问题,也为进一步推进考试信息化提供了契机。这类产品有以下几个特点。

1.省时省力

不再需要评卷教师,只需要一定的计算机设备,软件系统就可以使用语音识别技术对考生作答自动进行评卷,自动甄别有误作答和未作答,有效解决了传统阅卷中由人工无法界定的问题。

2.安全稳定

采用先进的语音识别和语音分析技术,以机器学习理论、数据挖掘理论和现代语言测量技术为基础,科学、准确、高效地实现了英语口语的计算机自动评分,有效避免了人工评卷的主观差错和事故率。

3.客观公平

克服了人工评卷中身体、精神等不利因素,极大提高阅卷和评估的客观性和公正性。系统实现了短文朗读、情景问答、看图说话等题型的自动评分,对于每一个分数有一个置信度值,当给出评分后,如果超过置信度则自动反馈进行人工校对。同时系统还具备完善的质量监控功能,确保自动评分的质量。

4.可拓展性

为考试评估和提供改进建议提供了数据参考,为教学提供了可信、可视化和可操作化的帮助。根据评卷数据可以自动生成参考个体之间、个体与总体之间的对比分析报告,能对学生英语口语水平进行客观评价,有助于学生在今后英语学习中弥补不足,改进学习方法;同时也有利于教师了解英语教学情况,有助于教学更具有针对性,并通过改进教学方法来提高教学水平。

四、大规模英语口语考试自动评卷可行性分析

天津考试院目前使用的是由讯飞启明公司开发的英语口语考试智能评分系统,主要由自动评分服务器、管理终端、抽查终端、数据存储和答案成绩汇总服务器组成,系统根据口语发音准确度、语音语调、流利程度和语言测量特征等各项考核标准,对考生的口语水平进行计算评分。天津考试院抽取了参加春季高考英语口语考试的1292名考生作答信息作为测试样本,使用自动评卷系统评卷,并与人工评卷进行对比测试。

运营数据中心,全面采集供应链各环节数据,设置多种埋点方式,已建立完整的供应链数字仓库。可实时查看订单生产各环节数据、库存数据、配送揽收数据、配送路由数据等针对大盘的实时数据。同时还可从细分的仓库维度、品牌商维度、店铺维度分别查看各环节的精细数据。让数据产生运营的价值,确保每一个品牌的双11订单履行变得稳定可控。

1.测试说明

天津考试院组织9位英语口语教学方面的专家,对全部1292份数据进行评分,作为比对参照。专家评分属于精细评分,比较具有代表性,且总体水平一定高于大规模评卷中众多评卷教师批量评分的总体水平。同时,使用自动评卷系统进行对1292份数据进行评分,结果与标准参照进行比对分析,测试自动评卷的可行性。

2.分析方法

对专家评分和自动评分之间的一致程度(相关度)及偏差,通过偏差进一步计算一致率:

(1)相关度:即相关系数,是衡量自动评分与专家评分对同一组数据评分排序合理程度的一种统计指标,反映了评分的公平性,也是对自动评分水平最主要的衡量指标。设有N个评卷数据,专家评分为x1,x2,…,xn,自动评分为y1,y2,…,yn,则自动评分和专家评分的相关度的计算公式为:

相关度的取值范围介于0~1之间,越接近1表示自动评分的排序关系和专家评分越接近。

(2)一致率:即自动评分和专家评分的分差在20分以内的比率。

3.分析结果

(1)相关性与一致率。

根据自动评分与专家评分的结果进行比对,如表1所示。

表1 自动评分与专家评分相关度和一致率

如表2所示,自动评分与专家评分分差超过20分的数据有134份。为了进一步确认这部分较明显分差是由自动评分还是专家评分所导致,考试院又安排了另外一部分有经验的评卷人员进行复评,每份数据由两人评分,并取复审的平均分作为基准,用以验证这134份数据的真实情况。

表2 自动评分与专家评分差值

表3 复评结果

如表3所示,可以看出,多数复评结果更趋向于自动评分。根据复评的结果,重新计算了分差、相关性和一致率,如表4、表5所示。

表4 复评后自动评分和专家评分分差

表5 复评后自动评分与专家评分相关度和一致率

(2)评分趋势

如图1所示,自动评分与专家评分各分数段的整体分布相当,均符合正态分布,完全可以反映出考生的水平差异。

如图2所示,自动评分与专家评分大多数一致性很高。

图1 自动评分与专家评分分数分布

图2 自动评分与专家评分散点图

4.分析结论

本次测试自动评分与专家评分相关度达到0.732,一致率达到89.62%;仅对分差显著数据进行多人复评后,相关度即提升至0.823,一致率提升至98.14%。且通过复评可以发现,自动评分的显著差距要小于专家评分,可以认为自动评分在本次口语评卷中效果表现良好,可以满足大规模评卷的需要。

英语口语考试评卷主观性强,组织难度大,作为考试主管部门,最关心的是评卷的质量。通过分析表明,计算机自动评卷的性能已经与专家评卷较为接近,在实际操作中,肯定明显超越众多评卷教师批量评卷的评分信度,应该说已经达到了实用水平,完全可以替代评卷教师的角色。而从组织管理的角度来说,不论是人员投入、所需时间和设备,计算机自动评卷都有明显优势。综上所述,计算机自动评卷由于其可信度和实用性,在大规模英语口语考试中有较强的可行性。

自动化评卷不仅是一次评卷形式的革新,也是计算机信息技术与英语教学的整合。它依托于“人机对话”的口语考试系统,不但促进了英语教学资源库的建设,而且对英语教学提供最直观的反馈,引领英语教学回归语言学习的终极目标——交流与沟通,进一步发挥考试的导向和激励作用,帮助学生克服英语学习中的障碍,树立口语交流的自信,为他们进一步学习运用英语打下良好的基础。

参考资料:

[1]李萌涛,杨晓果.大规模大学英语口语测试朗读型机器阅卷研究与实践[J].外语界,2008(4):88-95.

[2]屈志杰.XML自动阅卷系统的设计与实现[J].计算机工程,2003,9(16):189-191.

[3]丁卫平,邓伟.基于Web智能阅卷考试系统的设计与实现[J].电气电子教学学报,2007(3):102-104.

[4]杨惠中.大学英语口语考试设计原则[J].外语界,1999(3):48-57.

猜你喜欢

评卷英语口语专家
致谢审稿专家
英语口语课中“以学生为中心”教学模式的应用
小学英语口语教学研究
2019年对口升学考试网上评卷考生答题注意事项
“画海”评卷
大规模考试网上评卷中趋中评分的成因探析
请叫我专家
专家面对面
浅谈加强高中英语口语教学
高考评卷岂能草菅人命