句酷批改网英语作文评分与教师评分比较研究

2015-05-30罗钰高朝阳

北方文学·中旬 2015年6期

罗钰高朝阳

摘要：本文对校本英语写作比赛的50篇优秀作文的批改网评分和教师评分进行对比分析，通过分析评分之间的相关性和评分与产出性词汇数据之间的相关性对机器评分和教师评分进行深入分析。研究结果表明：教师人工评分和批改网自动评分之间具有非常高的相关性，两者的评分趋于一致;教师人工评分与机器评分对产出性词汇的考察存在显著差异。

关键词：句酷批改网;作文评分;比较研究;多元反馈机制

句酷批改网是一款基于语料库和云计算的在线英语作文智能评阅系统，其通过计算学生作文和标准语料库之间的距离能及时生成学生的作文得分并给出修改建议。学生可以根据批改网给出的修改建议不断的修改完善自己的作文。基于批改网的大学英语写作教学能极大的调动学生的写作积极性并减轻教师的作文批改负担而受到教师和学生的普遍欢迎，目前全国已有许多高校引进该系统。

一、研究背景

有不少教师针对批改网在大学英语写作教师中的使用展开研究：陈凤（2014）的研究显示批改网的修改建议在词汇和语法方面给予学生的帮助较大，在篇章结构、内容逻辑和连贯性方面的帮助有限，还需要不断的改进。在效度方面，能从语法和词汇方面对学生的作文进行详细的评价，但在篇章结构、文体修辞、内容逻辑和连贯性方面不能给学生充分的反馈，并指出在使用批改网的同时应注意和其它的评估方式进行结合。

以上研究从批改网的主要功能入手，结合教学实践或实际测试得出的结论是值得信赖的。这些结论归纳起来主要有两点：第一、批改网能在很大程度上减轻教师批改负、能调动学生的写作积极性，其给出的评分和修改建议对于学生写作的提高具有重要的帮助作用。第二、批改网还存在一定的缺陷和不足，不能做到完全不需要教师的智能化程度。在具体的写作教学实践中还应综合利用教师、批改网、同伴等多元评估方式。关于批改网的作文评分信度蒋艳（2013）和何旭良（2013）的研究中具有提及，蒋艳对比了批改网与美国同类系统Writing Roadmap对同一篇作文的评分，指出虽然两者在评分标准方面不同但作文总分基本相同。何旭良利用中国学习者语料库（CLEC）的30篇作文对批改网的得分与人工评分进行了信度分析，表明这两组分数高度一致，但研究没有对机器评分和教师评分进行深入分析。基于以上分析，本文拟对实际写作实践中教师评分和批改网评分进行深入对比分析，从而更全面的掌握批改网的评分特点，为基于批改网的写作教学实践提供更多参考。

二、研究设计

（一）研究对象

本文的研究对象为我校参加校级英语写作比赛的批改网得分前50名同学，本次写作比赛为四川省省级写作比赛的预赛，共有7千余名同学参加了校级初赛。从得分前50名同学中选拔部分同学参加省级决赛，最终得分采取机器评分占50%，人工评分占50% 的原则。其中教师得分为三名具有丰富教学经验的教师采取背靠背的方式进行评分，取平均分。需要说明的是在实际人工评阅中教师发现有一名同学的作文严重跑题，实际作文份数为49份。

（二）研究问题

结合前人的研究结果和存在的不足，本研究主要回答以下问题：

第一、教师评分和机器评分的相关性如何？

第二、教师评分和机器评分各自有何特点？

（三）研究工具

本研究将使用以下3个研究工具：句酷批改网，50篇学生作文全部通过批改网提交，写作过程中学生可以根据批改网的提示进行多次修改，修改次数不做限制。SPSS分析统计软件，使用SPSS软件对教师评分和机器评分进行相关性分析和信度分析;Range作文词汇分析工具，使用Range对学生作文中的产出性词汇类别进行统计，并将统计数据与教师评分和机器评分进行相关性分析。

三、研究过程与分析

所有数据收集工作完成之后，我们用SPSS17.0软件对教师评分、批改网评分与词汇相关数据进行了相关性分析统计。49篇英语作文的词汇数据采用Paul Nation设计的词频分级分布统计软件Range进行分析。Range中包含三个词表：基础词表1 （BASE1）包含最常用的1000个词族，基础词表2 （BASE2）包含次常用的1000个词族，基础词表3 （BASE2）包含基础词表1和2之外的高中和大學各科教材中最常用的学术词汇570个词族，NOT IN表示不在基础词表中的其它词汇。用Range对每篇作文进行分析可以得出作文中的词汇在各个词表中的占比情况，收集相关数据并用SPSS进行统计分析。

表1 描述性数据（n=49）

项目/类别均值标准差

教师评分 90.31 2.30

批改网评分 89.88 0.75

BASEWRD1 116.16 21.43

BASEWRD2 11.98 4.82

BASEWRD3 19.51 4.38

NOT IN 12.20 5.95

TOTAL 356.55 86.09

49篇学生作文中教师得分平均分为90.31，批改网得分平均分为89.88，两者差距不足1分，相关分析统计表明两者的相关性达到了0.945，这说明两组分数具有极高的相关性。Range分析结果表明学生作文中使用基础词表1（BASEWRD1）中的词汇最多，为116.16，使用基础词表2（BASEWRD2）中的词汇为11.98，基础词表3（BASEWRD3）中的词汇为19.51，使用其它词汇为12.20，这说明学生的产出性词汇以最基础的一千个词族为主。

从表2中可以看出，教师评分与批改网评分具有高度的相关性，表明教师评分与批改网评分趋于高度一致，这也说明批改网的得分具有较高的信度。这一发现与何旭良（2013）的结论基本一致，即批改网评分具有较高的信度，但在手工评分与批改网评分的具体分值上本研究与何的结论有所区别，何的研究中发现批改网的评分要显著偏高，而本研究则发现两者分值趋于一致。究其原因主要是因为两个研究的人工评分标准有所差别，何的人工评分分值来源于中国学习者语料库的原始四级作文得分，而本研究的人工分值来源于大学英语任课教师的给分，分值的得分偏高是可能的。

从表2也可以看出，教师评分与基础词表1（BASE1），其它词汇（NOT IN），及总次数（TOTAL）之间具有显著相关，相关系数分别为0.413** ，0.347* ，0.524**这表明教师在评分过程中重点关注基础词汇和其它词汇的使用，同时作文词汇总数也是教师在评分时的一个重要关注点，即作文写的越长可能更倾向于多给分。这表明批改网在评分时会较多关注次常用词汇和较高级别的词汇，而对于最基础性的词族和文章总词数则较少关注。

四、结论与启示

通过对比教师手工评分和批改网自动评分可以得出以下结论：第一、教师人工评分和批改网自动评分之间具有非常高的相关性，两者的评分趋于高度一致，即批改网的评分具有较高的信度。第二、教师更多关注作文中最基础词汇、高难词汇和作文篇幅长度，批改网则更关注基础词表中词汇的使用。第三、批改网评分过程中不能对文章实际内容和逻辑结构进行综合考虑。基于现代信息技术的句酷批改网能在很大程度上帮助教师批改学生作文，但这并不是说英语写作学习就不需要教师了。基于大数据、云计算等人工智能技术的批改网有其天然的优势但也存在先天不足，学生英语写作水平和能力的提高永远不能离开教师的参与和指导。在技术面前教師不能越位，更不可缺位。

参考文献：

[1] 陈凤.一项关于句酷批改网在大学英语写作教学中的应用研究[J].东华理工大学学报（社会科学版），2014，（2）.

[2] 顾成华，王丽.基于句酷批改网的大学英语写作教学实证研究[J].扬州大学学报（高教研究版），2012，（4）.

[3] 何旭良.句酷批改网英语作文评分的信度和效度研究[J].现代教育技术，2013，（5）.

[4] 蒋艳，马武林.中国英语写作教学智能导师系统：成就与挑战——以句酷批改网为例[J].电化教育研究，2013，（7）.

作者简介：罗钰（1982–），女，四川威远人，攀枝花学院外国语学院讲师。研究方向为英语教育学;高朝阳（1980–），男，陕西咸阳人，攀枝花学院外国语学院副教授。研究方向为二语习得理论与实践，外语教育技术学。

基金项目：四川省教育厅人文社科重点研究项目“英语作文智能评阅系统在大学生英语写作中的效用研究——以句酷批改网为例（15SA0176）”的阶段性成果。