大学英语作文智能评阅之问题和对策

2019-08-30余小梅

青年时代 2019年21期

余小梅

摘要：自动评分系统在我国高校语言评价测试领域逐渐被推广使用。本文通过在线访谈、论坛和问卷调查3种方式对我国高校广泛使用的冰果智能评阅系统进行了全面考察。梳理来自作文智能评阅系统设计者、系统使用者双方的观点，整理写作直接参与者的直观体验，重点分析智能评阅存在的不足，提出人工欣赏型评阅与智能预选型评分结合的人机协同写作批改模式，高分示范，低分重新手写，以激发学生英语写作的兴趣，最终提高学生英语写作水平。

关键词：大学英语写作;智能评阅;人机协同评价模式

英语写作能力一直是衡量大学生外语能力的一个重要尺度，其重要性从历年各级各类考试分值占比可见一斑。诚然，写作水平的发展与相邻學科的学习密切相关，但与之有着直接垂直关联的两方面分别是教和写、评和改。由于计算机统计技术、自然语言处理技术和信息检索技术甚至人工智能技术等的进步以及电脑设备硬件的普及，越来越多的高校采用智能评阅系统。毫无疑问，这减轻了教师在人工批改的过程中体能的消耗、情绪喜好等因素的干扰以及对相应的评分公正与否的心理担忧。但这是否意味着英语教师就此解放，借助机器评阅可以实现一劳永逸？语言学习者写作能力是否在这样一个-技术控制的客观的评阅反馈下得到了提升？下文将以我国高校使用最为广泛的写作评分系统——冰果智能评分系统就此问题展开探讨。

一、研究过程和反馈

为了呈现一个有关智能评阅系统的客观图景，在该主题的调查过程中，笔者结合了多种方法，收集了多方观点。

（一）在线访谈

笔者带着“智能作文评阅系统如何能评阅千差百异的作文”这一疑问对该评阅系统的技术人员进行了一个简短的访谈，反馈的信息如下：

该技术人员称，英语智能作文评阅系统基于核心机器学习技术和对我国英语教学现状的深入理解，并利用现代互联网技术，自主研发一套对批量英语作文进行机器评阅的网络平台产品，旨在突破性地实现对大批量英语作文进行精准快速的机器评阅，解决当前国内英语教学界大学中学英语写作教学的实际问题，并且应用在大型英语水平考试的评阅体系中，大大节省人工投入，使工作效率提高了50%以上。

这一段反馈主要是讲述该系统研发的目的，即节省人工劳动量，提高批阅的效率，这一优势毋庸置疑。

针对系统批改原理，该技术人员指出，打分机制及案例基于语言学专家开发的大型词法、句法和语义规则库，对学生作文进行语言方面的多维度评估。这种多维度批改具体内容涵盖以下几个方面：①内容及主题思想;②篇章结构——连贯性;③句子结构准确度——语法;④语言流利程度——文风;⑤词语运用——拼写和词语运用。系统批改原理的依据是后台开发的语料库，而不是一篇一篇作文集合而成的作文语料库。

对于“既然你们的语料库是基于词法、句法和语义规则，那么怎么能评判主题和风格呢？”这一问题，该技术员没有给出回答。显然，技术员在如何评判“风格”“主题”问题上的沉默代表着智能评阅系统的难度。

（二）教师论坛意见

教师A：“这是我一个学生100分的作文，n多明显的错误;我还不止一个学生得100;同样的题目，学生找了篇和主题无关的范文的得分。”

教师B：“据我的考察，机器的低分判定很多情况下都比较符合事实，而机器的高分判定结果很多情况下与作文的真实价值好像有所出入。系统有主题偏离分析。”

教师C：“机器肯定是问题多多，更何况面对的是作文这种不可量化的东西。”

以上表述显然具有代表性，一部分教师并不愿意或者不信赖智能评分系统，事实上的确出现让教师不信任的理据，尤其在高分评定上。

将作文与评语相对照，系统打分明显是基于语言语法最基础的方面，而对于风格、文采等方面的处理印证了上述教师的观察。

（三）问卷调查

笔者在任教的大学一年级平行班级推行使用国内高校普遍采用的冰果作文智能评分系统，在一个学年内，布置了一定数量的写作任务，在学生提交之后，同期做了一个问卷调查，所有问卷都收回，真实有效，收回反馈卷两个班各38份。问卷设计的问题和统计结果反馈分别如表1和表2所示。

从表1、表2中可以看出，学生使用者显然对智能评阅系统也存在不满，评价系统仍有很大的提升空间。各方观点在一定程度上反映出智能评分系统的信度，如评判得准确与否、满分和高分的评定、智能评阅对学生写作习惯和水平的影响以及学生是否改正错误。不难看出学生方有3个突出趋向：（1）针对一个写作任务，学生需要一篇甚至若干篇范文作为修改参考;（2）需要评阅者对全文的宏观构思、主旨和微观语言词句表达都能作出准确的、针对性强的而非过于笼统的点评，纠错的同时指出作文的优点;（3）虽然智能评分系统能减轻教师的评阅负担，但82%和84%的学生选择人工评阅。

二、对策

“计算机自动作文评分属于典型的智能计算。”（葛诗利，陈潇潇，2009）当前使用的各种智能评分系统如PEG、IEA、E-rater等都很大程度地依托浅层文本特征统计，即词汇的统计。“自动作文评分中对内容的评分只能是对人工文章内容评分的一种近似的模仿。”（同上）对作文语言使用的评价通常包括词汇、句型、语法和操作细节几个方面。文秋芳（2007：67）指出，“词汇指作文所用单词的词频高低、单词的搭配以及恰当性;句型指作文所用句型的复杂度和多样性;语法指作文所用语言是否符合语法规则;操作细节指拼写、大小写、标点等使用情况。”有鉴于此，笔者针对以上调查和梳理出的问题，建议采取以下评阅模式。

（1）针对每一次写作任务，提供一篇甚至若干篇同一课题的论文作为评阅参照，确保学生有范文可自行学习，从而延伸课堂教学，使评阅更为合理。因此，很有必要建设智能评阅系统主题作文语料库。

（2）技术层面，系统在设置评阅变量时，效仿TOEFL考试中应用的E-rater，从语言形式和阐述内容两方面对作文进行针对性强的评价。鉴于智能评阅系统在低分作文评定方面有较高的信度以及无论从局部还是全局“手写作文的错误的改正率大于在线作文的错误的改正率”的现状，可以让机器对作文先作一个预批阅，筛查出低分作文。对于这些低分作文，教师要求学生重新手写，以促反思改进。对于高分作文，在机器评阅的基础上让教师进行人工审阅，在课堂进行公开示范点评，并对其优点、主旨、篇章结构、内容逻辑性和连贯性等方面突出分析。80%以上的学生选择人工评阅，这揭示出互动和情感因素在学习过程中发挥的重要作用。这需要教师人工的积极干预、对优点的褒奖和对不足的中肯贴切的建议。因此，自动评分要以人工评分为准，尤其是高分作文。

三、结语

面对多次数大规模的写作评阅，回归全面人工在很大程度上是倒退，那么只有一方面不断完善智能评分系统提高其评阅的信度即可靠性，另一方面加强教师对写作评阅的积极干预，将注重语言特征的机器和注重高层次写作技巧的人工结合起来，采取人机协同评阅模式，评分之外更注重学习者自主学习和反思，才能真正激发学生的英语写作兴趣并提升学生的写作水平。

参考文献：

[1]陈亦挺.在线英语写作有效性研究——基于冰果英语智能作文评阅系统[D].杭州：浙江大学，2012.

[2]陈芸.基于自动作文评分系统的英语写作调查分析[J].语文学刊，2011（11）：72.

[3]郭春珍.冰果英语作文智能评阅的应用与利弊[J].湖北函授大学学报，2017（7）：148-149.

[4]梁茂成.大规模考试英语作文自动评分系统的研制[M].北京：高等教育出版社，2012.