批改网英语作文自动评分系统评分质量研究

2021-09-03高健民

哈尔滨学院学报 2021年7期

高健民

(浙江大学外国语言文化与国际交流学院，浙江杭州 310058)

写作评估是外语教育中的重要一环。随着计算机科学技术的发展，英语作文评分的方式也发生了巨大改变。系统自动评分的方式不仅弥补了人工评分成本高、效率低的局限，还提高了作文评分的信度，减轻了由于人工阅卷员评分标准不一致造成的偏颇。一些自动评分系统不仅可以给作文提供一个整体性的分数，还能同时呈现关于作文语言质量的反馈，这些优点使得作文自动评分系统不仅被广泛应用于各种英语考试中，许多英语教师也将其应用在课堂测试的评分上。然而，即使作文自动评分系统在评估学生的写作能力方面有着很多优势，对其评分可靠性和有效性的争论却从未停止过。此外，由于这些评分系统往往缺乏评分过程上的透明性，直观感受其评分效果十分困难。因此，对于作文自动评分系统评分质量的定量分析是十分重要的。

一、文献综述

从理论的角度，一些研究者提出了对于作文自动评分系统评分质量进行评估的必要性以及需要考虑的因素。例如，Xi系统性地提出了作文自动评分系统评分过程有效性的问题，主要对使用作文自动评分系统是否会引起构念无关因素或造成构念代表性不足的问题进行了讨论，还指出研究系统自动评分结果与其他非测试得分类指标的一致性至关重要。[1]Deane也讨论了采用系统自动评分方式对构念效度的影响，指出作文自动评分系统所能测量到的写作技能是有限的。[2]

在实证研究方面，Weigle将考生在托福考试(TOFEL)写作任务中由e-rater这一自动评分系统给出的得分与考生对于自我写作能力的自评分以及考生在非测试环境下完成的作文的得分进行了比较，最后发现这些得分之间存在中等强度的相关性。[3]Ramineni等人将GRE测试(美国研究生入学考试)中的考生作文作为语料，对人工评分和系统自动评分的预测效度进行了比较，结果发现两者都能很好地预测考生在口语测试任务上的得分。[4]除了研究系统自动评分与其他测量写作水平或整体语言水平指标的相关性之外，一些研究者还研究了系统自动评分与人工评分的一致性，这类研究的共同发现是自动评分与人工评分之间具有较高的一致性，并且这两者的一致性接近不同阅卷员之间评分的一致性。[5-6]除此之外，还有许多针对不同自动评分系统的个案研究。[7]

通过对以往文献的系统性梳理，本研究发现了在这一领域研究上的不足。首先，虽然很多研究都表明系统自动评分与人工评分有着高度的相关性，在Liu和Kunnan的研究中却显现了不同的结果。[8]而且这种一致性不应该被当作是衡量评分有效性的唯一指标，因为其仅能反映出系统自动评分的稳定程度，并不能反映其全面评估考生写作水平的能力；[9](P142-173)且以往研究往往割裂了分数与文本之间的联系，没能从作文本身语言特征的角度为系统自动评分质量的高低提供证据。其次，以往大多数研究都是国外研究者针对国外考试机构开发的自动评分系统所作的效度验证，而国内这方面的研究比较少，且多为综述性研究，[10-13]仅Qian等学者和何旭良针对国内的两款主流自动评分系统，即iWrite和批改网的评分质量进行了实证研究。[14-15]由于国外大多数的自动评分系统在国内是无法使用的，而中国拥有庞大的英语学习群体，因此对国内主流作文自动评分系统评分质量的研究意义重大。

本研究选取了批改网作为研究对象，原因在于其较早得到了推广，且可以被免费使用，有着庞大的受众群体。对于批改网评分质量的研究不仅可以填补国内对于作文自动评分系统评分质量实证研究的空白，还能为广大英语教师及学习者提供启示。基于此，本研究主要关注以下两个问题：(1)批改网系统自动评分与人工评分的一致性如何？(2)批改网系统自动评分与文本语言特征(复杂度、准确性和流利度)的相关性如何？

二、研究方法

1.材料与被试

本研究所用的语料为国内某大学104名一年级学生的英语期末考试作文。这些学生都是非英语专业，并且来自两个不同的大学英语平行班。该英语测试在课程结束时举行，其中包含一项独立写作任务，写作题目是分析一项社会问题。作文成绩与学生的课程成绩直接相关，因此可以确保所有学生都认真进行了作答。

2.评分过程

所有作文都是由一名任课教师和一名研究者共同批阅的，均具有丰富的阅卷经验。评分依据是全国大学生英语四级考试作文整体性评分量表(满分15分)。在正式评分之前，两位评分员就评分标准进行了讨论，然后随机抽取了25份作文进行了试评，在两位评分员的评分达到高度一致后(r=0.86，p<0.01)，每位评分员分别对其余的作文进行了独立评分。每篇作文最终的人工得分为两个评分员评分的均值。由于批改网评分制为百分制，因此在系统批阅所有作文后，研究者将百分制分数转化为了15分制的分数。

3.文本语言特征量化指标

在本研究中，研究者对文本语言特征进行了量化。复杂度方面由Coh-Metrix文本分析软件进行量化。对于句法复杂度，本文从句子和短语层面选取了4个指标，即平均句长、从句数量、名词短语密度及动词短语密度。词汇复杂度由篇章词汇多样性指标量化，因该指标对于文章长度最不敏感，即其不易受到不同文章长度的影响。[16]

准确性由文章错误率量化。错误类型的识别依据Bardovi-Harling和Bofman提出的标准。[17]两位评分员首先对于随机抽取的25篇作文进行了试编码，即识别出作文中所有的语言错误。在评分员所识别出的错误数量达到高度一致后(r=0.89，p<0.05)，两位评分员分别对剩余的作文进行编码。文章错误率即语言错误总数占作文总词数的比率，这种做法有利于使准确率的统计免受文章长度的影响。

作文的流利度由总词数衡量。由于在测试环境下，考生答题时间上限是固定的，且根据以往观察，考生在写作任务上的用时不会有过大的差异，因此总词数能够在一定程度上衡量考生的写作速率。

4.数据分析

对于第一个研究问题，研究者首先对批改网自动评分和人工评分进行了配对样本t检验，以比较两者在分数高低上的差异。然后，研究者对两组分数做了一致性检验，具体指标包括精确一致性(分值完全相等)、临近一致性(分值差异小于等于2分)和皮尔逊相关系数。对于第二个研究问题，研究者将批改网自动评分与作文文本语言特征的各项指标做了相关分析。

三、结果与讨论

1.批改网自动评分与人工评分的一致性

据表1所示，批改网评分的平均值，最大值及最小值均高于人工评分，且配对样本t检验的结果表明批改网评分与人工评分具有显著差异(p<0.05)。这表明批改网评分要比人工评分更高。根据表2所示，批改网评分与人工评分的精确一致性和临近一致性较低，且相关系数为0.41(p<0.01)，说明两者仅存在着弱相关关系。

表1 批改网评分与人工评分的描述性统计

表2 批改网评分与人工评分的一致性统计

2.批改网评分与作文文本语言特征指标的相关性

表3列出了批改网评分与文本复杂度、准确度和流利度指标的相关系数。可见，批改网评分仅与句法复杂度中的名词短语密度、词汇复杂度指标以及流利度指标相关。其中，批改网评分仅与表示词汇复杂度的篇章词汇多样性有强相关关系，相关系数为0.764，其余均为中等相关。

表3 批改网评分与文本语言特征指标的相关系数

3.讨论

首先，批改网评分显著高于人工评分，这一点与何旭良的研究结论完全一致。结合批改网评分与文本语言特征的相关性结果可知，批改网关注到的语言特征是有限的。而人工阅卷往往会从更多方面考虑作文质量，如写作逻辑、内容质量、语言的地道性等，因此人工评分可能会比系统自动评分更加“苛刻”。其次，批改网评分与人工评分为弱相关关系，这一点与何旭良的研究结果相违背，推测其原因在于本研究中的作文样本量更大。精确一致性和临近一致性指标表明，两者的评分并不总是完全一致的，这一发现与国外学者对于e-rater和My Access评分质量的研究结果不同，原因可能在于不同的自动评分系统在评分单位上有所差异。评分量表的全距越高，可能会导致作文之间分数差异更大，从而影响到精确一致性和临近一致性的数值。但是从另一个角度看，这也在一定程度上表明批改网的评分质量仍有待提高。

批改网评分与文本语言特征的相关性说明，批改网系统评分可能更加关注作文在词汇层面的表现，词汇的多样性以及名词短语的使用都与批改网评分呈正相关关系。批改网评分没能反映考生在句子组构层面的能力，原因可能是大一的非英语专业学生经受的语言训练比较少，没有经历长期的浸入式英语学习，所以普遍在句法方面表现较差，不能与彼此之间拉开显著的差距，而他们在相对容易学习的词汇表达方面则能体现出更大的差距。此外，批改网评分也不能反映出作文的准确率，这可能是因为自动评分系统只能识别出句法和词汇形态层面的错误，在识别如词汇使用合理性及词汇搭配方面的错误上不够精确，这类错误的识别往往需要专业教师的判断，因而其评分与人工进行统计的准确率没能呈现统计学上的相关性。从另一方面来看，批改网系统在评分有效性上需要进一步优化，提高其对句法特征和语言准确度方面的识别能力。最后，批改网评分与作文总词数呈正相关，而总词数往往与词汇多样性相关，尤其是对于那些词汇量积累较大的考生来说，写的词数越多，越能体现他们的语言能力，因而会在批改网中得到更高的分数。同时，本研究中考生作文的体裁为议论文，文章的长度或许也与论证的充分性程度相关，关于批改网是否能够识别这种高阶的语言能力还需要更多的研究进行验证。

四、结论

本研究中发现批改网评分与富有经验的评分员给出的评分之间的一致性较低，其主要与名词短语密度、词汇复杂度和总词数相关，不能全面反映文本语言特征。这表明批改网作文自动评分系统作为一种教学辅助工具，仅可在有限的程度上帮助教师区别不同水平的作文。因此，仅依靠批改网评分对学生的作文质量进行评估是不正确的，仍然要对学生的作文进行多元反馈。学习者可以将其评分作为参考，并主要关注其在词汇层面给出的建议。

本研究也存在几点局限：首先，与大多数研究一样，本研究中收集到的作文都属于议论文体裁，这可能与测试中多使用议论文写作任务的情况有关。但学生平时的写作练习不仅局限于议论文体裁，所以未来研究可以用不同体裁的作文作为语料验证本研究中的结论。其次，本研究中没有考虑英语专业学生的作文。英语专业学生英语水平通常较高，其作文可能在句法复杂度方面的差异更加明显，因而以英语专业学生的作文作为语料进行系统自动评分可能会产生与本研究不同的结果。