外语写作思辨能力评价效度研究*<br/>——基于多面Rasch模型分析

外语写作思辨能力评价效度研究*
——基于多面Rasch模型分析

2021-07-19北京科技大学马利红北京师范大学

外语教学理论与实践 2021年2期

北京科技大学马利红北京师范大学刘坚

提要：采用多面Rasch模型，以913名高中生为研究对象，从被试、评分员、任务和评分标准四个层面对外语写作思辨能力评价进行效度验证。研究结果显示：(1)包含提出问题、表达观点、提供证据、推理论证、得出结论、阐释评价的评价框架符合多面Rasch模型的测评要求，能体现并合理区分被试的外语写作思辨能力。(2)推理论证和提供证据对测试结果的整体效度有一定影响，需要进一步完善。研究结果对于外语教学中的思辨能力培养与评价具有一定的启示意义。

1.研究背景

作为21世纪核心技能，思辨能力近年来受到国内外教育界广泛关注。思辨能力与写作关系密切，写作过程既是提出观点、组织证据、开展论证和反思的过程，又是分析、推理、评价和自我调控的思辨过程(Deane，2011)，思辨能力影响写作成绩(高宵、文秋芳，2018)。研究表明，写作文本是评价思辨能力的有力工具(Stapleton，2001)，通过写作文本评价思辨能力是思辨能力测评发展的重要趋势(Preiss，2013；马利红、刘坚，2018)。外语写作思辨能力既具有思辨能力的共性，又具有外语写作的特性，常常指写作时分析事实、表达观点、坚持立场、开展论证和解决问题的能力(Barnawi，2011)。目前，外语写作思辨能力评价研究主要针对大学外语学习者(Barnawi，2011；Chason，2016；Stapleton，2001；穆丛军，2016)，对其他学段关注不够；而且以往研究构建的外语写作思辨能力评价框架主要以理论构建和经验总结为主，缺乏通过实证研究进行效度验证(陈则航等，2016；董焱宁，2017)。

发展心理学研究表明，青少年的独立性和批判性显著发展，不但能批判地对待别人的意见，而且能有意识地调节、支配、检查和论证自己的思维过程(林崇德，1998：382)。《普通高中英语课程标准(2017年版)》(以下简称课标)强调要发展学生的多元思维和批判性思维。台湾和香港地区的相关研究表明，通过外语写作培养和评价中学生的思辨能力是可行的(Liaw，2007；Mok，2009)。因此，本研究以高中生为研究对象探索外语写作思辨能力评价效度问题，本研究既有政策依据，又有实证研究支持，对于高中英语教学和《课标》落地具有重要的现实意义。

2.评价指标的确定

以往外语写作思辨能力评价研究主要关注思辨能力和思辨标准，比如Connors(2008)从问题的完整性、答案的精确性与简洁性、结论的严谨性、能否结合案例讨论、整体论证质量；Stapleton(2001)从结论逻辑性、论点数量、证据充分性、识别反驳、回应反驳、谬误数量；Qin和Karabacak(2010)基于图尔敏论证模型从论证、证据、反面论证、反面证据、反驳论证、反驳证据；Osana和Seymour(2004)从基于证据、得出结论、不同视角论证等方面分析和评价等，这些都是从思辨能力视角开展的评价研究。另外，穆从军(2016)从相关度、清晰度、精确度、深度、宽度和修辞自洽度；McLean(2005)从清晰度、相关性、深度、逻辑性、精确性、宽度和支持度；董焱宁(2017)从清晰性、准确性、精确性、深度、广度、重要性、相关性、逻辑性和公正性等方面构建外语写作思辨能力评价标准，而这些是从思辨标准视角开展的评价研究。从思辨能力视角开展评价研究，强调外语写作思辨的具体技能，但忽略了评价应坚持的标准，容易降低评价结果的科学性；从思辨标准视角开展评价研究，虽重视外语写作思辨质量评价应遵循的标准，但弱化了评价的具体对象，导致评价的可操作性不强。

本研究以思辨能力三元结构模型(Paul & Elder，2006)为理论依据，将思辨能力(包括目的、问题、观点、信息、推理、概念、假设、启示)和思辨标准(包括清晰性、准确性、精准性、相关性、重要性、完整性、逻辑性、公正性、有广度、有深度)共同融入高中外语写作中。通过写作文本分析初步筛选评价指标，基于三轮专家调查进一步凝练评价指标并完善其内涵。(1)高中外语写作思辨能力评价指标的确定过程将另文表述，感兴趣的读者可与研究者联系索取。最后形成的外语写作思辨能力评价指标体系包括提出问题、表达观点、提供证据、推理论证、得出结论和阐释评价(如表1所示)。

表1.外语写作思辨能力评价指标

上述指标体系借鉴了思辨能力三元结构模型的理论观点，并通过动态交互的教师访谈、学生访谈和专家访谈，筛选和完善评价指标，弥补了以往研究相对静态的、线性的基于文本视角的局限性，但是评价指标的效度还需要通过实证研究检验。本研究拟根据上述评价指标命制英语写作题目并进行测试，通过多面Rasch模型对上述评价指标进行效度验证。

3.研究方法

1)研究对象

2018年1月上旬，通过方便抽样和目的抽样相结合的方法，对H、K和S三个城市6所高中共1 001名学生进行英语写作测试。收集完数据后，研究者首先对作文进行编号，隐去姓名、学校等信息，并剔除无效作文，共得到有效信息913人，其中男生394人，约占43.2%，女生519人，约占56.8%。

2)研究工具

研究工具是两道英语写作题目。Azizollah等人(2013)发现学生在不同类型的写作任务中表现出来的思辨能力不同，这说明评价外语写作思辨能力应该考虑写作任务的类型。根据认知需求，写作任务类型分为信息类、观点类和推理类，信息类任务要求学习者叙述个人信息、以书面形式与读者交流，观点类任务要求学习者就某一主题表达观点、形成论证、以书面形式辩护自己的立场，推理类任务要求学习者通过推理总结和整合已有信息(Prabhu，1987)。由此可见，观点类任务是考查思辨能力的最佳任务类型。尽管高中英语写作中的常见文体包括记叙文、应用文、说明文和议论文四种，但研究表明议论文在激发和评价思辨能力方面具有独特优势(如Qin & Karabacak，2010；Stapleton，2001)，因此本研究中的英语写作重点关注议论文。

基于表1中的外语写作思辨能力评价指标，研究者编制了双向细目表，以充满矛盾观点且高中生熟悉的语言材料为素材，让被试提出问题、表达观点、基于证据进行论证、得出结论并对其进行反思评价。然后通过6人访谈、30人试测、专家审题、300人试测等规范程序进一步研磨题目。最终用于测试的写作题目包括两部分内容，一是阅读材料，约150—200个单词；二是写作指令，约40—50个单词。研究表明，在有时间压力的情况下，思维能力难以充分发展(秦晓晴、文秋芳，2007)。因此，本研究的写作测试时间比高考英语写作延长0.5倍，设定为45分钟。

3)评分过程

评分前需要根据评价指标和写作题目研制外语写作思辨能力评分标准。评分标准要适合被试的心智发展和外语水平，反映测试构念，评分档数量应切实可行(McKay，2006)。本研究采用直觉法和数据法相结合，通过初步拟定评分标准、专家审阅、试评、试评数据分析、讨论修订等步骤研制评分标准。最终形成的分项评分标准包括提出问题、表达观点、提供证据、推理论证、得出结论和阐释评价六个评分点，每个评分点包括0—4五个分数等级。

本研究中的评分过程包括评分前培训、试评、正式评分、抽查四个环节。研究者首先详细讲解外语写作思辨能力评分标准，然后让评分员试评60份写作样本(题目1和2各30份)，将评分结果与评分标准对比，讨论理解有误的地方，直至评分员完全掌握评分标准。正式评分实行双评，即两位评分员独立对一份写作文本进行评分，如果评分差异在预先设定的阈值范围内(本研究阈值设为2)，取二者的平均分作为最终得分；如果评分差值超过2，则由研究者进行三评。为保证评分结果的准确性，研究者抽取10%左右的写作文本进行核查。

根据经典测验理论，评分员信度是主观题测试的重要信度指标，通常用评分员间的评分一致性表示。本研究中，两名评分员采用分项评分法对913份写作文本进行独立评分，适合运用斯皮尔曼(Spearman)等级相关计算评分员间的评分一致性。以写作任务一为例，相关分析结果表明，两位评分员在提出问题、表达观点、提供证据、推理论证、得出结论和阐释评价6个评分点所评分数高度相关(0.711<ρ<0.994)，而且两位评分员在每个评分点所评分数的平均数差异不显著(p>0.5)，进一步说明评分员之间具有较好的评分一致性。

4)采用多面Rasch模型的理据及统计量解释

(1)采用多面Rasch模型的理据

Linacre(1989)提出的多面Rasch模型能用来衡量评分员的宽严程度和评分一致性，修正由评分员造成的评分差异，检测被试能力、评分标准、评分员、评分项目、任务等各面之间可能存在的交互效应，为检查开放题评分质量提供了一种理论框架。因此，本研究采用多面Rasch模型，从评分员层面、学生层面、任务层面和评分标准层面分析高中英语写作思辨能力评价效度问题，所建立的分析模型如下：

Log[Pnijmk/Pnijm(k-1)]=Bn-Cj-Di-Fm-Gmk

Pnijmk代表被试n在完成写作任务i时在第m个评分指标上由评分员j给出k分的概率；Pnijm(k-1)被试n在完成写作任务i时在第m个评分指标上由评分员j给出k-1分的概率；Bn代表被试n的能力参数；Cj代表评分员j的宽严程度；Di代表写作任务的难度；Fm代表第m个评分指标的难度参数；Gmk代表在第m个评分标准中被试得分从k-1到k的等级难度。

(2)多面Rasch模型中的统计量解释

本研究采用软件Facets进行多面Rach模型分析。多面Rasch 模型为测量侧面中的每个要素都提供测量值(measure)、标准差(S.E.)和拟合统计量(Fit)。measure代表研究者想要测量的对象，如被试能力、评分员的宽严程度等；S.E.提供每个测量值的精确程度；Fit代表原始观测值与模型估计值之间的差异程度，包括Infit MsSq(加权均方拟合统计量)和Outfit MsSq(未加权均方拟合统计量)。Outfit对异常值比较敏感，波动较大，一般使用Infit作为拟合统计量的指标，理论区间为[0，+∞]，期望值为1，Infit没有固定的取值范围，一般设定为0.5—1.5(Linacre，1989)。

多面Rasch模型还提供分隔系数(Separation)和分隔信度(Reliability)。分隔系数为校正后的测量值的标准差，一般大于3.0就说明存在显著差异；分隔信度为真实变异与观测数据变异的比值，比值越高表明测量侧面的区分度越好(Linacre，1989)。另外，多面Rasch模型中偏差分析的最重要指标是T值，T值的均值为0，一般界限值为|T|=2，若T值大于2，表明评分员过于宽松，若T值小于-2，表明评分员过于严格(Linacre，1989)。

4.研究发现

本研究中的测试得分受被试能力水平、评分员严厉程度、写作任务难度、评分标准区分度四方面因素影响。假设不同评分员对不同被试、不同任务和不同评分指标的严厉程度不同，在数据分析时加入了不同层面的交互作用。下面从多面Rasch模型总体分析、不同层面分析、偏差分析三方面汇报分析结果。

1)多面Rasch模型总体分析

图1是多面Rasch模型的整体层面图，第一列为洛基值(Logits)，第二列是评分员层面，第三列是被试层面，第四列是写作任务层面，第五列是评分标准层面。在多面Rasch模型中，各层面以及各层面指标之间的比较和分析均基于洛基值。本研究中，被试层面的表现是正向的，表示测量值越大，被试的思辨能力就越强；评分员、写作任务和评分标准层面是负向的，表示测量值越大，评分员越严厉、写作任务越难，被试在某个评价指标上获得高分的概率越低。

图1.多面Rasch模型层面图

根据图1，两名评分员的严厉程度和两项写作任务的难度均存在差异。六项评价指标中，得出结论最难，提出问题最容易。被试分布在4个洛基值之间，跨度基本合理，表示评分的离散程度较好。

2)分层面分析

多面Rasch模型的优势在于不但能将各面统一在同一量表进行估算，而且能提供每个层面的统计数据。

(1)评分员层面

从表2可以看出，评分员1(Logits=0.54)比评分员2严厉(Logits=0.44)，但Infit值在可接受的范围内，表明两位评分员的评分较为可信。评分员层面的分割系数为1.67，信度为.74，卡方检验结果(χ2=3.8，df=1，p=0.5)说明两位评分员之间的评分差异不具有统计学上的显著意义，即两位评分员的评分较为一致。

表2.评分员层面

Separation=1.67，Reliability=.74，χ2=3.8，df=1，P=.05

(2)被试层面

因被试较多，表3按测量值高低截取了被试层面的部分分析结果。根据表3，被试层面的分割系数为2.08，信度为.81，卡方检验统计量为683.4(df=166)，说明被试的得分差异具有统计学上的显著意义(p<0.001)。另外，本研究中非拟合被试有18名，占总人数的1.9%；过度拟合被试50人，其中|Z|大于2的有34人，(2)|Z|>2表示被试显著过度拟合。占总人数的5%，表明非拟合被试和过度拟合被试人数均在可接受的范围内(Linacre，1989)。

Separation=2.08，Reliability=.81，χ2=683.4，df=166，p=.00

统计结果显示，大约93%的被试的原始评分与模型估计的期望测量值拟合较好，表明被试的外语写作思辨能力能被科学、准确测量。尽管有极端值存在，但数量在可接受的范围内。因此，本评分结果基本能反映被试的外语写作思辨能力，评价指标的构念效度较好。

(3)写作任务层面

从表4可以看出，写作任务2(Logits=.03)比写作任务1难(Logits=-.03)。但Infit值在可接受的范围内，表明两项写作任务较为可信。分割信度值.68虽然不高，但分割系数.62远远小于3，表明两个写作任务之间不存在明显差异。卡方值为1.4(df=1)，表明两项写作任务之间的差异不显著(p=.24)，即二者难度较为一致。

表4.写作任务层面

Separation=.62，Reliability=.68，χ2=1.4，df=1，p=.24

(4)评分标准层面

表5所示，分割系数为9.89，分割信度为.99，卡方值62.2(df=5)，显著性p=.00，表明各评价指标的难度和区分度具有统计学意义上的显著差异。相对而言，得出结论最难，提出问题最容易，而且论证能力和提供证据的Infit拟合不太理想，|Z|值大于2，表明对推理论证和提供证据的评分受其他评分指标影响，研究者需进一步明确推理论证和提供证据的操作性定义和评分细则。除推理论证和提供证据外，其他评分指标对模型的拟合均在可接受的范围内，各指标间相关合理，且没有出现过度拟合，表明评分员能准确使用评分标准进行评分，通过评分结果可以区分出不同水平的被试。

表5.评分标准层面

多面Rasch模型还可对评分等级是否有效进行评价。参照各评分等级的概率曲线图(如图2所示)可观察分值的使用情况，每个波形对应一个分值，各波形的交点就是相邻两个分值的临界点。图2表明，所有波形都有独立且具有一定间隔的波峰，表示每个评分等级对应一个能力区域(Park，2004)。

图2.评分等级概率曲线图

3)偏差分析

虽然分层面分析可发现一般意义上的评分误差，但各层面间的交互作用还需进行偏差分析。偏差分析指实际分数偏离模型预测值的程度。本研究将考察评分员与被试、写作任务、评分标准之间的交互作用，并设定|T|大于2为显著偏差。

(1)评分员与被试的偏差分析

偏差分析时，需要对主效应模型进行拓展，添加交互效应参数，评分员与被试之间的偏差分析需要添加评分员与被试的交互效应参数Φnj，其他指标都与主效应一致，拓展后的模型为：

Log[Pnijmk/Pnijm(k-1)]=Bn-Cj-Di-Fm-Gmk-Φjn

本研究共有1826对评分员与被试的交互效应组合(913×2)。表6按T值大小，将评分员与被试的交互效应进行排列，没有出现|T|大于2的偏差组合。根据卡方检验结果(χ2=27.7，df=334，p=1.00)，评分员与被试之间的偏差并不显著，表明评分员对所有被试的评分都可能保持较好的一致性。

表6.评分员与被试的偏差分析结果

(2)评分员与写作任务的偏差分析

评分员与写作任务的偏差分析可考察评分员一致性在不同写作任务上的表现，若偏差显著，说明评分员对不同任务的评分不一致。

评分员与写作任务的偏差分析需要添加评分员与任务的交互效应参数Φji，拓展后的模型为：

Log[Pnijmk/Pnijm(k-1)]=Bn-Cj-Di-Fm-Gmk-Φji

本研究共有4对评分员与被试的交互效应组合(2×2)，表7表明评分员与写作任务之间没有出现|T|大于2的偏差组合。根据卡方检验结果(χ2=.1，df=4，p=1.00)，评分员与写作任务之间的偏差并不显著，表明评分员在两个写作任务上都可能保持较好的一致性。

表7.评分员与写作任务的偏差分析结果

(3)评分员与评分标准的偏差分析

评分员与评分标准的偏差分析可以考察评分员在哪些评分指标上出现偏差，偏差程度如何，偏差显著表明评分员对每项评分指标的评分不一致。

评分员与评分标准之间的偏差分析需要添加评分员与评分标准的偏差参数Φjm，拓展后的模型为：

Log[Pnijmk/Pnijm(k-1)]=Bn-Cj-Di-Fm-Gmk-Φjm

本研究共有12对评分员与评分标准的交互效应组合(2×6)，表8表明评分员与评分标准之间没有出现|T|大于2的偏差组合。根据卡方检验结果(χ2=4.4，df=12，p=.97)，评分员与评分标准的偏差并不显著，表明评分员在六个评分指标上都可能保持较好的一致性。

表8.评分员与评分标准的偏差分析结果

综上所述，评分员与被试、写作任务、评分标准之间的交互作用并不显著，表明评分员在对两个写作任务评分时，在提出问题、表达观点、提供证据、推理论证、得出结论、阐释评价6个评分点上均能保持较好的一致性，进一步说明本研究中的外语写作思辨能力评价效度较好。

5.讨论与启示

根据多面Rasch模型对评分员、被试、写作任务、评分标准的分析以及偏差分析结果，可得出以下结论：(1)包含提出问题、表达观点、提供证据、推理论证、得出结论、阐释评价6个评分指标的外语写作思辨能力评价框架符合多面Rasch模型的关键测量指标要求，具有较好的效度，能体现并合理区分被试的外语写作思辨能力，适用于外语写作思辨能力的评分。(2)推理论证和提供证据对测试结果的整体效度有一定影响，需要进一步完善这两个子项的操作性定义，通过更大样本被试进行效度验证，也可通过访谈、观察等质性研究手段进一步探索评价指标的内涵。

本研究中的多面Rasch模型分析结果整体上与Connors(2008)构建的多步分析评价标准的效度验证结果一致，为外语写作思辨能力评价提供了效度证据，也证实了Liaw(2007)在台湾和Mok(2009)在香港中学外语课堂的研究发现。本研究从评分员层面、写作任务层面、评价标准层面和被试层面多角度考虑外语写作思辨能力评价的效度证据，是对以往研究的有益补充。思辨能力是伴随写作过程并指导写作过程的高层次思维。写作中的布局谋篇和说理论证需要思辨能力，而思辨能力的发展可以通过写作表现来实现(余继英，2014)。外语写作活动既是语言运用活动，又是思辨活动，二者相互影响、相得益彰，通过写作文本评价思辨能力是思辨能力测评发展的重要趋势(Preiss，2013；马利红，2018)。研究结果表明，合理的评价指标是保证外语写作思辨能力评价效度的关键，科学系统的效度检验有助于发现影响评价效度的因素。

在实践层面上，本研究构建的评价指标不但能对外语写作思辨能力进行评价，而且对外语教学中的思辨能力测评和培养具有启示意义。

首先，在命题、评分、效度验证三个方面对外语教学中的思辨能力测评研究具有启示意义。思辨能力是一个复杂整体，任何思辨能力评价工具都具有局限性，需要从多角度收集效度证据。本研究采用多面Rasch模型收集效度证据，为进一步提高思辨能力测试记录的一致性、提高分数解释的意义和概括性、改进试题质量提供了参考和借鉴。基于外语写作文本评价思辨能力，是在高中外语教学领域以开放题形式评价思辨能力的有益尝试，考查思辨能力的外语写作试题的命题思路、命题过程、评分过程、评分方法、评分标准的设计等，可为外语教学领域以开放题形式测评思辨能力提供可以借鉴的实践经验。

其次，本研究构建的外语写作思辨能力评价指标体系以思辨能力三元结构模型为理论基础，结合高中生的心智特征和英语写作水平，且经过了系统的效度验证，评价指标可为高中英语教师开展思辨能力培养提供参考和借鉴。具体讲，外语写作思辨能力评价结果可以为参测学生和教师提供详细的诊断信息，对于教师发现教学盲点，改善教学方法，调整教学策略有积极作用。教师可从熟悉话题入手，鼓励学生质疑权威，提出问题，表达观点，多角度论证，运用批判性写作技巧，让文章更有说服力。在平时英语教学中，可以多给学生提供机会表达观点，通过论证、反证、推理等思维过程，得出结论或提出建议。地方教育决策者也可以通过评价结果了解作为英语学科核心素养之一的思维品质培养在英语教学中的落实情况，以便在教学资源配置、课程设置、教师专业培训等方面做出决策和调整。