APP下载

增值评价中的天花板效应及其破解思路

2020-12-23杨志明彭丽仪

教育测量与评价 2020年12期
关键词:优秀学生天花板效应

杨志明 彭丽仪 李 洋

2020 年,中共中央和国务院印发了《深化新时代教育评价改革总体方案》[1][2](下称《总体方案》),强调要改进结果评价,强化过程评价,探索增值评价,……,建立科学的、符合时代要求的教育评价制度和机制。在探索增值评价方面,学者们提出了各种各样的评价方案,比如直接用高考成绩减去中考成绩,或者用多次模拟考试成绩分析其分数或等级的进步幅度,或者用某种回归方法预测结果等。不过,现在流行的这些方法大多遇到了天花板难题,即优秀学生或优质生源学校因增值空间不足而受到了不公平的评价。本文介绍目前常用的几种增值评价模型并对其局限性进行探讨,提出了破解增值评价中天花板效应的三种思路。

一、增值评价中的天花板效应

增值评价由于给了各种起点层次学生努力表现的机会,同时鼓励所有人努力上进,所以它一直受到人们的普遍欢迎。但是,在发展空间被人为设限的情况下,优秀学生无法获得足够的增长幅度,并因此会受到不公平的增值评价。这种优秀学生因增值空间有限而不可能获得较大进步幅度,进而得到较低增值评价结果的现象就是天花板效应。

例如,假设小王和小李两名学生的入学成绩分别为60 分和90 分,其年级排名百分等级分别是30%和85%。经过一个学期的学习后,他们的等值化成绩分别为72 分和96 分,年级排名百分等级分别为40%和95%。也就是说:小王的分数增长了12 分,年级排名提升了10 个百分点;小李的分数增长了6 分,年级排名也提升了10 个百分点。这时,若简单地比较分数增值量,则小王(增长12 分)大大高于小李(增长6 分)。可事实上,由于不同能力层次者的竞争实力不同,一个人的分数由90 分提升到96 分,要大大难于从60分提升到72 分;一个人的分数年级排名,从超过全年级85%提升到95%要远比从超过全年级30%提升到40%难得多。这就是说,优秀学生小李因为其增长空间有限而得到了不公平的增值评价,他遇到了发展空间不高的天花板问题。

给学生发展设置天花板的常见表现是要求所有学生在教学过程中必须“齐步走”,并且不能“超纲”。例如,要求全年级的教学进度完全一致,甚至规定在考试中用高阶思维解决低阶问题也不能得分,就是人为设置天花板的常见表现。产生类似问题的主要原因是当今流行的固定班级授课制,以及类似于“学生认知能力提前发展的做法会造成学业负担过重”的错误观念。其实,并不是那些促进学生认知能力提前发展的做法,而恰恰是那些控制学生认知能力提前发展的做法和那些让学生在低阶思维层次开展大量低水平的机械重复的“刷题”训练,导致学生的学业负担过重。比如,代数思维对于大多数优秀小学生来说并不是什么难事,高等数学思维对于大多数优秀高中生而言也不是什么难事。那种只能用算术思维而不准用代数思维解决算术问题的小学“刷题”培训,以及整个高三年级都在用初等数学思维而不是用高等数学中的微积分思维、线性代数思维、不确定性概率思维等解决高中数学问题的“刷题”行为,正是加重学生学业负担的罪魁祸首,是人为设定学生成长空间,造成增值评价中天花板效应的主要原因。

值得说明的是,个体之间存在差异是一种客观的存在,因此,对于资质不同的个体不必设定完全一样的天花板高度。比如,存在读写障碍的学生或存在数学学习困难的学生,国家可以制定不同的天花板,即推出有效的特殊教育措施,实施不同的增值评价标准,而不应该把这批学生列入学校正常的增值评价范围,否则,会给学校的增值评价带来不公平的结果。

二、常用的增值评价模型无法破解天花板效应

在实施增值评价的过程中,国际上经常采用的方法主要有三大类。一是基于纵向等值分数量表的方法,如增分模型(gain score)、循成长轨迹渐进 模 型(trajectory model)、 等 级 变 化 模 型(categoricalmodel)。二是基于回归分析的方法,如残差模型(residual)、投射模型(projection)、学生成长百分位(student growth percentile,SGP)模型。三是基于多变量复杂设计模型的方法,如多层次线性回归模型(hierarchical linear modeling,HLM)等。[3]不过,这些方法在处理天花板效应时效果都不够理想,现对其中几种常用方法及其局限进行探讨。

1.增分模型

增分模型指的是用学生“出口”成绩减去“入口”成绩的评价方法,即学生在接受了一段时间的学习或干预实验之后,其后测分数(出口)与前测分数(入口)之差可以作为增值的指标,当这个差值大于0 时表明该学生进步了或增值了,否则,说明该学生退步了或没有增值。

使用增分模型的前提条件是:多次测评的内容基本一致;多次测评的信度一致;分数转换到同一个分数度量系统(量表)之上。也就是说,卷面原始分数被科学地转换到了参照点相同、单位也相同的量表之上,实现了测验分数的平行等值或垂直链接。[4][5]此外,差值范围的解读还需要结合测量误差进行,若差值落在正常的误差范围之内,则不能有力支持学生进步或退步的推断。

这种方法仅仅给出了如何计算增值幅度的算法,未能触及优秀学生升值空间不足的问题,因此,它无法破解增值评价中的天花板效应。

2.循成长轨迹渐进模型

循成长轨迹渐进模型是研究者根据最初若干次(比如最初3 年)测评数据的“增分量”变化趋势,评判未来“增分量”是否符合该趋势的方法。若达到或超过期望值,则表示学生进步了,否则表示没有进步或退步了。使用该方法的前提条件是:多次测评的内容基本一致;测验分数经过平行等值或垂直链接。此外,分数的波动范围也需要结合测量误差进行解读。

这种方法的重点是对评价对象的成长轨迹进行评估,没有触及优秀学生升值空间有限的问题,因此它也不能破解增值评价中的天花板效应。

3.等级变化模型

等级变化模型是一种考察学生历次测评的等级变化和变化者比例的方法。学生“由较低等级跨入较高等级”表示他进步了,否则表示没有进步或退步了。

这种方法的重点是对评价对象的分数等级变化情况进行评估,没有触及优秀学生升值空间有限的问题(比如,级别为最高等级A 等的学生,无论他如何升值也仍然是A 等),因此它也不能破解增值评价中的天花板效应。

4.残差模型

残差模型首先利用前测和后测成绩建立线性回归模型,然后考察实测分数与预测分数之差。差值为正表示学生成长较好,差值为0 表示学生没有增长,差值为负数表示学生退步了。(差值需要与测量误差综合使用)

这种方法的重点是对评价对象的成长幅度与理论模型的预测值进行比较,没有触及优秀学生升值空间有限的问题,因此也不能破解增值评价中的天花板效应。

5.学生成长百分位模型

SGP 模型是一种根据学生后测成绩在以往同层次群体中相对位置的变化情况做出增值判断的方法。一般地,以往分数等级相同的学生,他们的后测得分不可能仍然相等,而会呈现为某种条件分布。图1 是来自以往11 个成绩等级学生群体的后测分数分布示意图。

图1 以往11 个成绩等级学生群体的后测分数分布

就每个等级群体而言,若学生的后测得分(正常情况下每个组都表现为正态分布)超过了其同群体50%的人,则说明他进步了(有增值),反之,说明他没有进步(没有增值)。

SGP 模型的主要特点是强调与过去水平相当的群体做比较,而不是简单地根据进步幅度做比较,因此,该方法部分缓解了优秀学生上升空间不足的矛盾。不过,SGP 也有几个明显的缺陷。例如,它不适合做绝对评价,因为SGP 模型永远会有而且只有50%的个体实现了增值,另外50%的个体必须是退步的;计算方法比较复杂,教师、学生及家长不太容易理解;增值结果为顺序变量值,不利于数据的深度挖掘;对以往成绩极端群体(高分组和低分组)的评价不够准确;当生源内部差异不大时评价结果容易受随机误差影响等。[6]

三、破解增值评价中天花板效应的三种思路

由上文分析可知,目前常用的增值评价模型都会遇到天花板效应,并导致对优秀学生和优质生源学校增值评价不公平。要解决这个问题,不妨改进教育教学模式、创新评价技术。现笔者提出以下三种具体思路供大家参考。

1.研发并应用学生发展量表

该思路指的是研究者利用大数据或代表性样本资料,首先研发一些学生发展量表,建立全国或局部地区同层次人群的发展曲线(全国常模或地方常模),然后参照常模判断某校学生的增值情况。由于发展量表可以兼顾标准参照(绝对评价)和常模参照(相对评价)的特点,即既考察学生成长的绝对量,又考察学生发展的相对量(相对于同层次人群的进步幅度),所以它可以通过与同层次学生比进步幅度的绝对值方法,较好地破解增值评价中的天花板效应。

目前的增值评价技术主要分为两大类型,即绝对评价和相对评价。为了解决增值评价中的天花板效应,可以通过大数据分析,首先构造出个体的年龄或年级成长曲线(常模),研发出一个具有很高信度、效度及公平性的发展量表,然后将个体的成长曲线与大众或其所属群体的代表性成长曲线做比较。若实际成长曲线高于对应的参照值,则表明该学生或群体进步了或发展得更好了;反之,则说明没有进步或没有增值。图2[7]是某校各年级言语思维能力增长曲线与全国同年级学生言语思维能力增长曲线的比较(基于垂直链接的等值分数)。

图2 某校各年级言语思维能力增长曲线与全国同年级学生言语思维能力增长曲线的比较

由图2 可知,这所学校各个年级学生的言语思维能力比全国同年级学生发展得好,但该校学生的言语思维能力在7 年级阶段出现了下滑现象。这是因为该校7 年级招收了大量随机派位的学生,这些随机派位的学生学习基础偏弱。

应用学生发展量表的突出特点是兼顾了绝对评价和相对评价的优点,基本破解了优秀学生或优质生源学校增值空间不足的难题。一方面,由于采用了等值量表分数进行增值评价,所以可以得出所有学生的成长轨迹(这时的学生发展量表与“循成长轨迹渐进模式”类似,但强调以代表性群体的成长曲线为常模,作为增值评价的依据)。另一方面,由于各种能力层次的学生主要是与同层次的学生做比较,只要本校学生的进步幅度比全国同年级学生的进步幅度大,就表明其增值效果良好,从而避免了高分段学生增幅不够大而显得工作业绩不明显等天花板问题。

2.提升学生成长的天花板高度

根据笔者的一项实验研究[7],某优质生源学校6 年级学生的认知发展水平已经达到了正常高一学生的水平(尽管知识量没有达到这么高)。对于这个层次的学生,解决增值评价中天花板效应的有效办法是提升学生成长的天花板高度。

具体办法或者是把常规课堂变成探究式学习课堂,如使用项目式学习(project-based learning)或翻转课堂等手段让学生体验探究的过程;或者是专门开设高阶思维能力发展课程,如鼓励学生用代数思维方法解决算术思维问题,用分析性思维(analytical thinking)和审辩性思维(critical thinking)等言语思维(verbal reasoning)方法处理单词、词组及知识点等问题。

在国外很多学校,分层教学设置优才课程而不是“尖子班”的思路,包括部分高中学校给优秀学生提供大学先修课程(AP 课程)的办法,就从根源上解决了增值评价空间不足的问题。这就是说,没有必要逼着小学生大量做题,这样只能锻炼他们用算术思维解答简单的代数问题的能力,也没有必要逼着高三学生限定在高中层次大量“刷题”,这样只能锻炼他们用初等数学思维解决数学问题的能力。若能鼓励学生用代数思维解决算术问题,用高等数学思维解决初等数学问题,用分析性思维、审辩性思维、创新思维等处理中文学习中记叙文、说明文、议论文的阅读理解、书面表达与口头表达等问题,则可以从教育思想和教学模式上破解天花板效应。换句话说,这时候的增值评价的目标不能局限在学生是否进步等“贴标签”层面,而应该定位在以评促学层面,重点是在增长知识的同时,提高学生的认知加工水平或思维能力层次。

3.拓宽学生横向发展的空间

正如人的身高、体重、外貌千差万别,每名学生的知识结构和层次、能力结构和层次、兴趣爱好和个性特征也是千差万别的。因此在学生完成学业的过程中,个体差异也是必然存在的。一名“小个子”可以很喜欢打篮球,但无论他如何努力也不可能达到姚明这样的高度。因此,对于“小个子”来说,理智的做法是保留个人爱好,同时寻找另外的发展通道,比如学习体操。因为在体操项目上,个子小是必要条件,像姚明那样的“大个子”反而成为其劣势。同样,面对语文、数学、外语、物理、化学、生物、政治、历史、地理等必修学科,万一自己是其中某些科目的“小个子”,硬逼着自己往前冲一定会事倍功半。这时候,无论采用什么方式开展增值评价,“小个子”永远没有出头之日。解决这个问题的有效办法是找出自己的“长板”,发现自身的长处,并设法利用长处获得自身的生存与发展机会。从增值评价角度说,国家对有读写障碍或数学学习困难的学生设定不同的天花板,可以较好地避免低评学校增值业绩等不公平问题。

值得说明的是,学习困难学生遇到的天花板其实主要受制于自身的资质而不是外界的现有天花板,解决这类问题的正确思路是完善综合评价。从国外很多高校招生的实践情况看,许多一流高校给各种学业成绩平平而身怀某种绝技的人预留了大量招生指标,就比较好地解决了学科成绩后进生升值空间有限的问题。这就是说,增值评价应该考虑对学生不同方面进行评价,不能局限在“学生学业成绩”维度上比进步(即不能提倡“学科考试分数论”),更不能把学生多个维度的表现成绩合成某个总分来实施综合评价或增值评价,因为不同性质的指标合成一个总分比进步的做法,就像把人的身高、体重、心跳次数合成一个总分一样荒唐。由于综合评价不是本文的讨论重点,所以此处从略。

总之,实施增值评价对于鼓励后进学生的成长很有意义,但常用的增值评价方法难以破解天花板效应,可能导致对优质生源学校不公平,以及薄弱学校增值到一定高度后无法持续提升的评价结果。本文提出了破解增值评价中天花板效应的三种思路,即研发并应用学生发展量表、提升学生纵向成长的天花板高度、拓宽学生横向发展的空间。其中,学生发展量表方法兼顾了绝对评价和相对评价的特点,在破解增值评价中的天花板效应方面很有价值,另外两个思路则侧重教育教学模式的改进。

猜你喜欢

优秀学生天花板效应
敲碎天花板之后 广汽埃安AION LX Plus
铀对大型溞的急性毒性效应
懒马效应
感觉
职务纵有“天花板”,干事也没有
优秀学生的九个学习细节
冼星海等人应该是“国立音专”的优秀学生
为取消“省级优秀学生保送”叫好
应变效应及其应用
延期