APP下载

高校学生评教有效性和可比性分析

2023-11-25王珠冉

宿州教育学院学报 2023年5期
关键词:评教检验班级

王珠冉 陈 波

(江苏第二师范学院数学科学学院 江苏·南京 210000)

一、问题提出

学生评教制度起源于20 世纪20 年代的美国,因其能在一定程度上反馈教学质量,从而被其他国家高校广泛采用。 目前,学生评教成为国内各高校教学质量管理的一种重要手段,也是教学评价体系重要的组成部分。 然而,学生在评教过程中极易受主观因素影响,使得评教分数存在一定的偏差。 若直接使用原始评教数据,则不能客观反映教师真实的教学水平。 因此,有必要对原始评教数据进行合理的加工。 包水梅和陈嘉诚[1]学者基于L 大学三个学期2139 门课程分析学生评教的有效性, 探究影响评教的因素;郭东威和宋树林[2]学者应用科利法,借助教师在同一班级学生评教的等级信息进行评价。 本文则采用Tukey's Test 方法,保证数据有效的前提下, 使用K-W 检验探究主观因素是否对评教过程造成影响。 其次,以班级和课程性质将数据划分为二维数组,计算每组标准分用于最终学院教学排名。 所以该方法在保留原始评教信息的同时,极大程度上降低主观因素带来的误差。

二、研究设计

(一)数据来源与说明

本次研究使用的数据来自J 师范院校2022—2023 学年第一学期学生的原始评教数据,共76796条。 每条评价记录由学生基础信息、教师基础信息、课程基础信息和二十二项评价指标(详见表1)。其中二十项指标针对教师的教学态度、教学方法和教学内容方面进行评价, 评分方式采用李克特5 级量表:1 代表非常不满意,2 代表比较不满意,3 代表一般满意,4 代表比较满意,5 代表非常满意。 另外两项则注重学生的课堂收获, 采用文本的方式记录。此外,每学期由质评处发布学生评教和教师评学通知,依托综合信息平台开展,年级辅导员和二级学院教学院长督促,学生参评率较高。 可见数据具有一定的代表性,其研究结果对提高我国高校学生评教有效性和可比性具有较强的参考价值。

表1 评价指标

(二)数据清洗

为保证数据的质量和可信度,在分析数据前对76796 评教信息进行清洗。

剔除缺失值。 学生通过网络平台完成评教过程, 评价系统只有填写完所有指标才可以进行提交,因此,原始数据非常完整,不存在缺失问题。

剔除异常值。 部分学生在评教过程中过于受主观因素影响,变成离群点,影响后期数据的有效性。面对这种情况,常见处理方法是以全部评教信息为整体,剔除前后10%的数据。 而教师授课是以班级为单位, 故本文考虑四分位数, 采用Tukey's Test方法剔除偏离班级的异常值。

最大值估计=Q3+k(Q3-Q1)

最小值估计=Q1-k(Q3-Q1)

这里取k=3,即保留总分在[最小值,最大值]范围内的评教信息,剔除极度异常值。 筛选后,有效评教数据有74533 条,有效率为97.05%。

(三)数据信效度分析

本文采用SPSS.25 对清洗后的数据进行信效度检验。 经过信度分析, 得到克隆巴赫Alpha 系数为0.992,即评教数据具有较好的信度。效度方面(详见表2),KMO 值为0.966,巴特利特球形度检验对应P值趋近于0, 说明评教指标的设计也具有一定的信度,适合提取因子。

表2 KMO 和巴特利特检验

因此,对数据进行探索性因子分析,结果显示因子提取效果一般。 为探究具体原因,输出20 项评价指标之间的相关系数矩阵,发现指标之间的相关性大多集中在0.3—0.4 区间, 相关性并不强烈,这可能是导致因子提取一般的原因。故后文依旧以20项评教指标为基础,进行后续分析。

综上所述,本次实证分析所用的评教数据有效性较高,能够在一定程度上反映学生评教制度的设定与实践结果的真实可靠性。

(四)数据的差异性

基于国内外研究成果发现,学生评教过程易受众多主观因素影响[3-6]:教师上课要求严格会影响评教分数偏低;学生评教分数高低往往与课程性(公共课、学科基础课、专业课和实训课)、重要度和难易程度有关;不同学科背景的学生,因其思考方式有一定差别,对教学质量的关注点也会不同,从而导致评教结果存在差异性。

为验证以上因素是否在学生评教过程中起到一定的影响,本文采用合适的统计方法进行分析。

1.课堂管理与满意度

为探究学生评教过程是否受教师课堂要求严格这一因素影响,将指标3(课堂管理要求严格)与指标20(对教师总体满意)进行独立性检验。

H10:教师课堂管理严格与学生对教师的满意度之间独立;

H11:教师课堂管理严格与学生对教师的满意度之间不独立。

通过卡方检验,对应卡方值为7318.7,P 值趋近于0,认为拒绝原假设,接受备择假设,认为教师课堂管理严格与学生对教师的满意度之间不独立。 进一步通过对应分析,观察二者之间一一对应关系。

图1 中1—5 代表学生对教师课堂管理评价,“非常不满意”“非常满意” 则表示学生对教师总体满意度。 从图1 第四象限可清晰看出,在“课堂管理严格=5”处,除了对教师非常满意外,确实存在部分学生因为教师课堂管理严格而导致对教师的整体满意度不高。 观察源数据,可知对教师总体满意度在1—3 分的学生共计2736 人,其中学生认为课堂管理严格即分值在4—5 分的人数占69.23%。

图1 课堂管理与教师总体满意度对应分析

2.不同学科是否具有一定差异性

本文根据课程性质将有效评价数据分成4 组:公共课、学科基础课、专业课和实训课。 组内基础信息详见表3。

表3 课程性质分组信息

根据分组信息,可以看出专业课评价条数较多,实训课评价条数最少。这与学校和专业制定的人才培养方案相关, 大一年级基本是公共课和学科基础课,大二大三开始接触专业课程,只有少部分专业有实训课。从均值角度分析,各组之间分值几乎稳定在85 左右,差距不大。 但是实训课对应方差值较大为93.30,可见学生对于实训课程的感受不太相同。

为进一步检验,不同课程性质对评教数据是否具有影响,本文拟采用单因素方差分析。 方差分析是英国统计学家R.A.Fisher 提出的对两个或多个样本平均数差异显著检验的方法,先决条件需要满足同方差性。 以课程性质分组,通过方差齐性检验,对应P 值趋近0,故认为数据不满足齐方差性。此时考虑采用Kruskal-Wallis 检验, 非参数方法的优势之一: 不要求样本数据来自何种总体分布。 Kruskal-Wallis 检验基于Wilcoxon 秩和检验, 其原假设为M1=M2=…=Mk, 目的是检验不同分组之间中位数是否相同。 其中为k 分组数,Mi 为第i 组样本总体的中位数。 若拒绝原假设,则说明k 组之间的中位数不全相同,即k 组样本不全来自一个总体。 现假设:

H20:不同课程性质的评教数据分布相同;

H21:不同课程性质的评教数据分布不相同或不全相同。

经检验,对应P 值趋近0,故拒绝原假设,接受备择假设, 不同课程性质的评教数据不全来自同一总体,即认为不同课程性质对学生评教过程有影响。

3.不同班级是否具有一定差异性

以班级作为评教数据划分依据,主要验证具有不同学科背景的学生评教结果是否存在差异性。 通过R 共分出208 个班级, 大四学生都在校外实习,所以没有参与此次评教。 而不同班级之间存在样本量差距偏大的情况,故依旧考虑K-W 检验。

H30:不同班级的评教数据总体分布相同;

H31:不同班级的评教数据总体分布不相同或不全相同。

经检验,对应P 值趋近0,故拒绝原假设,接受备择假设, 不同班级的评教数据不全来自同一总体,即认为不同学科背景的学生在评教过程对学生有影响。

(五)数据的可比性

尽量避免以上因素对评教的影响, 本文通过R语言,从课程性质和班级两个维度进行分类,计算标准分,以此增加评教数据的可比性。

根据表4 前后评教排名对比,并咨询S 学院督导、领导和同行意见后,一致认为使用标准分进行排名更为合理,与日常听课感受更为相同。 比如排名靠前编号5 和4 的两名教师曾获校教学十佳等多项教学荣誉, 排名靠后的教师较多是新进教师,还有教学进步学习的空间。 编号18,19 和21 等教师查看原数据,存在学生报复性评教的情况。 标准分值的区间也相应扩大,可比性增加的同时,更能体现教师教学水平存在的差异性。

表4 S 院评教排名前后对比

(六)文本评价分析

J 师范院校除了20 项5 级评分性指标,还包括2 项文本性指标, 主要用于询问学生的课堂收获和反思。 本文以词云统计表的形式展现,如图2.

图2 词频统计图

由图2 可知,关于课堂收获情况,学生留言中的正向情感词偏多,其中“喜欢”和“知识”占据前两名。 而通过询问学生给后者学习该门课程的建议时,学生的回答也在一定程度上代表了自身对该课程学习的反思。 学生留言较多的关键词是“认真听课”“完成课后作业并及时复习”, 可见学生学习态度是积极向上的。

结 语

由原始数据可知,学生评教结果具有较高的信度和一致性。 这说明大多数学生是本着认真负责的态度完成对教师教学的评价,且反馈正向积极。 因获取数据的总体分布不知,且按组划分后,样本数据具有异方差性。 因此采用非参K-W 方法得出课程性质与学生的学科背景对评教结果有一定的影响。 通过卡方分析和对应分析,得出存在因教师对课堂管理严格而对教师总体满意度偏低的现象。 因此,若直接进行均值法,对个别教师的评教结果不公平也不科学。 对数据清洗后的结果,以学科性质和班级两个维度进行分类,借助R 软件计算4×208组的标准分。 此举在保留原始信息的同时,能够在很大程度上减少因学生主观因素带来的误差。 以S学院评教数据为例,证明利用标准分排名结果更能反映教师教学的真实水平。

在实证分析中,发现现有的评教制度和实施存在一定的问题。 现针对问题,提出如下相关建议:

第一,评教指标个数偏多且紧密性不强。 效度检验结果证明一致性较高,但本文在进行探索性因子分析时,提取因子并不显著,可见指标之间存在一定的相关度但并不高。 建议高校相关部门设置指标时, 可以参考现有量表事先设置好问卷结构,提高结构一致性。

第二,评教过程缺少质量控制环节。 评教指标的设计可以适当加入2-3 道陷阱题目,防止学生为节省时间,或在没有仔细阅读指标后打出统一的分数。 依赖Tukey's Test 方法仅仅能剔除极度异常值,无法剔除不认真评教的数据。

第三,部分班级学生参与评教的自主性有待加强。 计算标准分时,出现缺失值,究其原因在于剔除异常值后, 该班级仅剩1~3 个相同的有效分数,不存在波动性。 故部分学院仍需加大教学质量监督力度,提高学生主动参评率。

猜你喜欢

评教检验班级
序贯Lq似然比型检验
地方高校教学评价指标制订与评教数据分析
班级“四小怪”
如何构建和谐班级
2021年《理化检验-化学分册》征订启事
对起重机“制动下滑量”相关检验要求的探讨
关于锅炉检验的探讨
高校学生网上评教的探索与实践
不称心的新班级
高校学生评教的问题与对策——以中国矿业大学为例