医药类院校教师教学水平学生评教的多元概化分析

2022-07-30邓皓远殷建忠

昆明医科大学学报 2022年7期

程楠，邓皓远，殷建忠，吴蒙，罗媛，孟琼

（1）昆明医科大学公共卫生学院，云南昆明 650500;2）保山中医药高等专科学校，云南保山 678000;3）南京医科大学公共卫生学院，江苏南京 210000;4）贵州医科大学公共卫生学院，贵州贵阳 550025）

国家教育部每年都要发表《全国普通高校本科教育教学质量报告》[1]，可见高等教育大众化后，各高校教学质量已成为社会关注的热点话题，而高校教师的教学质量高低能够一定程度上折射学校的教学水平。学生是教师开展教学的主体，对教师的整体素质水平有直观的了解，很多研究者认为开展学生评教可以增强教师关注学生的课程体验，可以促进教学质量的提升，能为高校管理者提供决策依据[2]。有学者[3]认为学生评教是维持医学教学专业发展的最重要、最低廉方式之一，其中医学生个人兴趣和特殊动机可能会导致普通高等教育与医学教育学生评教差异[4]。在学生评教过程中，研究者常常关注评价工具质量如何、抽选多少个学生进行测量合适、不同测量时间和不同测量场景下研究结果是否有差异等问题。要探查回答以上问题，就需要运用现代测量理论中的概化理论来分析。概化理论包括了一元概化理论（univariate generalizability theory，UGT）和多元概化理论（multivariate generalizability theory，MGT）。多元概化理论是在单变量概化理论基础上发展起来的，能处理多维度、多侧面情况下的特质测评，是一种备受关注的现代教育测量理论[5]。相较于经典测量理论，MGT 的优势在于用一次测量的数据资料，研究者可以在多个概化全域下，计算不同测量侧面样本容量下的误差方差分量和信度系数。本研究通过对《医药类院校教师课堂教学水平学生评价量表》进行多元概化理论分析，旨在评价其测量学信度的同时对各维度条目数优化提出建议，并确定学生评教实践中适宜的学生人数。

1 对象与方法

1.1 研究对象

随机抽取某医科大学2018 年9月至2019 年1 月修流行病学的5 个班级（由5 位不同教师授课），对选中班级的全体学生共422 人发放问卷进行课堂教学水平评价调查，排除无效问卷1 份，最终纳入问卷421 份。

1.2 研究设计

采用多元随机双面嵌套不平衡测量设计(s•:t•)×i°，其对应的一元概化设计为(s:t)×(i:h)，测量目标为教师的教学水平，有两个测量侧面，测量侧面中i为量表的条目，s为评价者学生，h表示量表的领域。该设计不仅考虑评教学生s嵌套于被评教师t中，同时考虑评价量表不同条目分属于不同领域即评价条目嵌套于维度h中，两者交叉设计，即由ns位学生使用同一份划分为nh个维度、每个维度含有ni个条目的量表来评价教师t。

1.3 学生评教量表的制定

在自主研制的《高校教师教学水平学生评价指标体系》量表[6]基础上，经过教师和学生进行访谈→提出增补条目→德尔菲专家咨询法筛选条目→课题组讨论后，新增9 条目形成了《医药类院校教师课堂教学水平学生评价量表》，量表总共33 个条目，划分为教学组织（5 个条目）、教学领域（7 个条目）、教学方法（8 个条目）、教学态度（7 个条目）、教学效果（6 个条目）等五个领域。评分采用Likert scale 五点评分（1=一点也不；2=有一点；3=有些；4=相当；5=非常）。

1.4 数据统计与分析

使用Epidata3.1 软件建立数据库，采用双录入并逻辑核查。运用mGENOVA 软件，概化理论分为G 研究和D 研究，首先在G 研究中估计各种误差来源的方差分量及其占比，然后在D 研究中利用G 研究结果通过调整各测量侧面的样本数以改变测量设计，重新构建各概括全域[7]，分别计算出各领域相对误差和绝对误差的方差分量、各领域概化系数和可靠性指数、合成的相对误差与绝对误差方差分量、合成的概化系数和可靠性指数等指标，从而提出量表条目数分配优化建议和评价者最适宜人数的建议。

概化理论中的绝对误差（Δ）是指被试观测值与概化全域上的全域分数之差，而相对误差（δ）是指所有随机误差引起的测量误差。概率理论中有两个反映信度的指标分别是概化系数和可靠性指数，概化系数（G）被定义为测量目标的有效方差占测量目标有效方差与相对误差方差之和的比值；而可靠性指数（Φ）被定义为测量目标的有效方差占测量目标有效方差与绝对误差方差之和的比值。即概化系数和可靠性指数的计算公式如下：

式中，σ2(P)表示测量目标的方差分量，σ2(Δ)表示绝对误差的方差分量，σ2(δ)表示相对误差的方差分量。

本研究设定当概化系数或可靠性指数在0.80及以上时研制的量表信度较好。

2 结果

2.1 评价者基本信息

参与评教的421 名学生中有6 名学生性别信息缺失，其中男性153 人（占36.9%）；女性262人（占62.3%）。年级构成方面：二年级学生有39 人，占9.3%；三年级学生有282 人，占67.0%，四年级学生有100 人，占23.8%。专业构成方面：医学实验技术班39 人，临床医学班90 人，全科医学班119 人，临床医学班（全科方向）73 人，预防医学班100 人。

2.2 G 研究主要结果

对各个领域的变异来源分解后发现：学生嵌套于教师效应的方差分量最大，学生条目交互并嵌套于教师的效应其次，条目效应及条目教师交互效应的方差分量均较小。横向比较反映教师（t）的各领域方差分量，最大的是教学方法，其次是教学效果，最小的是教学组织，见表1。

表1 各领域方差及协方差分量估计Tab.1 The estimated variance-covariance components for every domain

2.3 原始测量长度的D 研究

原始测量长度条件下的多元D 研究结果呈现于表2 中。各领域上，相对误差方差和绝对误差方差均小于0.05，概化系数均大于0.8，可靠性指数除教学组织与教学方法两个领域大于0.8 但小于0.7 外，其余领域均大于0.8。总量表上看，合成相对误差方差和合成绝对误差方差小于0.005，合成概化系数为0.915 2 和合成可靠性指数为0.898 1。

表2 基于原始测量长度条件下多元D 研究结果Tab.2 D-study results for design based on original test length

进一步分析表明：在教学内容、教学态度和教学效果领域中，领域全域分数对合成全域分数的方差贡献率接近各领域条目数比例；而在教学组织领域与教学方法领域中，领域全域分数对合成全域分数的方差贡献率与领域条目数比例间相差较大，见表3。

表3 各个领域的领域条目数比例与方差贡献率间比较Tab.3 Comparison between the CRCUS and the PDS in every domain

2.4 调整条目侧面样本数的多元D 研究

鉴于教学组织和教学方法领域可靠性指数小于0.8，基于原始量表各个领域的条目分配情况（模型1），在这教学组织和教学方法领域上分别增加1 个条目，而在其余领域分别减少1 个条目形成了模型2；在这教学组织和教学方法领域上分别增加2 个条目，而在其余领域分别减少3 个条目形成了模型3。结果显示无论增添还是删减条目数，对合成概化系数和合成可靠性指数均影响较小。即使将教学组织和教学方法领域的条目数增加为7 条和10 条时，领域可靠性指数也仍然小于0.80。即使教学内容、教学态度和教学效果三个领域条目减少为原来一半，各领域概化系数和可靠性指数也仍大于0.80，见表4。

表4 不同测量长度下各领域及共性量表的两信度系数间比较Tab.4 Comparison of two reliability coefficients of every domains and universe under different test length

2.5 调整学生侧面样本数的多元D 研究

为探讨保证一定测量信度前提下需要的最少学生人数实施了一系列D 研究。通过保持原始量表测量条目数不变，而调整学生人数来形成不同模型再计算各模型的概化系数和可靠性指数。其中模型A 保持了原始测量学生数（各班人数依次为90、119、73、39、99），模型B、模型C 及模型D 依次是调整各班人数为原始人数的2/3、1/2及1/3（无法整除时四舍五入）；模型E 至模型F中各班人数一致，即班级数为5，每班抽样人数相等，从模型E 到F 各班学生数依次为90、60、30、28、27、25、20。结果发现若按模型H（五班各取样28 人）来抽取学生，合成概化系数和合成可靠性指数仍然在0.8 以上；若按模型I（五班各取样27 人），合成概化系数等于0.8 但合成可靠性指数低于0.8。若按模型K（五班各取样20 人），合成概化系数和可靠性指数均是小于0.8 但大于0.7，见表5。

表5 不同样本下各领域及共性量表的两信度系数间比较Tab.5 Comparison of the two reliability coefficients of every domains and universe under different samples size

3 讨论

G 研究发现变异来源中条目及教师条目交互效应的占比均较小，提示量表条目变异小，测量工具质量好。而学生嵌套于教师效应的占比最大，提示在学生评教中影响教师水平的有很多是来自学生方面的因素，如有研究显示男女两类学生对于不同性别教师评价具有差异[8]，亦有研究认为学生对教师的教学评价更多在于学生期望值与实际教学距离[9-10]。在五个领域中，教学方法和教学效果两领域方差分量具有更大变异性，提示在学生评教中教师的教学方法和教学效果对最终评价影响较大。

概化系数及可靠性指数均可作为该量表评价信度指标，其中概化系数侧重指示常模参照测验，可靠性指数侧重指示标准参照测验。通常对同一个领域，概化系数高于可靠性指数。教学水平评价的应用可能有两个目的，一是应用评价结果对教师水平排序以便开展绩效考核，此时属于常模参照测验；二是建立一个水平线以评判教师教学水平是否达到某个标准，此时属于标准参照测验。通常研究者决策风险越高，对信度系数的要求越高[11]。关于信度系数多大时表示信度较好，多数研究者[12-13]认为：概化系数或可靠性指数在0.80 及以上时表示测量工具信度较好。学生评教的结果有可能用于对教师水平进行排序，也有可能是需要建立一个应达到的水平线。结合本研究中原始测量长度下D 研究的结果（合成概化系数及合成可靠性指数均高于0.80），量表已达常模参照测验及标准参照测验要求，测量信度好，可推广于实践应用。而各领域的概化系数均大于0.80，仅有教学组织和教学方法可靠性指数低于0.80 但大于0.70，提示这两个领域可作为下一步量表优化重点领域。

本研究尝试通过增加教学组织和教学方法领域的条目数来提高这两个领域的可靠性指数，但发现条目增加对可靠性指数影响甚微，因此建议若需修订量表，可考虑在教学方法和教学组织内容上修订或合理划分新领域。另一方面，实际学生评教中，同样信度下条目精简的量表更佳，本研究以保证信度系数达到0.80 标准为前提，对教学内容、教学态度和教学效果等三个领域的条目数进行减少方向的调整，结果发现以上三个领域条目数减少为原来一半后信度依旧较好。因此下一步修订时，可考虑将教学内容、教学态度和教学效果等三个领域的条目数调整为4、4、3。

有研究[14]表明不同人数学生评教样本数对评教结果具有显著影响，本研究也同样发现在现有量表各领域条目分配方案下，学生容量越大信度系数越高，但是实际测评中，笔者期望能够确定信度较好前提下的最少学生人数。如前所述，本研究以信度系数在0.80 以上为信度好的标准，若目的是按某一水平线来评价教师教学水平是否达标，则每班最低需抽取25 人；若目的是依据学生评教结果对教师教学水平进行排序，则每班需最低需抽取28 人。