高校如何提升学生评教效度？<br/>——澳大利亚高校学生评教最大差异量规及其启示

高校如何提升学生评教效度？
——澳大利亚高校学生评教最大差异量规及其启示

2020-02-15毛俊芳顾鸣洲

开放教育研究 2020年1期

高巍毛俊芳叶飞顾鸣洲

(1.华中师范大学教育学院，湖北武汉 430079；2. 华中师范大学研究生院，湖北武汉 430079；3.华中师范大学数学与统计学学院，湖北武汉 430079)

学生评教是高校教学质量监测的重要手段，在国内外高校得到广泛应用。学生评教的总结性功能为教师的评聘、管理以及职业发展决策提供了依据，形成性功能让教师获得学生对课堂教学及课程实施的反馈和建议。我国传统的学生评教量规大多由管理者、教学论专家开发，学生依据现成量规的评教指标打分，完成对授课教师的评价，其优点是指标体系明确、操作方便、统计简单，问题是所拟定的教学评价指标是不是学生认可的重要指标？所有指标的重要性在学生心目中是否有优次之分？针对上述问题，澳大利亚芬恩(Finn)和卢维埃(Louviere)开发了最大差异量规(Best-Worst Scaling,简称BWS)评教工具，能够有效提高学生评教效度，为教师及教学管理部门提供更全面科学的教学诊断与反馈。目前国内已有学者关注该量规，但对其教育应用研究甚少，本文对其研发过程及在高校学生评教工作中的应用进行系统介绍，为我国高等教育教学评价提供借鉴。

一、研发背景

20世纪初，美国普渡大学首次开展学生评教，研发出第一份学生评教量表(Stalniker，1928)。此后，大学生评教制度在西方确立并延续了近一个世纪，到1993年，美国已有85.7%的高校开展学生评教(Centra，1993)。进入21世纪，学生评教制度日趋成熟，西方学者开始重新审视学生评教，其成果主要集中在学生评教的作用(Onwuegbuzie， 2009)、学生评教的信度与效度(Feldman，1977；Wachtel，1998)、评教结果的影响因素(Kenneth，1996)以及评教量规及其指标体系(Marsh，1984)等。我国学生评教起步较晚，实践中尚存如下问题：一，学生评教由高校教学行政管理者实施，重视其终结性评价功能，较少兼顾其诊断与反馈功能，最后异化为提高行政效率的工具(孟凡，2010；温文君，2012)；二，评教过程敷衍了事，一方面，学校对学生评教意义的宣传不到位(邢政权，2017)，另一方面，学生评教时间较仓促，欠深思熟虑(薛蕾，2017)；三，学生评教量规研发不科学，单一刻板，程式化，未凸显学生的主体地位等(汪利，2007；钟锦文，2007)。

综观国内外研究，如何通过研发科学评教量规进而提高学生评教的信效度是当前研究的核心问题。随着研究的不断深入，我们发现我国高校普遍采用的学生评教量规的李克特量表与综合评分法的局限愈发凸显，现行评教量规亟待改进。李克特量表作为最具代表性的评教量规，被广泛应用于收集学生评教数据。在李克特量表中，每个问题设“非常同意” “同意”“不一定”“不同意”“非常不同意”五级，分别记为5分、4分、3分、2分、1分。统计数据只需计算所有指标项目总分即可。

李克特量表的操作流程简单清晰，如实施得当，能够获得较真实的学生评教数据，但该量表存在较明显的问题，即答题者易受到一贯应答模式的影响。不论实际问题是什么，答题者可能采用以下三种方式作答：默认选择(倾向于选择同意选项)，极端选择(倾向于选择量表两端的选项)和中点选择(倾向于选择中立选项)(Baumgartner，2001)。不同的个体对题项理解不同，个人的感知特点也有所不同，学生在某一题选择“同意”，代表的程度可能与另一名同学选择的“非常同意”的程度相同，这种感知和理解差异降低了李克特量表的准确性。因此，教育工作者常常难以通过李克特量表获得真实的教学及课程评价反馈。此外，综合评分法是在制定评价指标的基础上，通过打分量化处理划定等级的指标。如某一评价项目包含两个评价指标，指标一得分30，指标二得分20，简单相加，则此项得50分。

综合评分法简洁直观，学生仅对细化的指标打分即可，但应用于学生评教存在较大局限。首先，综合评分法与李克特量表存在相似的缺陷，即学生对指标表述的理解存在较大的感知偏差，导致学生的内在评分标准不一，直接降低综合评分法的准确性。另外，学生对教师评分存在主观偏见，导致教师的各个指标得分受学生个人倾向的影响，降低了评分客观性，评价结果参考性有限。

综上所述，目前普遍应用的两种学生评教方法——“李克特量表法”和“综合评分法”存在共同局限，即评分主观性强、学生间的感知方式不同，决定了这两种方法都无法获得精准的评教结果。20世纪90年代，澳大利亚学者芬恩和卢维埃研发的最大差异量规弥补了此局限。随后，卢维埃和加拿大学者马利(Marley)共同对其进行详细阐释，最大差异量规随即在社会科学研究领域广泛应用。2013年，新南威尔士大学堪培拉分校胡伯斯(Huybers，2013)将其应用于澳大利亚高校的学生评教活动。胡伯斯不仅用最大差异量规进行教学及课程评价，还关注评价指标在学生心目中的内隐排序，深入挖掘学生重视的教学及课程评价维度，同时为评价指标的调整提供依据，提升学生评教的科学性。在最大差异量规中，每个问题相当于一个项目组，每个项目组包括三个及以上评教标准，学生在每个问题中指出“最好”(“最适用”或“最重要”)和“最差”(“最不适用”或“最不重要”)的评教标准。此量规的研发，解决了传统评教法存在的效度问题，为教师及教学管理者提供了新的思路。

二、实践应用

澳大利亚高校利用最大差异量规进行学生评教，既包括对教师教学及课程绩效的评价，也包括对教学及课程评价标准的绩效—重要性程度分析；不仅有传统评价量规功能的绩效评价机制，还能通过绩效—重要性程度分析将实际教学效果与学生对教学评价指标的重视程度结合起来应用。绩效—重要性程度分析结果表明，学生十分重视但实际教学效果欠佳的维度要予以高度关注，实际教学绩效得分高而学生认为不重要的维度反映了教师努力方向存在偏离。

(一)绩效评价

绩效评价包含教学绩效评价和课程绩效评价。教学绩效评价是对教师教学实际效果的评价，课程评价是从学生角度围绕课程目标、课程内容、课程实施方式等对课程作出评价。我们既可以通过分析绩效评价改进教学行为与课程实施问题，也可以将绩效评价与指标重要性程度评价相结合，分析绩效—重要性程度。使用最大差异量规进行绩效评价，一般遵循订立指标、编制和填写问卷、处理数据等步骤。

1.订立指标

绩效评价在最大差异量规评价机制中承担着传统评价量规的功能。澳大利亚高校传统评教量规由九项独立指标及总体评价构成，但最大差异量规的评价指标体系涵盖教学绩效和课程绩效维度，因此可剔除总体评价这一项目(见表一、表二)。

表一教学评价标准

表二课程评价标准

2.编制与填写问卷

在教学绩效和课程绩效评价问卷中，各有十二道题，每道题由对应的九个评价指标中的三个构成。评教时学生要在表格最左侧指出与指标描述最相符的一项指标，在最右侧指出与指标描述最不符的一项指标，表三、表四即教学绩效评价表和课程绩效评价表中四道题的设计示例。表三列出的十二个问题是与授课教师教学效果相关指标的不同组合。表四中的十二个问题是与课程评价指标的不同组合。

表四课程绩效评价

学生回答每道问题时，实际上是在完成三次两两比较。在上述示例中，“该教师为我的学习提供了有用的反馈”在表三中出现四次。在每一题中，该指标与两个不同的教学绩效评价指标进行一次两两比较，在整套问卷中就能与所有其他指标进行一次两两比较。“该课程十分具有挑战性和趣味性”在表四中同样如此。这种编制题目方式的优点在于：研究者能依据多次两两比较的结果得到各项评价指标的准确排序，所以全套评价表足以反映学生对所有评价指标的内隐排序。

3.处理数据

研究者收集数据后，有多种统计方式(见表五)。就可操作性而言，区间水平度量和比例度量更适用于教育研究；而就准确性讲，区间水平度量相较于其他数据处理方式，所得到的结果具有同等程度的科学性，也是最简便直观的方法。在应用区间度量法处理数据时，一项指标在问卷中出现四次，所以评价数据的取值在-4～4之间。例如，表三中“该教师为我的学习提供了有用的反馈”被选为最相符一次，被选为最不符两次，最终的评价数据即为-1。计算每个指标的评分平均数，即可得到最终评价数据,得分越高说明教师在该指标上表现越好。

表五最大差异量规数据统计方式

(二)绩效—重要性程度分析

绩效—重要性程度分析是在教学绩效和课程绩效评价的基础上进行的。除关注绩效之外，它还关注对相应指标的重要性程度评价。研究者完成绩效评价与重要性程度分析后，还可将两者进行综合分析。

1.重要性程度评价

和绩效评价问卷类似，重要性程度评价问卷同样由十二道题构成，每道题也由九个评价指标中的三个构成。但在指标选项的表述上，重要性评价指标体现一般性，而非指向某一教师或课程。例如，原指标“该教师激发了我对他所教学科的兴趣”，在重要性程度评价问卷要改为“教师能激发我对他所教学科的兴趣”。各指标做相应修改后，形成重要性程度评价问卷指标。

在具体操作的过程中，学生在表格最左侧指出自身认为最重要的一项指标，在最右侧指出三项指标中最不重要的一项指标，表六、表七即为教学评价指标重要程度评价表中三道题的设计示例。表六中的十二个问题，列出了与教师教学效果相关指标的不同组合。表七提供的十二个问题中，每题列出了三个课程评价指标的不同组合。

表六教学评价指标重要性程度评价

表七课程评价指标重要性程度评价

2.散点图分析

完成了绩效评价和指标重要性程度评价后，可进行绩效—重要性程度分析。开展绩效—重要性程度分析的原因在于：当学生对教师教学行为和课程实施作出评价时，教育工作者可能会简单地假设所有评价指标处在同等重要的位置，但事实往往并非如此，教师极可能会从评估结果中得出不正确的推论。这就可能导致教师开展错误的教学变革，抑或忽略在表现欠佳方面作出努力。另外，常用的评价标准往往由标准开发者根据他们所认为的评教重点制定，促进学生的发展，但该标准的制定过程没有学生参与，简言之，我们无法确定这些指标是否真正反映了学生学习的切实需求。为了弥补评价标准开发的缺陷，我们需要通过学生对评价标准本身的重要性程度进行评判。

绩效—重要性程度分析十分重要的，因为不同学生群体的教学需求不同。例如，学科基础知识好的学生可能希望教师组织多样化的教学活动，鼓励学生进行知识的实践应用；学科基础知识掌握欠佳的学生可能希望教师呈现清晰的知识结构，促进学生对基础知识的掌握和技能的提升。因此，通过绩效—重要性程度分析，教师可根据不同学生群体的需求因材施教。绩效—重要性分析以四象限的形式展示研究成果(见图1)。

图1 绩效—重要性程度分析

调查得到的评教指标数据以散点形式分布在图中。根据数据所在的象限，一方面，学生认为很重要但实际绩效评价较低的象限(B部分)值得特别关注；另一方面，学生认为不重要但实际评价较高的象限(D部分)，反映了教师需要调整的教学行为。如果对所得数据进行深入研究，还可在散点图上添加45度对角线(Nale，2000)。对角线上的散点意味着答题者认为该评价指标的重要性程度与绩效相符，即任何高于(低于)对角线的点意味着评价指标的重要性得分高于(低于)绩效得分。例如，处于A1部分的散点意味着，尽管教师在该指标绩效方面的得分为正向得分，但相对于其重要程度而言，教师仍需要在这一象限付出更多的精力，提高绩效；处于A2部分的散点意味着教师在该指标上分配了过多的精力，相对于其重要性程度而言，教师需要调整努力的方向；处于C1和C2部分的散点则意味着学生认为该指标不重要，评教标准制定者需要重新考虑该指标的合理性，教师也不宜把在此象限的投入置于首位。

3. 数据分析

本文以最大差异量规法说明澳大利亚新南威尔士大学堪培拉分校实施的学生评教。参与调查的学生共26人，数据通过区间水平度量法处理(Huybers，2013)。

1)教学评价数据及分析

在新南威尔士大学堪培拉分校的一门课程中，研究者分别进行了教学评价和课程评价，其中既包含教学和课程绩效评价，也包括教学和课程的绩效—重要性程度分析。教学评价数据见表八。

表八最大差异量规学生评教数据

表格中的数据经过区间水平度量法处理获得，括号内的数字列出了各项评价指标得分排序。仅对教学绩效数据进行分析可看到，教师在教学过程中需要更好地激发学生对所教学科的兴趣，更好地培养学生的批判性思维能力，更加关注对学生学习的有效反馈。将绩效评价和重要性程度评价的数据结合起来，绘制得到图2所示的散点图。

图2 教学绩效—重要性程度分析

由散点图分析可知，绩效偏低的三项指标中，仅指标2、4在“非常重要—低绩效”这一需要重点关注的象限边缘，所以我们认为该教师的教学总体良好，无较大缺陷。然而，值得思考的是，指标3(教师鼓励我进行批判性思考)的两项得分均为负值，而批判性思维是高等教育培养人才的基本要求，它的重要程度不容忽视，教师和教学管理者应对其深入探究。而在“高绩效”区域内，教师在指标1和指标8的重要程度得分高于绩效得分，说明教师在这两个维度虽然付出了努力，但相对于学生的需求而言，还需要改善；教师在指标7上的重要程度得分低于绩效程度得分，这说明教师在课堂上过于关注知识结构的呈现，可适当调整后续教学行为；教师在指标5、6、9上的绩效得分高于重要程度得分，且学生对这三个评教指标评价较低，重要程度得分为负值，说明教师需要减少此维度的投入。

2)课程评价数据及分析

研究者同样在课堂上进行了课程绩效评价和针对评价指标的重要性程度评价，所得的评价数据见表九。从课程绩效评价数据进行分析可知，这门课程若要改善绩效得分现状，要着重从指标1、2、3、7、9进行改善，且学生对课程目标的了解程度及课程目标的实现程度是需要改进的关键。对课程的绩效—重要性程度作进一步分析，得到散点图3。

表九最大差异量规课程评价数据

图3 课程绩效—重要性程度分析

三、应用价值

与教学评价相比，课程评价得分散点多围绕45度线附近，而指标2、4、6、7在图中的分布较分散，应得到教师和教学管理者的关注。指标2和指标7是学生认为重要的，但其绩效得分为负值，这说明教育者应重视课程反馈，也要促进课程评价方法和课程任务的转变，使其适应学生发展；指标6的绩效得分虽为正值，但低于重要性程度得分，教师应在阐明课程评价要求方面作出努力；指标4的绩效得分相对于重要性程度得分较高，且重要性得分为负值，这表明教师应在综合考虑多方面因素基础上，适当减少该方向的投入。

最大差异量规采用对比法评估学生对各评价指标的隐性排序，促使学生在每道题的评价指标间进行权衡，评估各评价指标的相对重要性，有效规避了李克特量表法和综合评分法的局限。

从实施方式看，最大差异量规不仅能对教学及课程实施效果进行绩效分析，更关键的是，可根据绩效—重要性程度分析衡量教学和课程绩效满足学生学习需求的程度。一方面，教师可能忽视某一评价指标在课堂上的体现，或者教师在某一指标上的努力程度不能满足学生的实际需求，通过绩效—重要性程度分析，教育研究者能够深入探究这方面存在的问题，为教师实际教学提供诊断与改进建议。另一方面，教师教学过程中可能会过于看重某一指标的实施效果，而对学生来说，教师所付出的这些努力不是他们所需要的，教师能够依据绩效—重要性程度分析结果，调整教学投入。

从评教标准看，最大差异量规深入探析了学生对评价指标的内隐排序，重视学生对评价量规本身进行评价，依据学生对“权威”评价指标的排序及赋分情况，对当前评教量规做出调整，充分发挥学生评教的主体作用。

从实施结果看，最大差异量规可捕捉学生对评教指标的细微感知差异，使评教结果更具区分度，为教师提供更真实、精准的反馈。学生在作答过程中需对每道题的评价指标进行反复斟酌比对，选出“最好”和“最差”选项，提高了评教结果的客观性。

四、启示与建议

科学的教师评价体系能够促进学生成长及教师专业发展，推动教育改革(高巍等，2017)。最大差异量规在国际高校评教领域应用广泛，其评价过程操作简便，且能真实反映学生或评价主体的诉求，在最大程度上凸显不同个体对相同评价指标的评价差异，对我国高校学生评教具有借鉴价值。

(一)深入关注学生需求，优化评教指标

最大差异量规的关键突破在于它将课程及教学评价指标的重要性程度分析置于重要地位。通过学生对重要性程度的分析，结合课程及教学的实际成效，研究人员能够辨明当前评价标准制定工作的薄弱点，充分体现以生为本的思想。

很多高校强调向学习范式转型，强调确立学生的主体地位，服务学生的学习需求，挖掘学生的发展潜力(高巍，2013)，学生评教的意义也正是通过学生参与指标确立与诊断反馈来改进教育教学工作，满足学生的发展需求(高巍，2012)。正因如此，我们应看到最大差异量规对学生学习需求的重视，将学生广泛纳入高校课程及教学评估标准的制定及完善过程中。

(二)综合考量评教背景，提升评价效度

最大差异量规作为一种新型教学及课程评价量规，体系完备、指标科学、操作简单，但在不同的评教背景下，研究者可对评教量规作出相应的改良。本文所讨论的评教群体是大学本科生与研究生，他们自我意识强，认知能力高，意愿表达清楚，因此可结合访谈等法，充分吸纳学生意见。

(三)科学创新评教量规，提高评价质量

最大差异量规在澳大利亚高校的应用，使原有学生评教发展有了新突破，让学生开始认真思考各项评价指标的意义，权衡每个问题的各项评价指标，做出更符合实际的选择。因此，该量规让学生评教结果更具差异性，相比传统的李克特量表和综合评分法，让学生评教的数据更具反馈价值。

在我国，学生评教常被视为教师和学生的业外负担，评教方式单一，评教过程形式化，致使师生难以积极开展课程及教学评价，导致评教几无反馈作用。对于实践而言，新型评教量规能够激发教师和学生的评教热情，能够提升学生评教实施效果。

(四)精准分析评教结果，强化反馈功能

只评分无反馈，是目前我国学生评教普遍存在的不足。即便有反馈，往往只是简单地将评价分数转达给教师(高巍等，2019)。其原因是常用的评教量规本身不能准确测量学生的真实想法，无反馈价值；评教结果也没有得到足够的关注和重视。

最大差异量规的提出，不仅是评教形式的创新，还让我们看到了深入分析评教数据的重要性。在绩效—重要性程度分析时，最大差异量规采用散点图分析，直观地呈现数据间的对比关系，给教育研究工作者带来了深入的思考。这启发我们，不论采用何种评教量规进行学生评教活动，在获得评教数据后，不能仅从表面的数据分布做简单判断，应选择合适的方式呈现数据，精准分析数据，让教学与课程更好地服务于学生学习，促进学生发展。

五、结语

最大差异量规对指标数量和学生数量的要求较高。由上文可见，当指标数据为九个时，该量规效果良好。如需更多指标，该量规的问卷则需要增加更多的题目或者每道题匹配更多的选项，学生填写及后续数据处理分析的工作量较大。就学生人数而言，以1-2个小班为宜，人数过少会使打特低或特高分的学生对数据平均值影响过大，因为处理数据时，每个学生给指标的打分在-4到4之间，存在内部差异。而人数过多则无法兼顾学生间的差异性，例如文科生和理科生对于某项教学指标的绩效存在较大分歧时，我们无法精准判断是由于教师教学的影响还是由文理科差异决定的。另外，最大差异量规对指标表述的准确性要求较高，如果语言不甚精准，容易造成歧义。例如表二中的一项指标“该课程十分具有挑战性和趣味性”，学生对同一选项里的“挑战性”和“趣味性”可能存在困惑，因为挑战性和趣味性不是一个逻辑维度的概念，存在“有挑战性但无趣”或“有趣却无挑战性”的课程。最大差异量规选择适合的指标，要求语言精准。

最后需指出的是，最大差异量规相对于传统评教量规有了显著改进，运用得当，可改善目前高校学生评教单一机械、同质化问题。但是最大差异量规系评价量规，要真正发挥其效能还需高校教学管理部门科学制定评价指标、规范师生参评程序、科学分析评教结果。我国高校教育教学模式、教学方法以及学情等与国外有差异，不能全然机械照搬他国其经验。后续对最大差异量规的研究和应用，一方面应该关注最大差异量规评教后，如何针对学生认为绩效低或重要性低的指标，进行后续的追踪与改进；另一方面，需要关注如何开发一套适合我国高校的指标体系并且切实提高师生的评教参与度，防止出现“为了评教而评教”的简单化、程式化、功利化倾向。